Overview
MiniMax M2.7: Early Echoes of Self-Evolution 这篇发布文同时讲了两件事。第一,M2.7 是相对 M2.5 更晚发布的新模型版本,本身代表一轮新的模型迭代。第二,MiniMax 让 M2.7 参与改进开发和研究中使用的 agent system,并把这条闭环命名为 self-evolution。
发布文里展示得最具体的递归对象,是围绕模型运行的一整套外层系统:harness、memory、skills / MCP implementation、workflow guidelines、scaffold loop、evaluation workflow、内部 eval set,以及部分推理时采样参数。模型先在这些系统里执行任务,收集失败轨迹和反馈,再修改局部结构,重新评测,并根据结果决定保留还是回滚。
这条闭环直接作用在 agent system 上,也参与下一代模型的迭代流程。官方文字说明了 research harness 会驱动 “the iteration cycle that produces the next generation of models”,也说明了 M2.7 “deeply participating in its own evolution”。官方没有公开拆解外层系统改进如何映射到最终发布版权重,也没有给出贡献比例。公开信息已经足够支持两个判断:M2.7 作为 API 模型是新的权重版本;发布文中的 self-evolution 主要展示的是 evaluation-driven agent-system recursion,重点落在外层执行系统的持续优化。
Motivation
如果 agent 只是一次性调用工具,那么模型能力的上限主要由当前 prompt 和当前工具集合决定。MiniMax 要解决的问题更接近真实研究与工程环境:任务持续时间长、上下文异构、跨团队协作频繁,而且很多瓶颈不在单次推理本身,而在外层执行系统。
发布页对这个问题的描述很直接。MiniMax 内部的 research agent harness 需要同时面对数据流水线、训练环境、基础设施、跨团队协作和持久记忆等对象。在这种环境里,固定 scaffold 很容易很快失配。真正限制 agent 上限的,往往是系统能否基于当前失败继续积累经验,并在下一轮任务里持续变好。
因此,self-evolution 的动机是把模型放进修改自身工作介质的闭环。memory、skills、loop、evaluation set 和 workflow guideline 一起进入优化过程之后,agent 才能在长周期任务里积累局部结构,并持续抬高下一轮任务的起点。
Methodology
MiniMax 在发布页中实际展示了两层闭环。
Layer 1: The Research Workflow Loop
第一层闭环发生在内部 RL 团队的日常研究流程里。研究者先提出实验想法,agent 负责文献检索、跟踪实验规格、组织数据与其他产物、启动实验;实验运行后,agent 再继续做日志读取、调试、指标分析、代码修复、merge request 和 smoke test。
这条链路可以写成:
research idea -> spec tracking -> data / artifact pipeline -> experiment launch -> monitoring -> log analysis / debugging / code fix -> evaluation -> next change
这里的关键在于 实验结果会回流到 agent 的后续决策中。发布页明确写到,M2.7 在开发自身时被允许更新自己的 memory,并为 RL 实验构建数十个复杂 skills;随后再根据实验结果继续改进自己的学习过程和 harness。这说明被优化的对象至少包括:
- task memory;
- skills / MCP implementation;
- harness architecture;
- workflow guideline;
- internal evaluation set。
这已经进入“模型在任务执行中持续改写框架本身”的阶段。
Layer 2: Recursive Harness Optimization
发布页给出的第二层闭环更接近狭义的 self-evolution。MiniMax 写得很明确:内部 harness 会自动收集反馈、构建内部任务的 evaluation set,并基于这些反馈持续迭代自己的 architecture、skills/MCP implementation 和 memory mechanisms。
这条递归链路可以压缩成:
run tasks -> collect feedback -> build / refresh eval sets -> identify failure trajectories -> change harness components -> re-evaluate -> keep or revert
这里有三个特征。
第一,反馈不只来自最终成败,也来自中间失败轨迹。发布页举的内部 scaffold 例子里,M2.7 连续执行了超过 100 轮的循环:analyze failure trajectories -> plan changes -> modify scaffold code -> run evaluations -> compare results -> decide to keep or revert changes。这说明优化信号来自执行过程本身,而不只是最后一个分数。
第二,修改对象既包括模型使用策略,也包括外层系统结构。MiniMax 提到的有效优化包含三类:
- 采样参数搜索,如
temperature、frequency penalty、presence penalty; - 更具体的 workflow guideline,例如修完一个 bug 后自动搜索其他文件中的同类模式;
- scaffold agent loop 的结构优化,例如增加 loop detection。
第一类仍然属于传统 inference-time tuning,第二类已经进入策略规约层,第三类则直接进入 harness 结构层。三者共同构成一个从“怎么采样”到“怎么组织执行闭环”的多层优化。
第三,保留与回滚机制被显式纳入循环。发布页使用的是 compare results -> decide to keep or revert changes。这意味着闭环里已经出现了最基本的搜索结构:提出候选改动,运行评测,比对结果,只保留正收益修改。这一点让它呈现出明显的外层工程搜索特征。
A Simpler Low-Resource Self-Evolution Variant
为了说明这种闭环不依赖重型训练基础设施,MiniMax 还给了一个低资源测试:让 M2.7 在 OpenAI 开源的 MLE-bench 的 Lite 级别 22 个机器学习竞赛任务上做自主优化。
这个版本的 harness 被压缩成三个模块:
- short-term memory;
- self-feedback;
- self-optimization。
每一轮结束后,agent 会生成一个短期记忆 markdown 文件,同时对当前结果做 self-criticism,得到下一轮可能的优化方向。下一轮则基于此前所有轮次积累下来的 memory 与 self-feedback chain 继续做自优化。
这条链路比前面的 research harness 更简单,但结构已经完整:
execute -> summarize state -> criticize current result -> propose next change -> re-run -> accumulate memory
如果把 MiniMax 整篇发布文中对 self-evolution 的描述统一起来,核心思路可以收敛成一句话:
让模型不仅产出任务答案,还产出下一轮更优执行系统所需要的局部结构。
这些局部结构可以是经验、规则、技能、评测样本、回滚决策,也可以是 scaffold 本身的代码修改。
How This Differs from Standard RL
发布页中出现了 RL 团队和实验优化,但这里的 self-evolution 不能直接等同于“模型自己做强化学习”。
普通 post-training RL 的基本对象是 policy update:给定环境、奖励和训练算法,优化模型参数。MiniMax 这里额外优化的是外层执行系统。也就是说,参数学习可能仍然存在,但发布页重点展示的是另一层更外部的优化:
- 模型是任务执行者;
- 模型也是失败分析器;
- 模型还是 scaffold / harness 的局部设计者;
- 评测结果同时驱动任务选择和系统改写。
从这个角度看,MiniMax 的 self-evolution 可以概括为 policy 与 scaffold 的联合迭代。其中 scaffold 是可被 agent 修改、比较和保留的优化变量。
This Is Not Fully Autonomous Self-Training
发布页也给出了边界。研究者仍然负责 critical decisions and discussions,research harness 是在 researcher guidance 下驱动下一代模型的迭代。文中没有描述一个完全脱离人工监督、能够端到端自主完成数据构造、训练、上线和长期治理的系统。
因此,这里的 self-evolution 更适合被理解为 human-guided recursive agent improvement。模型已经深度参与自己的演化,但闭环的目标设定、关键判断和更高层治理仍然保留在人类手里。
Experiments
发布页给出的证据主要有两组。
第一组证据来自内部 scaffold 优化实验。M2.7 在一个内部编程 scaffold 上连续自主运行超过 100 轮,循环执行失败轨迹分析、计划修改、改 scaffold 代码、跑评测、比对结果和保留/回滚决策。MiniMax 报告,这个过程最终在内部评测集上带来了 30% 的性能提升。这个结果支持的是:agent 对 harness 本身的递归修改可以产生可测的增益。
第二组证据来自低资源自进化测试。MiniMax 让 M2.7 在 MLE Bench Lite 级别的 22 个机器学习竞赛任务上进行 3 次、每次 24 小时的迭代演化。发布页报告最好的单次运行拿到 9 金、5 银、1 铜,三次运行平均 medal rate 为 66.6%。这个结果支持的是:即使把资源压缩到单卡、短时长和简单 harness,memory + self-feedback + self-optimization 的闭环仍然能够持续改善任务表现。
这两组实验共同说明,MiniMax 所说的 self-evolution 至少已经满足两个条件:
- 优化对象不只包括任务输出,还包括外层系统;
- 闭环能够在多轮执行中持续积累结构,并反映到后续结果里。
Closing Thoughts
如果只看标题,self-evolution 很容易被理解成模型直接自主改写自己的权重。MiniMax 这篇发布文里更明确的对象其实是 harness recursion。模型先在真实研究与工程环境中执行任务,再把执行结果转成对 memory、skills、workflow、evaluation set 和 scaffold loop 的修改建议,之后重新评测并筛掉无效修改。M2.7 展示的,是模型从“会做任务”进一步进入“会改进做任务的系统”。
References
[1] MiniMax, MiniMax M2.7: Early Echoes of Self-Evolution, March 18, 2026.
[2] OpenAI, MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering, October 10, 2024.
[3] OpenAI, openai/mle-bench, accessed March 26, 2026.
[4] MiniMax, MiniMax M2.5: Built for Real-World Productivity., February 12, 2026.
[5] MiniMax, Forge: Scalable Agent RL Framework and Algorithm, February 13, 2026.