Self-Evolution of MiniMax-M2.7

Overview

MiniMax M2.7: Early Echoes of Self-Evolution 这篇发布文同时讲了两件事。第一，M2.7 是相对 M2.5 更晚发布的新模型版本，本身代表一轮新的模型迭代。第二，MiniMax 让 M2.7 参与改进开发和研究中使用的 agent system，并把这条闭环命名为 self-evolution。

发布文里展示得最具体的递归对象，是围绕模型运行的一整套外层系统：harness、memory、skills / MCP implementation、workflow guidelines、scaffold loop、evaluation workflow、内部 eval set，以及部分推理时采样参数。模型先在这些系统里执行任务，收集失败轨迹和反馈，再修改局部结构，重新评测，并根据结果决定保留还是回滚。

这条闭环直接作用在 agent system 上，也参与下一代模型的迭代流程。官方文字说明了 research harness 会驱动 “the iteration cycle that produces the next generation of models”，也说明了 M2.7 “deeply participating in its own evolution”。官方没有公开拆解外层系统改进如何映射到最终发布版权重，也没有给出贡献比例。公开信息已经足够支持两个判断：M2.7 作为 API 模型是新的权重版本；发布文中的 self-evolution 主要展示的是 evaluation-driven agent-system recursion，重点落在外层执行系统的持续优化。

Motivation

如果 agent 只是一次性调用工具，那么模型能力的上限主要由当前 prompt 和当前工具集合决定。MiniMax 要解决的问题更接近真实研究与工程环境：任务持续时间长、上下文异构、跨团队协作频繁，而且很多瓶颈不在单次推理本身，而在外层执行系统。

发布页对这个问题的描述很直接。MiniMax 内部的 research agent harness 需要同时面对数据流水线、训练环境、基础设施、跨团队协作和持久记忆等对象。在这种环境里，固定 scaffold 很容易很快失配。真正限制 agent 上限的，往往是系统能否基于当前失败继续积累经验，并在下一轮任务里持续变好。

因此，self-evolution 的动机是把模型放进修改自身工作介质的闭环。memory、skills、loop、evaluation set 和 workflow guideline 一起进入优化过程之后，agent 才能在长周期任务里积累局部结构，并持续抬高下一轮任务的起点。

Methodology

MiniMax 在发布页中实际展示了两层闭环。

Layer 1: The Research Workflow Loop

第一层闭环发生在内部 RL 团队的日常研究流程里。研究者先提出实验想法，agent 负责文献检索、跟踪实验规格、组织数据与其他产物、启动实验；实验运行后，agent 再继续做日志读取、调试、指标分析、代码修复、merge request 和 smoke test。

这条链路可以写成：

research idea -> spec tracking -> data / artifact pipeline -> experiment launch -> monitoring -> log analysis / debugging / code fix -> evaluation -> next change

这里的关键在于 实验结果会回流到 agent 的后续决策中。发布页明确写到，M2.7 在开发自身时被允许更新自己的 memory，并为 RL 实验构建数十个复杂 skills；随后再根据实验结果继续改进自己的学习过程和 harness。这说明被优化的对象至少包括：

task memory；
skills / MCP implementation；
harness architecture；
workflow guideline；
internal evaluation set。

这已经进入“模型在任务执行中持续改写框架本身”的阶段。

Layer 2: Recursive Harness Optimization

发布页给出的第二层闭环更接近狭义的 self-evolution。MiniMax 写得很明确：内部 harness 会自动收集反馈、构建内部任务的 evaluation set，并基于这些反馈持续迭代自己的 architecture、skills/MCP implementation 和 memory mechanisms。

这条递归链路可以压缩成：

run tasks -> collect feedback -> build / refresh eval sets -> identify failure trajectories -> change harness components -> re-evaluate -> keep or revert

这里有三个特征。

第一，反馈不只来自最终成败，也来自中间失败轨迹。发布页举的内部 scaffold 例子里，M2.7 连续执行了超过 100 轮的循环：analyze failure trajectories -> plan changes -> modify scaffold code -> run evaluations -> compare results -> decide to keep or revert changes。这说明优化信号来自执行过程本身，而不只是最后一个分数。

第二，修改对象既包括模型使用策略，也包括外层系统结构。MiniMax 提到的有效优化包含三类：

采样参数搜索，如 temperature、frequency penalty、presence penalty；
更具体的 workflow guideline，例如修完一个 bug 后自动搜索其他文件中的同类模式；
scaffold agent loop 的结构优化，例如增加 loop detection。

第一类仍然属于传统 inference-time tuning，第二类已经进入策略规约层，第三类则直接进入 harness 结构层。三者共同构成一个从“怎么采样”到“怎么组织执行闭环”的多层优化。

第三，保留与回滚机制被显式纳入循环。发布页使用的是 compare results -> decide to keep or revert changes。这意味着闭环里已经出现了最基本的搜索结构：提出候选改动，运行评测，比对结果，只保留正收益修改。这一点让它呈现出明显的外层工程搜索特征。

A Simpler Low-Resource Self-Evolution Variant

为了说明这种闭环不依赖重型训练基础设施，MiniMax 还给了一个低资源测试：让 M2.7 在 OpenAI 开源的 MLE-bench 的 Lite 级别 22 个机器学习竞赛任务上做自主优化。

这个版本的 harness 被压缩成三个模块：

short-term memory；
self-feedback；
self-optimization。

每一轮结束后，agent 会生成一个短期记忆 markdown 文件，同时对当前结果做 self-criticism，得到下一轮可能的优化方向。下一轮则基于此前所有轮次积累下来的 memory 与 self-feedback chain 继续做自优化。

这条链路比前面的 research harness 更简单，但结构已经完整：

execute -> summarize state -> criticize current result -> propose next change -> re-run -> accumulate memory

如果把 MiniMax 整篇发布文中对 self-evolution 的描述统一起来，核心思路可以收敛成一句话：

让模型不仅产出任务答案，还产出下一轮更优执行系统所需要的局部结构。

这些局部结构可以是经验、规则、技能、评测样本、回滚决策，也可以是 scaffold 本身的代码修改。

How This Differs from Standard RL

发布页中出现了 RL 团队和实验优化，但这里的 self-evolution 不能直接等同于“模型自己做强化学习”。

普通 post-training RL 的基本对象是 policy update：给定环境、奖励和训练算法，优化模型参数。MiniMax 这里额外优化的是外层执行系统。也就是说，参数学习可能仍然存在，但发布页重点展示的是另一层更外部的优化：

模型是任务执行者；
模型也是失败分析器；
模型还是 scaffold / harness 的局部设计者；
评测结果同时驱动任务选择和系统改写。

从这个角度看，MiniMax 的 self-evolution 可以概括为 policy 与 scaffold 的联合迭代。其中 scaffold 是可被 agent 修改、比较和保留的优化变量。

This Is Not Fully Autonomous Self-Training

发布页也给出了边界。研究者仍然负责 critical decisions and discussions，research harness 是在 researcher guidance 下驱动下一代模型的迭代。文中没有描述一个完全脱离人工监督、能够端到端自主完成数据构造、训练、上线和长期治理的系统。

因此，这里的 self-evolution 更适合被理解为 human-guided recursive agent improvement。模型已经深度参与自己的演化，但闭环的目标设定、关键判断和更高层治理仍然保留在人类手里。

Experiments

发布页给出的证据主要有两组。

第一组证据来自内部 scaffold 优化实验。M2.7 在一个内部编程 scaffold 上连续自主运行超过 100 轮，循环执行失败轨迹分析、计划修改、改 scaffold 代码、跑评测、比对结果和保留/回滚决策。MiniMax 报告，这个过程最终在内部评测集上带来了 30% 的性能提升。这个结果支持的是：agent 对 harness 本身的递归修改可以产生可测的增益。

第二组证据来自低资源自进化测试。MiniMax 让 M2.7 在 MLE Bench Lite 级别的 22 个机器学习竞赛任务上进行 3 次、每次 24 小时的迭代演化。发布页报告最好的单次运行拿到 9 金、5 银、1 铜，三次运行平均 medal rate 为 66.6%。这个结果支持的是：即使把资源压缩到单卡、短时长和简单 harness，memory + self-feedback + self-optimization 的闭环仍然能够持续改善任务表现。

这两组实验共同说明，MiniMax 所说的 self-evolution 至少已经满足两个条件：

优化对象不只包括任务输出，还包括外层系统；
闭环能够在多轮执行中持续积累结构，并反映到后续结果里。

Closing Thoughts

如果只看标题，self-evolution 很容易被理解成模型直接自主改写自己的权重。MiniMax 这篇发布文里更明确的对象其实是 harness recursion。模型先在真实研究与工程环境中执行任务，再把执行结果转成对 memory、skills、workflow、evaluation set 和 scaffold loop 的修改建议，之后重新评测并筛掉无效修改。M2.7 展示的，是模型从“会做任务”进一步进入“会改进做任务的系统”。

References

[1] MiniMax, MiniMax M2.7: Early Echoes of Self-Evolution, March 18, 2026.
[2] OpenAI, MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering, October 10, 2024.
[3] OpenAI, openai/mle-bench, accessed March 26, 2026.
[4] MiniMax, MiniMax M2.5: Built for Real-World Productivity., February 12, 2026.
[5] MiniMax, Forge: Scalable Agent RL Framework and Algorithm, February 13, 2026.

Overview#

Motivation#

Methodology#

Layer 1: The Research Workflow Loop#

Layer 2: Recursive Harness Optimization#

A Simpler Low-Resource Self-Evolution Variant#

How This Differs from Standard RL#

This Is Not Fully Autonomous Self-Training#

Experiments#

Closing Thoughts#

References#