MiniMax发布M2.7:首个能自主迭代自身模型的AI,Agent能力质变
3月18日,中国AI公司MiniMax发布了最新模型MiniMax M2.7,这是首个具备深度参与迭代自身模型能力的AI系统。M2.7不仅能执行传统的文本生成和推理任务,还能自行构建复杂的Agent工具链(Agent Harness),并利用这些工具完成高度复杂的生产力任务。通过100轮以上的自主迭代循环,M2.7实现内部评测30%性能提升;在Kaggle竞赛中自主斩获9金,SWE-Pro达56.22%接近GPT-5.3 Codex水准。
MiniMax M2.7:首个能自主迭代自身模型的AI,Agent能力实现质变
2026年3月,中国AI公司MiniMax正式发布了其最新旗舰模型——**MiniMax M2.7**。这不仅是一次常规的模型性能迭代,更是AI发展史上的一个重要里程碑:M2.7是迄今为止首个被设计为**深度参与自身模型演化**的大型语言模型,标志着AI系统正式从"被动工具"迈向"主动进化实体"。
自我迭代:AI发展的范式转变
传统AI模型的改进依赖于人类工程师的介入——收集数据、设计实验、调整参数、重新训练。这是一个高度依赖人力的迭代周期,也是AI能力提升速度的瓶颈所在。MiniMax M2.7打破了这一范式。
根据MiniMax官方发布的技术博客,M2.7在自身开发过程中扮演了关键角色:工程团队让模型**自主更新记忆、构建数十个复杂的Agent技能**,并将这些工具用于辅助强化学习实验。更进一步,M2.7还能根据实验结果**主动优化自身的学习流程和工具链**,由此形成了一个真正的模型自演化闭环。
这个闭环的核心逻辑是:M2.7构建并监控自己的强化学习实验台(harness),识别失败轨迹,规划改进方案,修改代码,运行评估,比较结果,最终决定保留还是回滚变更。在一次内部测试中,M2.7在无人干预的情况下,完整执行了超过**100轮**这样的"分析-改进-验证"迭代循环,最终在内部评测集上取得了**30%的性能提升**。
自主Kaggle竞赛:从50%到74%的进化
为了验证M2.7的自主进化能力,MiniMax团队设计了一项颇具挑战性的测试:让M2.7参加OpenAI开源的**MLE-Bench Lite**机器学习竞赛集,包含22个独立的机器学习任务,每个任务均可在单张A30 GPU上运行。
M2.7的表现令人印象深刻。在不依赖任何人工干预的情况下,M2.7通过自设计的三模块Agent系统——**短期记忆、自我反馈、自我优化**——持续提升自身在竞赛中的表现。每轮迭代后,模型生成记忆文件,对当前结果进行自我批判,并为下一轮提供潜在优化方向。
经过24小时的自主迭代,M2.7斩获**9金5银1铜**,平均奖牌获取率从初始的约50%跃升至**近74%**,三次运行的平均奖牌率达到**66.6%**。这一成绩在参与测试的所有模型中排名第三,仅次于Opus-4.6(75.7%)和GPT-5.4(71.2%),与Gemini-3.1(66.6%)持平。
值得注意的是,整个过程无需人工介入——M2.7完全自主地分析竞赛规则、制定策略、调整模型超参数(温度、频率惩罚、存在惩罚等),并在多轮迭代中不断优化自身的Agent工具链架构。
软件工程能力:接近顶尖水准
M2.7在软件工程基准测试上的表现同样令人瞩目。
在覆盖多编程语言、被设计为抗数据污染的**SWE-Pro基准**上,M2.7取得了**56.22%**的得分,与GPT-5.3-Codex(56.8%)不相上下。在更接近真实工程场景的**SWE Multilingual**(76.5)和**Multi SWE Bench**(52.7)上,M2.7展现出更为突出的优势。
在端到端完整项目交付场景**VIBE-Pro**上,M2.7得分**55.6%**,与Anthropic的Claude Opus 4.6基本持平——这意味着无论是Web应用、Android、iOS还是仿真任务,都可以直接交给M2.7独立完成。
在需要深度理解系统工程逻辑的**Terminal Bench 2**上,M2.7取得57.0%的成绩;在**NL2Repo**上得分39.8%。这些数据共同证明,M2.7不仅擅长代码生成,更能深入理解软件系统的运行逻辑和协作机制。
一个典型的实际场景是**生产环境调试**。当面对线上告警时,M2.7能够:关联监控指标与部署时间线进行因果推理,对trace采样进行统计分析并提出精确假设,主动连接数据库验证根因,在代码库中定位缺失的索引迁移文件,甚至在提交merge request之前,先通过非阻塞索引创建来紧急止损。MiniMax报告称,在多次实际生产故障中,使用M2.7将恢复时间缩短至**3分钟以内**。
Agent Teams:原生多智能体协作
M2.7在Agent生态建设方面的另一大突破是对**Agent Teams**(多智能体协作)的原生支持。与通过提示词拼凑的伪多智能体系统不同,M2.7将多智能体协作能力内化为模型的原生能力,具体体现在:
- **角色边界稳定**:在复杂状态机中稳定锚定自身角色身份
- **对抗性推理**:主动挑战队友的逻辑和伦理盲点
- **协议遵从**:在多轮扩展交互中保持稳定的指令遵从率
M2.7在**Toolathon**工具调用基准上取得**46.3%**的准确率,达到全球顶尖水平。在MiniMax自建的**MM Claw**评测集上(覆盖个人学习规划、办公文档处理、专业研究、投资建议、代码开发等真实场景),M2.7以**62.7%**的准确率接近Claude Sonnet 4.6的水准。
更值得关注的是,即便同时激活超过**40个复杂技能**(每个技能描述超过2000 tokens),M2.7仍能保持**97%的技能遵从率**——这在高密度工具调用场景下是极为难得的稳定性。
办公场景:专业文档处理的跃升
在专业办公软件领域,M2.7同样取得了显著进步。在衡量领域专业知识与任务交付能力的**GDPval-AA**评测中,M2.7在45个参赛模型中取得**ELO 1495**的最高分,超越GPT-5.3,仅次于Opus 4.6、Sonnet 4.6和GPT-5.4。
M2.7对Word、Excel、PPT的处理能力经过系统性优化,不仅能基于模板直接生成文件,还能按照用户的交互指令对已有文件进行多轮高保真编辑,最终交付可直接使用的可编辑成品。
在金融分析场景中,M2.7能够:自主阅读公司年报和电话会议纪要,交叉对比多份研究报告,独立设计假设并构建收入预测模型,最后基于模板生成PPT和Word研究报告——"像初级分析师一样理解、判断、产出,并通过多轮交互自我纠错"。MiniMax表示,这一能力已经可以作为实际工作流的一线草稿。
与GPT-4/Claude的横向对比
在主要基准上,M2.7与顶级模型的对比如下:
| 基准测试 | M2.7 | GPT-5.3 Codex | Claude Opus 4.6 | Gemini-3.1 |
|---|---|---|---|---|
| SWE-Pro | 56.22% | 56.8% | ~57% | — |
| VIBE-Pro | 55.6% | — | ~56% | — |
| Terminal Bench 2 | 57.0% | 77.3% | — | — |
| GDPval-AA ELO | 1495 | — | >1495 | — |
| MLE-Bench Lite 奖牌率 | 66.6% | — | 75.7% (Opus) | 66.6% |
| MM Claw | 62.7% | — | ~65% (Sonnet) | — |
总体而言,M2.7在软件工程、多轮Agent任务、办公文档处理等核心场景中已进入行业一流阵营,在部分测试上与GPT-5.3 Codex持平,略逊于Claude Opus 4.6,但考虑到M2.7同时是目前自我迭代能力最强的模型,其综合价值不容低估。
面向未来:递归自我改进的雏形
MiniMax在技术博客中明确表达了对AI未来的判断:未来的AI自我进化将逐步向全自主过渡,协调数据构建、模型训练、推理架构、评估等各环节,无需人类介入。
M2.7是这一愿景的"早期回声"——它尚不能完全自主地训练下一代自身,但已经能够在Agent工具链层面完成大量原本需要人工的迭代工作。在MiniMax内部,M2.7正在驱动RL团队的日常实验流程,承担**30%-50%**的工作负载,同时自主收集反馈、构建评估集、优化自身的技能和记忆机制。
当AI能够参与自身的进化,我们正在进入一个全新的时代。M2.7或许只是一个开始,但这个开始已经足够令人瞩目。
总结
MiniMax M2.7的发布具有多重意义:
1. **技术层面**:首个在产品化模型中实现有意义的自主迭代能力,验证了AI自我改进的可行路径
2. **性能层面**:在软件工程、多智能体协作、专业办公等核心场景中达到行业顶尖水准
3. **生态层面**:原生支持Agent Teams、复杂技能调用、多轮高保真编辑,为Agent应用生态提供了更坚实的基础
4. **战略层面**:标志着AI公司从"模型提供商"向"AI原生组织"的转型——MiniMax自身的研发流程已经高度依赖M2.7
MiniMax M2.7现已在MiniMax Agent平台和API平台全面上线,开发者可通过agent.minimax.io和platform.minimax.io接入使用。