MiniMax Releases M2.7: First AI Model That Can Iteratively Improve Itself

MiniMax가 자신의 진화에 능동적으로 참여하는 최초의 AI 모델 M2.7을 출시했다. 100회 이상의 자율 반복으로 내부 성능 30% 향상, Kaggle에서 금메달 9개 획득, SWE-Pro 56.22% 달성으로 GPT-5.3 Codex와 동등한 실력을 입증했다.

배경

2026년 3월, 중국 AI 기업 미니맥스(MiniMax)는 최신 플래그십 모델인 MiniMax M2.7을 공식 출시했다. 이는 단순한 모델 성능의 점진적 개선을 넘어, 인공지능 발전사에서 중요한 분기점이 되는 사건으로 평가된다. M2.7은 지금까지 설계된 대규모 언어 모델 중 최초로 자신의 모델 진화에 깊이 관여하도록 설계된 시스템으로, AI 시스템이 수동적인 도구를 넘어 능동적으로 진화하는 실체로 변모했음을 의미한다. 기존 AI 모델의 개선은 데이터 수집, 실험 설계, 파라미터 조정, 재학습 등 인간 엔지니어의 개입에 의존하는 고비용의 사이클을 겪어왔으나, M2.7은 이러한 패러다임을 깨뜨렸다. 미니맥스에 따르면 M2.7은 개발 과정에서 자신의 메모리를 자율적으로 업데이트하고, 수백 개의 복잡한 에이전트 스킬을 구축하며, 이를 강화학습 실험에 활용했다. 더 나아가 실험 결과를 바탕으로 학습 프로세스와 도구 체인(toolchain)을 능동적으로 최적화하는 진정한 의미의 모델 자진화 루프를 형성했다.

이 자진화 루프의 핵심 논리는 M2.7이 자체 강화학습 하니스(harness)를 구축하고 모니터링하며, 실패 경로를 식별하고 개선 방안을 계획한 후 코드를 수정하고 평가를 실행하여 결과를 비교하는 것이다. 최종적으로 변경 사항을 유지할지 되돌릴지 결정하는 전 과정을 스스로 수행한다. 한 내부 테스트에서 M2.7은 인간의 개입 없이 100회 이상의 '분석-개선-검증' 반복 사이클을 완수했으며, 그 결과 내부 평가 세트에서 30%의 성능 향상을 달성했다. 이는 AI가 자신의 진화에 참여할 수 있음을 실증한 첫 사례로, 기술적 한계를 돌파하는 전환점이 되었다.

심층 분석

M2.7의 자율 진화 능력은 오픈AI가 오픈소스로 제공한 MLE-Bench Lite 데이터셋을 통한 Kaggle 스타일 경쟁 테스트에서 극명하게 입증되었다. 22개의 독립적인 머신러닝 작업으로 구성된 이 벤치마크는 단일 A30 GPU에서 실행 가능하며, M2.7은 인간의 도움 없이 단기 기억, 자기 피드백, 자기 최적화라는 세 가지 모듈로 구성된 자체 설계 에이전트 아키텍처를 활용했다. 각 반복 후 모델은 메모리 마크다운 파일을 생성하고 현재 결과를 자기 비판하며 다음 라운드의 최적화 방향을 도출했다. 24시간의 자율 반복 끝에 M2.7은 금메달 9개, 은메달 5개, 동메달 1개를 획득했으며, 메달 획득률은 초기 약 50%에서 약 74%로 급증했다. 세 번의 24시간 실행 평균 메달률은 66.6%로, Opus-4.6(75.7%)과 GPT-5.4(71.2%) 다음으로 세 번째였으며, Gemini-3.1과 동률을 기록했다.

소프트웨어 엔지니어링 분야에서도 M2.7은 압도적인 성능을 보였다. 다중 언어를 지원하고 데이터 오염에 강건한 SWE-Pro 벤치마크에서 M2.7은 56.22%의 점수를 얻어 GPT-5.3-Codex(56.8%)와 견주었다. 실제 엔지니어링 시나리오에 가까운 SWE Multilingual(76.5)과 Multi SWE Bench(52.7)에서도 우수한 성과를 냈다. 특히 VIBE-Pro 벤치마크에서 55.6%를 기록하여 Claude Opus 4.6과 거의 동등했으며, 웹, 안드로이드, iOS, 시뮬레이션 프로젝트 등을 M2.7에게 단독으로 맡겨도 될 만큼의 완성도를 보였다. 또한 Terminal Bench 2에서 57.0%, NL2Repo에서 39.8%를 기록하며 시스템 수준의 이해도를 입증했다.

실제 프로덕션 환경 디버깅 시나리오에서 M2.7의 능력은 더욱 돋보였다. 온라인 경고 발생 시 모니터링 지표와 배포 타임라인을 상관관계 분석하여 인과 추론을 수행하고, 트레이스 샘플링에 대한 통계 분석을 통해 정밀한 가설을 제시했다. 또한 데이터베이스에 직접 연결하여 근본 원인을 검증하고, 코드 저장소에서 누락된 인덱스 마이그레이션 파일을 찾아냈다. 심지어 머지 요청을 제출하기 전에 비차단 인덱스 생성을 통해 긴급한 손실을 방지하기도 했다. 미니맥스에 따르면 M2.7을 사용한 실제 프로덕션 장애 복구 시간은 3분 이내로 단축되었다.

산업 영향

M2.7의 등장은 에이전트 생태계에 지대한 영향을 미쳤다. M2.7은 프롬프트 엔지니어링으로 땜질한 가상의 다중 에이전트 시스템과 달리, 다중 에이전트 협업을 모델의 네이티브 능력으로 내재화했다. 이는 복잡한 상태 기계 내에서 역할 정체성을 안정적으로 유지하고, 팀원의 논리적·윤리적 맹점을 적극적으로 도전하는 '적대적 추론', 그리고 다중 턴 상호작용 중에도 안정적인 지시 준수율을 유지하는 능력을 포함한다. 도구 사용 벤치마크인 Toolathon에서 46.3%의 정확도를 기록한 M2.7은 미니맥스 내부 평가 세트인 MM Claw에서도 62.7%의 정확도를 보여 Claude Sonnet 4.6에 근접했다. 특히 40개 이상의 복잡한 스킬(각각 2000 토큰 이상 설명)을 동시에 활성화해도 97%의 스킬 준수율을 유지하는 것은 고밀도 도구 호출 환경에서 놀라운 안정성이다.

전문 문서 처리 분야에서도 M2.7은 GDPval-AA 벤치마크에서 45개 모델 중 ELO 1495점을 기록하여 GPT-5.3을 제치고 오픈소스 모델 중 최고점을 기록했다. Word, Excel, PPT 처리 능력이 체계적으로 최적화되어 템플릿 기반 파일 생성은 물론, 사용자의 지시에 따라 기존 파일을 다중 턴으로 고정밀 편집할 수 있다. 금융 분석 시나리오에서는 연차보고서와 이사회 회의록을 자율적으로 읽고, 여러 연구 보고서를 교차 검증하며, 수익 예측 모델을 구축하고 최종 보고서를 생성하는 등 주니어 애널리스트 수준의 능력을 발휘한다. 미니맥스는 이 능력이 실제 업무 워크플로우의 첫 초안으로 사용될 수 있을 만큼의 완성도를 갖췄다고 밝혔다.

또한 미니맥스는 OpenClaw 생태계의 성장에 M2 시리즈가 기여했음을 강조하며, OpenRoom이라는 새로운 인터랙션 시스템을 발표했다. 이는 텍스트 스트림을 넘어 웹 GUI 공간에서 캐릭터가 실시간 시각적 피드백과 장면 상호작용을 통해 환경과 능동적으로 소통하는 시스템으로, OpenRoom의 대부분 코드는 M2.7이 직접 작성했다.

전망

미니맥스는 기술 블로그를 통해 AI의 자진화가 점차 완전한 자율성으로 전환될 것이라고 전망했다. 데이터 구축, 모델 훈련, 추론 아키텍처, 평가 등 모든 단계를 인간 개입 없이 조정하는 시대가 올 것이라는 것이다. M2.7은 이러한 비전의 '초기 메아리'로, 아직 자체 차세대 모델을 완전히 자율적으로 훈련하지는 못하지만, 에이전트 하니스 단계에서 기존 인간 엔지니어가 수행하던 반복 작업을 상당 부분 처리할 수 있다. 미니맥스 내부에서 M2.7은 RL 팀의 일상 업무 부하의 30%~50%를 담당하며, 피드백 수집, 평가 세트 구축, 자체 스킬 및 메모리 메커니즘 최적화를 자율적으로 수행하고 있다.

M2.7의 등장은 기술적, 성능적, 생태적, 전략적 차원에서 모두 중요한 의미를 지닌다. 기술적으로는 의미 있는 자율적 자진화 능력을 제품화된 모델에서 처음 입증했으며, 성능적으로는 소프트웨어 엔지니어링, 다중 에이전트 협업, 전문 문서 처리 등 핵심 분야에서 업계 최정상급 수준에 도달했다. 생태적으로는 네이티브 에이전트 팀 지원과 고밀도 스킬 처리로 에이전트 응용 생태계에 더 강력한 기반을 제공했다. 전략적으로는 미니맥스 자체가 M2.7에 깊이 의존함으로써 'AI 네이티브 조직'으로의 전환을 가속화하고 있다. M2.7은 AI가 단순한 인간 공학의 산물을 넘어 자신의 개발에 의미 있게 기여하기 시작한 순간을 알리는 신호탄이다.