AI Scientist: 합성 태스크 스케일링으로 ML 연구 에이전트 훈련

AI가 자율적으로 머신러닝 연구를 수행하려면 핵심 과제는 훈련 데이터를 어디서 조달하느냐입니다. 이 논문은 SWE-agent 프레임워크와 호환되는 ML 과제 태스크를 자동으로 합성하는 파이프라인을 제안합니다. 주제 샘플링, 데이터셋 제안, 코드 생성의 3단계를 다루며, HuggingFace API 검증과 자체 디버깅 루프로 이중 품질 보증을 갖습니다. GPT-5 교사 모델이 생성한 궤적을 Qwen3-4B·Qwen3-8B 학생 모델에 증류한 결과 MLGym AUP 기준 각각 9%, 12% 향상을 달성했습니다.

배경

자율적인 과학적 발견은 인공지능 분야의 가장 야심 찬 목표 중 하나입니다. 최근 AI Scientist, Co-Scientist, AlphaEvolve와 같은 시스템들은 가설 수립, 실험 설계, 결과 분석 등 기본적인 연구 작업을 수행할 수 있음을 보여주었습니다. 그러나 이러한 시스템들은 대부분 강력한 기반 모델 위에 구축된 복잡한 에이전트 아키텍처에 의존할 뿐, 에이전트가 실제로 머신러닝을 수행하는 방법을 체계적으로 가르치는 **원리 있는 훈련 방법론**이 부족했습니다. 프린스턴 대학교와 마이크로소프트 리서치의 연구진인 Ziyang Cai와 Harkirat Behl은 이 격차를 해소하기 위해, 모델의 능력 자체가 아니라 **훈련 데이터의 부재**가 핵심 병목 현상이라고 지적했습니다. 그들은 인간 개입 없이 자동화된 파이프라인을 통해 실행 가능한 머신러닝 연구 환경을 처음부터 생성함으로써 이 데이터를 대규모로 합성하는 해결책을 제시했습니다.

심층 분석

이 연구의 핵심은 **SWE-agent 프레임워크**와 호환되는 머신러닝 과제를 자동으로 생성하는 3단계 합성 파이프라인입니다. 첫 번째 단계인 환경 합성에서는 GPT-5를 사용하여 컴퓨터 비전, 자연어 처리, 강화학습 등 다양한 주제를 샘플링합니다. 제안된 주제를 바탕으로 GPT-5는 작업 설명과 함께 HuggingFace 데이터셋을 제안하는데, 여기서 중요한 공학적 결정은 **HuggingFace API 검증**입니다. 파이프라인은 모델이 제안한 데이터셋이 실제로 존재하는지 검색 API를 통해 확인하며, 일치하는 데이터셋이 없으면 해당 작업을 폐기합니다. 이를 통해 합성 작업이 허구적인 데이터가 아닌 실제 데이터 분포와 구조에 기반하도록 보장합니다. 검증된 작업 설명과 데이터셋을 바탕으로 MLGym 실행 환경과 호환되는 구성 파일, 베이스라인 코드(baseline.py), 평가 스크립트(evaluate.py)가 자동으로 생성됩니다.

두 번째 단계인 환경 검증에서는 생성된 코드가 실제로 실행 가능한지 확인하기 위해 **자기 디버깅 루프(Self-Debugging Loop)**를 적용합니다. 새로 생성된 작업을 MLGym 환경에 연결하여 GPT-5 에이전트를 실행할 때 오류가 발생하면, 파이프라인은 즉시 작업을 폐기하지 않고 오류 로그를 모델에 피드백하여 코드를 재생성하거나 처음부터 다시 생성합니다. 이 과정은 최대 k번까지 반복되며, 인간 개입 없이 수행되며 병렬 처리가 가능합니다. 세 번째 단계에서는 검증된 작업들을 고성능 컴퓨팅(HPC) 클러스터에서 병렬로 실행하여 각 작업당 256개의 에이전트 궤적을 수집합니다. 수집된 궤적은 성공적인 제출이 적어도 한 번 이루어진 경우만 남기는 **성공성 필터링**과 48K 토큰을 초과하는 경우를 폐기하는 **길이 필터링**을 거쳐 약 34,000개의 고품질 궤적으로 정리됩니다. 이 데이터는 GPT-5 교사 모델에서 Qwen3-4B 및 Qwen3-8B 학생 모델로 지식을 증류하는 **지도 미세 조정(SFT)** 훈련에 사용됩니다.

산업 영향

MLGym 벤치마크에서의 실험 결과는 합성 데이터 훈련의 효과를 명확히 보여줍니다. MLGym은 컴퓨터 비전, NLP, 강화학습 등 13개의 다양한 머신러닝 과제를 포함하며, 에이전트는 최대 50라운드까지 추론과 행동을 통해 베이스라인 코드를 개선해야 합니다. 평가 지표로 사용되는 AUP(Area Under Performance Curve)는 서로 다른 점수 척도를 가진 하위 과제들의 성능을 통합하여 비교할 수 있게 해줍니다. 64회 실행의 집계 결과, SFT를 거친 Qwen3-4B 모델은 기본 모델 대비 AUP가 **+9%** 향상되었고, Qwen3-8B 모델은 **+12%** 향상되었습니다. 13개 과제 중 9개에서 훈련된 모델이 기본 모델보다 우수한 성능을 보였으며, 이는 합성 파이프라인이 벤치마크 특화된 트릭이 아닌 이전 가능한 연구 기술을 포착했음을 시사합니다. 다만, MS-COCO 과제에서는 성능 향상이 관찰되지 않았는데, 이는 파이프라인이 복잡한 스타터 코드 구조를 충분히 커버하지 못했기 때문으로 분석됩니다.

이 접근 방식은 소프트웨어 공학 분야의 SWE-Smith와 유사한 맥락을 가집니다. 두 연구 모두 정적 텍스트 코퍼스에서의 수동적 지식 학습이 아니라, **실행 가능한 환경에서의 대규모 합성 경험**이 능력 있는 에이전트를 만드는 핵심이라고 주장합니다. 1,000개의 주제 샘플링에서 시작하여 500개의 작업과 34,000개의 궤적을 인간 감독 없이 생성한 이 파이프라인은 컴퓨팅 자원이 허용하는 한 확장성이 무한합니다. 더 많은 주제, 더 긴 디버깅 루프, 더 많은 궤적 수집을 통해 성능 한계를 계속 끌어올릴 수 있는 구조를 갖추고 있습니다.

전망

저자들은 이 연구의 한계와 미래 방향에 대해 솔직하게 인정하고 있습니다. 현재 평가는 단일 벤치마크인 MLGym에 국한되어 있어, MLE-Bench나 MLRC-Bench 등 다른 작업 분포로 일반화될 수 있는지에 대한 실증적 증거는 부족합니다. 또한 HuggingFace 검증, 자기 디버깅 루프, 성공성 필터링 등 개별 구성 요소들의 독립적인 기여도에 대한 아블레이션 연구가 누락되어 있습니다. 교사 모델인 GPT-5가 해결하지 못한 과제는 훈련 세트에 포함되지 않아 시스템적인 맹점이 발생할 수 있으며, SFT 방식은 탐색이나 혁신성을 명시적으로 최적화하지 못한다는 한계가 있습니다.

미래 연구 방향으로는 합성 작업의 평가 점수를 보상 신호로 활용하는 **강화학습(RL)** 도입이 제안됩니다. 다만 각 롤아웃당 긴 GPU 훈련 시간과 과제 간 이질적인 보상 척도로 인해 보상 설계가 쉽지 않은 과제가 남아 있습니다. 또한 NanoGPT와 같은 고품질 코드베이스에 조건을 부여하여 더 복잡한 작업 분포를 생성하거나, 에이전트가 ML 문헌을 검색하도록 통합하여 진정한 과학적 혁신을 유도하는 방향이 모색되고 있습니다. 이 논문은 AI 연구자를 완전히 대체한다고 주장하지는 않지만, 합성-but-grounded 연구 환경에서 구조화된 경험을 제공하는 것이 의미 있는 ML 연구 에이전트를 훈련시키는 실용적인 경로임을 입증했습니다. 이는 차세대 기본 모델의 출현을 기다리는 것이 아니라, 현재 존재하는 기술을 통해 AI 과학자를 구축할 수 있는 현실적인 로드맵을 제시합니다.