AI Scientist: 합성 태스크 스케일링으로 ML 연구 에이전트 훈련

AI가 자율적으로 머신러닝 연구를 수행하려면 핵심 과제는 훈련 데이터를 어디서 조달하느냐입니다. 이 논문은 SWE-agent 프레임워크와 호환되는 ML 과제 태스크를 자동으로 합성하는 파이프라인을 제안합니다. 주제 샘플링, 데이터셋 제안, 코드 생성의 3단계를 다루며, HuggingFace API 검증과 자체 디버깅 루프로 이중 품질 보증을 갖습니다. GPT-5 교사 모델이 생성한 궤적을 Qwen3-4B·Qwen3-8B 학생 모델에 증류한 결과 MLGym AUP 기준 각각 9%, 12% 향상을 달성했습니다.

AI Scientist: 합성 태스크 스케일링으로 ML 연구 에이전트 훈련하기

핵심 문제: 훈련 데이터는 어디서 오는가?

AI가 자율적으로 머신러닝 연구를 수행하려면 훈련 데이터 조달이 핵심 과제입니다. 이 논문(arXiv: 2603.17216)은 Princeton University의 Ziyang Cai와 Microsoft Research의 Harkirat Behl이 제안한 **완전 자동화된 ML 과제 합성 파이프라인**을 소개합니다.

3단계 파이프라인

1단계: 환경 합성(Environment Synthesis)

1. **주제 샘플링**: GPT-5가 n개의 독립적인 ML 주제 생성 (컴퓨터 비전, NLP, RL, 게임 이론 등)

2. **태스크·데이터셋 제안**: 각 주제에 대해 태스크 설명과 HuggingFace 데이터셋을 제안. **HuggingFace Search API로 실제 존재 여부를 검증**하고, 일치하는 데이터셋이 없으면 해당 태스크 폐기.

3. **설정 및 코드 생성**: MLGym 호환 설정 파일, 기준 구현(baseline.py), 평가 스크립트(evaluate.py) 자동 생성.

2단계: 자체 디버깅 루프를 통한 환경 검증

각 생성 태스크를 MLGym에서 GPT-5로 실행. 오류 발생 시 확률 p_debug로 오류 로그를 모델에 피드백해 코드를 재생성하는 **자체 디버깅 루프** 수행. 최대 k회 반복 후에도 실패하면 폐기.

3단계: 궤적 생성 및 필터링

검증된 태스크를 HPC 클러스터에서 병렬 실행 (태스크당 256개 목표). 성공 제출이 1회 이상인 궤적만 보존, 48K 토큰 초과 궤적 폐기. 최종 약 **34,000개 궤적**을 SFT 훈련 데이터로 구축.

GPT-5 → Qwen3 지식 증류

1,000개의 ML 주제에서 500개 유효 태스크 합성. GPT-5(교사 모델) 궤적을 Qwen3-4B·Qwen3-8B(학생 모델)에 증류.

MLGym 실험 결과

MLGym 벤치마크(13개 ML 과제) 평가, 핵심 지표 AUP(Area Under Performance Curve):

  • **SFT-Qwen3-4B**: 기준 대비 **+9%** 향상
  • **SFT-Qwen3-8B**: 기준 대비 **+12%** 향상
  • 13개 개별 태스크 중 9개에서 기준 Qwen3 상회

의의 및 한계

이 파이프라인은 인간 어노테이션 없이 HuggingFace 실제 데이터 기반의 합성 과제를 자동 생성하고, 강력한 교사 모델 지식을 소형 모델로 이전하는 확장 가능한 훈련 경로를 제시합니다. 저자들은 MLGym 단일 벤치마크 평가의 한계, 구성 요소별 절제 연구 부재, 포맷 적응과 실질 능력 향상 구분의 어려움을 솔직하게 인정합니다. 향후 방향으로는 강화학습 도입, 문헌 검색 통합, 타 벤치마크로의 확장을 제시합니다.

심층 분석과 업계 전망

거시적 관점에서 이 발전은 AI 기술이 실험실에서 산업 응용으로 가속 전환하는 트렌드를 체현한다. 업계 분석가들은 2026년이 AI 상업화의 핵심 전환점이 될 것으로 광범위하게 인식하고 있다. 기술 측면에서는 대규모 모델의 추론 효율이 향상되고 배포 비용이 하락하여 더 많은 중소기업이 AI 역량에 접근할 수 있게 되었다.