AI Scientist:用合成任务缩放训练能做ML研究的AI Agent

让AI自己做机器学习研究,关键在于训练数据从哪来?本文提出了一个自动合成ML挑战任务的pipeline:自动生成与SWE-agent框架兼容的ML挑战,覆盖主题采样、数据集提案和代码生成三个阶段。合成任务有两重质量保证:数据集通过Hugging Face API验证确保基于真实数据,代码通过自调试循环验证确保可执行。验证环节在MLGym基准上进行:先用GPT-5作为教师模型生成解题轨迹,再蒸馏到Qwen3-4B和Qwen3-8B学生模型。结果表明合成任务训练的小模型在真实ML任务上取得了显著提升。这个pipeline的工程价值在于:它为'AI做研究'提供了一条可规模化的训练路径。

AI Scientist:用合成任务缩放训练能做ML研究的AI Agent

背景:AI自主科研的瓶颈在哪里?

自主科学发现一直是AI领域的终极目标之一。近年来,AI Scientist、Co-Scientist、AlphaEvolve等系统相继展示了AI在机器学习研究中的潜力——它们能够提出假设、设计实验、分析结果。然而,这些系统大多依赖搭建复杂的agentic架构,却缺乏一个关键要素:**系统化的训练方法**。

当前LLM虽然拥有丰富的ML理论知识和代码编写能力,但"知道"不等于"能做"。要让AI真正掌握"做研究"的能力,必须让它在实际的多步骤、目标导向的研究任务中积累经验。但问题来了:这样的训练数据从哪里来?手工标注显然不现实,而真实的ML研究轨迹又极为稀缺。

来自Princeton University和Microsoft Research的研究者Ziyang Cai和Harkirat Behl提出了一个答案:**合成任务缩放**(Synthetic Task Scaling)。

核心思想:用合成任务替代人工标注

这篇论文(arXiv: 2603.17216)的核心贡献是一个**全自动、无需人工监督**的合成ML任务生成pipeline。它能够批量生成与SWE-agent框架兼容的ML挑战任务,从而为训练AI研究Agent提供海量轨迹数据。

整个pipeline由三大阶段构成:

阶段一:环境合成(Environment Synthesis)

环境合成阶段包含三个子步骤:

1. 主题采样(Topic Sampling)

从模型中采样n个不重复的机器学习主题。这一步保证了任务的多样性,覆盖计算机视觉、语言建模、强化学习、游戏理论等广泛领域。从1000个主题出发,最终生成并验证了约500个有效任务。

2. 任务与数据集提案(Task and Dataset Proposal)

对每个主题,教师模型(GPT-5)生成一个任务描述,并提议一个HuggingFace数据集。这里有一个**关键工程设计**:pipeline使用HuggingFace Search API验证模型提议的数据集是否真实存在。如果找到匹配,就用HuggingFace API获取数据集行样本来丰富数据集描述;如果没有找到匹配,该任务被丢弃。

这个设计确保了合成任务"基于真实数据"的特性:Agent不是在学习应对凭空捏造的虚假任务,而是在学习处理真实ML数据格式、真实特征分布和真实问题结构。不需要数据集的任务(例如游戏论任务)也被允许存在,增添了任务的多样性维度。

3. 配置与代码生成(Config and Starter Code Generation)

基于任务和数据集描述,pipeline自动生成:

  • 与MLGym执行环境兼容的任务配置文件
  • 数据集配置文件
  • 完整的starter代码(基线实现baseline.py)
  • 评估脚本(evaluate.py)
  • 必要的辅助工具代码

代码生成是整个pipeline最容易出错的环节,也是验证阶段存在的核心原因。

阶段二:环境验证与自调试循环(Environment Verification)

生成不代表可用。每一步都可能引入错误,因此需要验证阶段。

研究者将新生成的任务接入MLGym,用GPT-5 Agent运行任务,目的是:1)获取基线性能;2)得到至少一条有效轨迹。

如果执行出现错误,pipeline采取以下策略:

  • 以概率**p_debug**将错误日志反馈给模型,触发代码重新生成(自调试循环)
  • 以概率**1-p_debug**从头重新生成代码
  • 自调试最多迭代**k次**,超过则丢弃该任务

自调试循环是整个pipeline的精华所在。它不是简单地遇到错误就丢弃任务,而是尝试通过迭代修复来提高有效任务的产出率——本质上是让模型看到自己的错误并加以纠正,实现无监督的代码质量提升。整个验证流程不需要任何人工干预,且高度可并行化。

阶段三:轨迹生成与过滤(Trajectory Generation & Filtering)

大规模轨迹采样

验证通过的任务在HPC集群上并行运行。每个任务占用一块GPU,目标为每个任务收集256条轨迹。由于集群文件系统和容器化不稳定性,实际收集数量存在差异。

双重轨迹过滤

收集到的轨迹经过两道过滤:

1. **成功性过滤**:只保留至少完成一次成功提交的轨迹,过滤掉Agent陷入调试死循环的情况

2. **长度过滤**:丢弃超过48K token的轨迹;训练时进一步截断至32K token

最终经过聚合和过滤,获得约**34,000条有效轨迹**作为SFT训练集。

知识蒸馏:GPT-5教学,Qwen3学习

整个训练流程采用**监督微调(SFT)蒸馏**范式:

| 角色 | 模型 |

|------|------|

| 教师模型 | GPT-5(OpenAI最新旗舰)|

| 学生模型 | Qwen3-4B & Qwen3-8B(阿里通义千问3)|

34,000条轨迹涵盖500个多样ML任务,每条轨迹包含多轮代码执行交互——这是在类似规模上从人类研究者处收集几乎不可能实现的结构化经验数据。

MLGym实验结果

评测基准:MLGym——包含13个不同复杂度的ML任务,涵盖游戏Agent、计算机视觉、语言建模、强化学习等。Agent基于SWE-agent框架,每个任务最多50轮,每轮输出推理和动作。

核心指标:AUP(Area Under Performance Curve),统一不同量纲子任务分数的综合指标。

核心结果(64次运行聚合):

  • **SFT-Qwen3-4B** vs. 基线Qwen3-4B:AUP提升 **+9%**
  • **SFT-Qwen3-8B** vs. 基线Qwen3-8B:AUP提升 **+12%**
  • 在13个子任务中的**9个**上,训练后的模型优于基线Qwen3

在MS-COCO任务上没有观察到性能提升,原因是pipeline对复杂starter代码的覆盖不足。

局限性与未来方向

论文坦诚地讨论了几个重要局限:

评估局限:当前仅在MLGym一个基准上评估,对其他任务分布的泛化能力证据不足。性能提升中有多少来自对MLGym执行格式的熟悉(格式对齐),而非实质性ML研究能力,目前难以厘清。

消融研究缺失:HuggingFace验证、自调试循环、成功性过滤、轨迹截断、教师模型质量各组件的独立贡献尚未被分离研究。

教师模型偏差:GPT-5无法解决的任务不会进入训练集,形成系统性盲区。

未来方向:

1. **强化学习**:合成任务的评估分数可作为RL奖励信号,但每次rollout的长GPU训练和奖励尺度差异是挑战

2. **更复杂任务分布**:条件化到高质量代码库(如NanoGPT)生成更复杂任务

3. **文献检索集成**:在轨迹采样时开启ML文献检索,鼓励Agent形成新颖想法

4. **扩展到其他基准**:MLE-Bench(Kaggle挑战)、MLRC-Bench等

意义:为"AI做研究"铺路

这篇论文的工程价值不仅在于实验数字,更在于它提供了一个**可规模化的训练范式**:无需人工标注,依托真实HuggingFace数据集,通过自调试循环提升任务成功率,用强大教师模型生成轨迹再蒸馏到小模型。

这与SWE-Smith(软件工程领域的类似工作)形成呼应,共同指向:通过合成执行环境给AI Agent提供大规模"实践经验",而不是仅靠静态语料知识。随着pipeline进一步完善和RL训练的引入,AI自主进行ML研究的目标已不再遥远。

---

作者:Ziyang Cai(Princeton University)、Harkirat Behl(Microsoft Research)

arXiv:2603.17216 | 发布日期:2026年3月19日