EnvFactory:以自动化环境合成与鲁棒强化学习突破智能体工具使用瓶颈

针对大语言模型智能体强化学习(Agentic RL)中执行环境匮乏与训练数据失真两大痛点,研究团队提出EnvFactory框架。该方案通过自主探索真实资源构建可执行工具环境,并利用拓扑感知采样生成蕴含隐性人类意图的多轮交互轨迹。实验显示,仅用85个跨领域环境即生成2575条高质量轨迹,使Qwen3模型在BFCLv3等基准测试中性能提升显著,最高达15%。这一突破为构建可扩展、鲁棒的智能体系统提供了低成本、高效率的新范式,标志着工具使用能力训练从依赖人工标注向自动化合成演进的关键一步。

当前,赋予大语言模型(LLM)工具使用能力已成为人工智能研究的核心方向,而智能体强化学习(Agentic RL)被视为实现这一目标的关键路径。然而,该领域的发展长期受制于两个主要挑战:一是缺乏可扩展且鲁棒的执行环境,二是缺乏能够捕捉隐性人类推理过程的真实训练数据。现有的解决方案往往依赖于成本高昂的真实世界API,或者使用容易产生幻觉的LLM模拟器,亦或是构建的单轮合成环境。这些合成环境通常依赖于预先收集的文档,且生成的合成轨迹往往被过度指定,表现为僵化的指令序列,而非反映自然人类意图的交互过程。这种数据分布的偏差严重削弱了强化学习训练的效果。

针对这一痛点,本文提出了EnvFactory,这是一个完全自动化的框架,旨在同时解决环境构建和数据合成两大难题。EnvFactory的核心贡献在于其能够自主探索并从真实资源中验证状态可执行的工具环境,同时通过创新的采样和细化策略合成自然的多轮交互轨迹,从而生成具有隐性意图的高质量训练数据,为智能体提供了更贴近真实场景的学习基础。在技术方法层面,EnvFactory的设计体现了高度的自动化与智能化。首先,在环境构建方面,框架不再依赖人工编写或昂贵的实时API接入,而是自主探索真实资源中的工具接口,并对其进行严格的验证,确保环境的可执行性和状态一致性。这种机制使得系统能够从多样化的真实场景中提取出鲁棒的执行环境,避免了传统方法中因环境不稳定导致的训练失败。

其次,在数据合成方面,EnvFactory采用了拓扑感知采样和校准细化技术。拓扑感知采样旨在捕捉工具之间的依赖关系和交互逻辑,确保生成的轨迹在结构上符合自然的人类使用习惯。校准细化则进一步调整轨迹的语义表达,使其从机械的指令序列转化为蕴含隐性意图的自然对话。通过这种组合策略,EnvFactory能够生成既包含丰富工具调用逻辑,又具备自然语言流畅性的多轮交互数据。这种方法不仅提高了数据的多样性,还增强了数据对强化学习算法的适应性,使得智能体能够从更复杂的交互模式中学习决策策略。

实验部分展示了EnvFactory在资源受限情况下的卓越性能。研究团队仅使用了85个经过严格验证的工具环境,覆盖了7个不同的领域,这一数量显著少于先前研究中通常使用的五倍以上的环境数量。基于这85个环境,EnvFactory成功生成了2575个监督微调(SFT)和强化学习(RL)轨迹。尽管在环境规模上大幅缩减,该方法在训练效率和下游任务表现上均取得了显著优势。在基准测试中,基于EnvFactory训练的Qwen3系列模型在BFCLv3基准上实现了高达15%的性能提升,在MCP-Atlas基准上提升了8.6%。

此外,在τ²-Bench和VitaBench等对话基准测试中,模型性能也分别提升了6%。消融实验进一步证实了拓扑感知采样和校准细化模块的有效性,表明这些组件对于生成高质量、具有隐性意图的轨迹至关重要。这些结果不仅证明了EnvFactory在数据合成上的高效性,也展示了其在提升智能体工具使用能力方面的巨大潜力,特别是在资源有限的情况下实现性能突破的能力。EnvFactory的提出对开源社区、工业落地以及后续研究具有深远的意义。对于开源社区而言,EnvFactory提供了一个可扩展、可扩展且鲁棒的基础框架,降低了研究者构建高质量Agentic RL训练数据的门槛,促进了相关技术的共享与迭代。在工业落地方面,其自动化环境构建和数据合成能力使得企业能够以更低的成本快速部署具备强大工具使用能力的智能体,加速了AI技术在复杂业务场景中的应用。此外,EnvFactory所采用的拓扑感知采样和校准细化方法为后续研究提供了新的思路,特别是在如何生成更自然、更具隐含意图的训练数据方面。未来,随着框架的进一步扩展和优化,EnvFactory有望成为Agentic RL领域的重要基础设施,推动大语言模型在工具使用、复杂推理和人机交互等方面取得更大的突破,为构建更加智能、自主的AI系统奠定坚实基础。