OrchRM:利用中间产物构建多智能体编排奖励模型,训练效率提升十倍
针对大语言模型多智能体系统在协调专业智能体时面临的监督数据稀缺与计算成本高昂问题,研究提出OrchRM自监督框架。该框架通过提取执行过程中的中间产物构建胜负对,训练Bradley-Terry奖励模型以评估编排质量,无需人工标注。相比依赖昂贵子智能体展开的现有方法,OrchRM直接在编排层面操作,实现高效训练及测试时扩展。实验显示,其在数学推理等领域准确率提升最高8%,训练Token用量降低10倍,代码已开源,为构建鲁棒多智能体系统提供了可扩展的新路径。
在多智能体系统(MAS)日益成为人工智能研究热点的背景下,如何有效协调多个专业化智能体以完成复杂任务,成为了制约其实际落地的关键瓶颈。现有的多智能体编排方法往往依赖于大量的人工标注数据来训练编排器,这不仅成本高昂,而且难以规模化扩展。此外,传统的测试时扩展策略通常需要大量的子智能体展开(rollouts),导致计算资源消耗巨大,限制了其在实际场景中的应用。针对这一核心痛点,本研究提出了一种创新的自监督框架——编排奖励建模(OrchRM)。该框架的核心贡献在于它完全摆脱了对人工标注的依赖,转而利用多智能体执行过程中自然产生的中间产物来构建训练数据。通过这种方式,OrchRM 能够直接评估编排过程的质量,为编排器的训练提供了高效且可扩展的监督信号。这一方法不仅解决了监督数据稀缺的问题,还显著降低了训练过程中的计算开销,为构建更加鲁棒和高效的多智能体系统开辟了一条新的技术路径。其本质是通过挖掘执行过程中的隐含反馈,将复杂的编排任务转化为可优化的奖励建模问题,从而在无需额外人工干预的情况下实现系统性能的自动化提升。在技术实现层面,OrchRM 采用了一种基于 Bradley-Terry 模型的奖励学习机制,但其数据构建方式具有独特的创新。
传统方法往往需要运行完整的智能体交互流程并依赖外部奖励函数,而 OrchRM 巧妙地利用了多智能体在执行任务时产生的中间状态和产物。具体而言,框架通过对比不同编排策略下产生的中间结果,构建出胜负对(win-lose pairs)。这些胜负对反映了特定编排决策在特定步骤上的相对优劣,从而为奖励模型提供了细粒度的监督信号。在训练策略上,OrchRM 直接在编排层级进行操作,而非深入到每个子智能体的内部状态。这种设计使得奖励模型能够捕捉到宏观层面的编排质量,而非仅仅关注局部动作的合理性。此外,该方法避免了传统测试时扩展中常见的昂贵子智能体重复展开问题,转而通过奖励模型引导编排器在推理阶段做出更优决策。这种自监督的学习范式不仅提高了数据利用率,还使得模型能够适应不同领域和任务类型的编排需求,展现出极强的泛化能力和灵活性。为了验证 OrchRM 的有效性,研究团队在多个具有代表性的基准数据集上进行了广泛的实验,涵盖数学推理、基于网络的问答以及多跳推理等复杂任务领域。实验结果显示,OrchRM 在提升多智能体系统性能方面表现卓越。
在训练效率方面,与基线方法相比,OrchRM 在 token 使用量上减少了高达 10 倍,这意味着在相同的计算资源下,可以训练出性能更优的编排器。在测试时扩展性能方面,OrchRM 使得多智能体系统的准确率提升了最高 8%,这一提升在不同任务类型中均保持一致,证明了其方法的稳健性。消融实验进一步揭示了中间产物在构建奖励信号中的关键作用,表明利用细粒度的执行状态能够显著提升奖励模型的判别能力。此外,研究还发现,OrchRM 所获得的性能增益能够有效地迁移到未见过的领域,这证明了其作为通用编排优化框架的潜力。这些实验结果不仅验证了 OrchRM 的技术优势,也为后续研究提供了重要的基准参考,展示了自监督奖励建模在多智能体协调中的巨大价值。从行业影响来看,OrchRM 的提出对于多智能体系统的开源社区和工业落地具有深远意义。首先,其自监督的特性极大地降低了多智能体系统开发的门槛,使得研究者无需依赖昂贵的人工标注即可训练高性能编排器,加速了相关技术的迭代与创新。其次,显著的计算效率提升使得多智能体系统在资源受限的环境中成为可能,为边缘计算、实时交互等应用场景提供了技术支持。对于工业界而言,OrchRM 提供了一种可扩展的解决方案,能够帮助企业构建更加智能、高效的多智能体协作系统,从而提升业务自动化水平和决策质量。此外,该方法的开源也将促进学术界和工业界在多智能体编排领域的合作与交流,推动相关标准的制定和技术规范的完善。随着大语言模型能力的不断提升,多智能体系统将在更多复杂任务中发挥关键作用,而 OrchRM 所代表的编排级奖励建模方向,有望成为构建下一代鲁棒、高效多智能体系统的核心技术之一,为人工智能的进一步发展注入新的动力。