它是用于多智能体编排的自监督奖励建模框架，利用执行中的中间产物构建胜负对训练 Bradley-Terry 模型，无需人工标注。

为什么 OrchRM 很重要？

它解决了多智能体系统依赖昂贵标注数据和大量子智能体展开的问题，将训练 Token 消耗降低 10 倍，准确率最高提升 8%。

下一步值得关注什么？

该框架已开源，其泛化能力有望在更多复杂领域验证，未来可能成为构建鲁棒多智能体系统的核心技术之一。

OrchRM：基於中間產物的多智能體編排獎勵建模與高效訓練

針對基於大語言模型的多智能體系統（MAS）在協調專業智能體時面臨的監督數據稀缺與計算成本高昂問題，本文提出了一種名為編排獎勵建模（OrchRM）的自監督框架。該框架利用多智能體執行過程中的中間產物構建勝負對，用於訓練 Bradley-Terry 獎勵模型，從而在無需人工標註的情況下評估編排質量。與依賴昂貴子智能體展開的現有方法不同，OrchRM 直接在編排層面進行操作，實現了高效且高性能源獎勵引導式編排器訓練及測試時擴展。實驗表明，OrchRM 在數學推理、基於網路的問答及多跳推理等多個領域均展現出顯著優勢，其訓練效率在 token 使用量上提升了高達 10 倍，同時在多智能體測試時擴展效能上的準確率提升了最高 8%。這一成果證明了編排級獎勵建模作為構建魯棒多智能體系統可擴展方向的巨大潛力，相關程式碼已開源。

在多智能体系统（MAS）日益成为人工智能研究热点的背景下，如何有效协调多个专业化智能体以完成复杂任务，成为了制约其实际落地的关键瓶颈。现有的多智能体编排方法往往依赖于大量的人工标注数据来训练编排器，这不仅成本高昂，而且难以规模化扩展。此外，传统的测试时扩展策略通常需要大量的子智能体展开（rollouts），导致计算资源消耗巨大，限制了其在实际场景中的应用。针对这一核心痛点，本研究提出了一种创新的自监督框架——编排奖励建模（OrchRM）。该框架的核心贡献在于它完全摆脱了对人工标注的依赖，转而利用多智能体执行过程中自然产生的中间产物来构建训练数据。通过这种方式，OrchRM 能够直接评估编排过程的质量，为编排器的训练提供了高效且可扩展的监督信号。这一方法不仅解决了监督数据稀缺的问题，还显著降低了训练过程中的计算开销，为构建更加鲁棒和高效的多智能体系统开辟了一条新的技术路径。其本质是通过挖掘执行过程中的隐含反馈，将复杂的编排任务转化为可优化的奖励建模问题，从而在无需额外人工干预的情况下实现系统性能的自动化提升。在技术实现层面，OrchRM 采用了一种基于 Bradley-Terry 模型的奖励学习机制，但其数据构建方式具有独特的创新。

传统方法往往需要运行完整的智能体交互流程并依赖外部奖励函数，而 OrchRM 巧妙地利用了多智能体在执行任务时产生的中间状态和产物。具体而言，框架通过对比不同编排策略下产生的中间结果，构建出胜负对（win-lose pairs）。这些胜负对反映了特定编排决策在特定步骤上的相对优劣，从而为奖励模型提供了细粒度的监督信号。在训练策略上，OrchRM 直接在编排层级进行操作，而非深入到每个子智能体的内部状态。这种设计使得奖励模型能够捕捉到宏观层面的编排质量，而非仅仅关注局部动作的合理性。此外，该方法避免了传统测试时扩展中常见的昂贵子智能体重复展开问题，转而通过奖励模型引导编排器在推理阶段做出更优决策。这种自监督的学习范式不仅提高了数据利用率，还使得模型能够适应不同领域和任务类型的编排需求，展现出极强的泛化能力和灵活性。为了验证 OrchRM 的有效性，研究团队在多个具有代表性的基准数据集上进行了广泛的实验，涵盖数学推理、基于网络的问答以及多跳推理等复杂任务领域。实验结果显示，OrchRM 在提升多智能体系统性能方面表现卓越。

在训练效率方面，与基线方法相比，OrchRM 在 token 使用量上减少了高达 10 倍，这意味着在相同的计算资源下，可以训练出性能更优的编排器。在测试时扩展性能方面，OrchRM 使得多智能体系统的准确率提升了最高 8%，这一提升在不同任务类型中均保持一致，证明了其方法的稳健性。消融实验进一步揭示了中间产物在构建奖励信号中的关键作用，表明利用细粒度的执行状态能够显著提升奖励模型的判别能力。此外，研究还发现，OrchRM 所获得的性能增益能够有效地迁移到未见过的领域，这证明了其作为通用编排优化框架的潜力。这些实验结果不仅验证了 OrchRM 的技术优势，也为后续研究提供了重要的基准参考，展示了自监督奖励建模在多智能体协调中的巨大价值。从行业影响来看，OrchRM 的提出对于多智能体系统的开源社区和工业落地具有深远意义。首先，其自监督的特性极大地降低了多智能体系统开发的门槛，使得研究者无需依赖昂贵的人工标注即可训练高性能编排器，加速了相关技术的迭代与创新。其次，显著的计算效率提升使得多智能体系统在资源受限的环境中成为可能，为边缘计算、实时交互等应用场景提供了技术支持。对于工业界而言，OrchRM 提供了一种可扩展的解决方案，能够帮助企业构建更加智能、高效的多智能体协作系统，从而提升业务自动化水平和决策质量。此外，该方法的开源也将促进学术界和工业界在多智能体编排领域的合作与交流，推动相关标准的制定和技术规范的完善。随着大语言模型能力的不断提升，多智能体系统将在更多复杂任务中发挥关键作用，而 OrchRM 所代表的编排级奖励建模方向，有望成为构建下一代鲁棒、高效多智能体系统的核心技术之一，为人工智能的进一步发展注入新的动力。

Sources

arXiv