它是一种自监督框架，通过利用多智能体执行过程中的中间产物构建胜败对，训练Bradley-Terry奖励模型，从而无需人工标注即可直接评估编排质量。

为什么要关注OrchRM？

相比传统方法，OrchRM将训练效率提升了10倍，并在数学推理、网络问答等任务中将准确率提高了最高8%，大幅降低了算力与数据门槛。

未来的研究方向是什么？

研究团队将开源代码，并计划探索更复杂的中间产物特征提取方法，或将其与其他强化学习技术结合，以应对更动态的多智能体协作场景。

OrchRM：基於中間產出的多智能體編排獎勵建模與高效訓練

針對基於大語言模型的多智能體系統（MAS）在編排訓練中面臨的人工標註稀缺與計算成本高昂的雙重挑戰，本文提出了一種名為編排獎勵建模（OrchRM）的自監督框架。該框架創新性地利用多智能體執行過程中產生的中間產物，構建勝敗對以訓練 Bradley-Terry 獎勵模型，從而在無需人工標註的情況下直接評估編排質量。與現有依賴昂貴子智能體回放的測試時擴展和編排器訓練方法不同，OrchRM 直接在編排層面運作，顯著提升了獎勵引導訓練的效率和性能。實驗表明，該方法在 token 使用量上提升了高達 10 倍的訓練效率，同時在數學推理、基於網絡的問答及多跳推理等多個領域，將 MAS 測試時擴展性能提升了高達 8% 的準確率。這一成果證明了編排級獎勵建模作為構建魯棒多智能體系統的可擴展方向具有巨大潛力。

在多智能体系统（MAS）日益依赖大语言模型（LLMs）进行复杂任务处理的今天，如何高效协调具备专业能力的子智能体成为了核心难题。尽管编排器（Orchestrator）在决定任务分配和流程控制中起着关键作用，但其训练过程长期受到两个瓶颈的制约：一是高质量监督信号（如人工标注的偏好数据）的极度匮乏，二是传统方法中高昂的计算资源消耗。现有的训练框架往往需要大量的子智能体回放（rollouts）来生成训练样本，这不仅耗时且成本极高，限制了模型的规模化应用。为了解决这一痛点，本研究提出了一种全新的自监督框架——编排奖励建模（OrchRM）。该框架的核心贡献在于它完全摆脱了对人工标注的依赖，转而利用多智能体执行过程中自然产生的中间产物（intermediate artifacts）作为信号源。

通过将这些中间结果转化为胜败对（win-lose pairs），OrchRM 能够直接训练出一个能够评估编排质量的奖励模型。这种从"结果导向"向"过程与结果结合导向"的转变，不仅简化了数据收集流程，更为高效、低成本的编排器训练开辟了新路径，使得在资源受限环境下训练高性能多智能体系统成为可能。在技术实现层面，OrchRM 采用了一种基于 Bradley-Terry 模型的奖励学习机制，但其独特之处在于数据构造的逻辑。传统方法通常通过让子智能体执行完整任务并比较最终输出来判断胜负，而 OrchRM 深入到了编排的执行细节中。它捕获多智能体协作过程中的中间状态和产出，这些中间产物往往包含了任务进展的关键信息，如初步推理步骤、子任务分解结果或中间查询反馈。

通过对比不同编排策略下这些中间产出的质量，框架能够构建出细粒度的胜败对样本。这种基于中间产出的对比学习策略，使得奖励模型能够更敏锐地捕捉到编排决策中的细微优劣，而不仅仅依赖于最终答案的正确性。此外，OrchRM 直接在编排层级进行操作，避免了传统方法中为每个子智能体生成大量冗余轨迹的计算浪费。这种设计不仅降低了显存和算力需求，还使得奖励信号更加密集和及时，从而加速了编排器的收敛过程。通过这种方式，OrchRM 实现了一种无需昂贵子智能体回放即可进行的奖励引导训练，极大地优化了训练流程的能效比。

为了验证 OrchRM 的有效性，研究团队在多个具有代表性的基准测试上进行了广泛的实验，涵盖数学推理、基于网络的问答（Web-based QA）以及多跳推理（Multi-hop Reasoning）等复杂领域。实验结果显示，该方法在提升训练效率方面表现卓越，相比基线方法，其 token 使用量减少了高达 10 倍，这意味着在相同的计算预算下，可以训练出更强大或更多的编排器。在性能方面，OrchRM 显著提升了多智能体系统在测试时扩展（test-time scaling）中的表现，准确率最高提升了 8%。消融实验进一步证实，利用中间产物构建胜败对比仅使用最终结果更能有效指导训练，且该方法在不同领域间表现出良好的泛化能力。无论是在需要严密逻辑链条的数学问题，还是依赖外部信息检索的问答任务中，OrchRM 都能稳定地带来性能增益。

这些关键结果不仅证明了 OrchRM 在单一任务上的有效性，更展示了其作为通用框架在多领域复杂任务编排中的广泛适用性，为多智能体系统的性能优化提供了坚实的实证基础。从行业意义与潜在影响来看，OrchRM 的提出标志着多智能体系统训练范式的一次重要演进。它解决了长期困扰该领域的"数据饥渴"和"计算昂贵"问题，使得开源社区能够以更低的门槛构建和微调高性能的多智能体编排器。对于工业落地而言，这种高效的训练方法意味着企业可以更快速地将多智能体技术部署到实际业务场景中，如自动化客服、代码生成辅助或复杂数据分析，而无需承担巨大的研发成本。此外，OrchRM 所倡导的"编排级奖励建模"理念，为后续研究提供了一个可扩展的方向。未来的工作可以进一步探索更复杂的中间产物特征提取方法，或将此框架与其他强化学习技术结合，以应对更加动态和开放的多智能体协作环境。随着代码的开源，这一工作有望激发更多关于低成本、高效率多智能体训练机制的研究，推动整个 AI 代理生态系统向更智能、更协作的方向发展。

Sources

arXiv