OrchRM 是一种自监督框架，利用多智能体执行过程中的中间产物构建胜败对来训练 Bradley-Terry 奖励模型，无需人工标注即可高效训练编排器。

为什么它很重要？

该方法将训练 token 消耗降低 10 倍，并在数学推理、网络问答和多跳推理任务中将多智能体准确率提升最高 8%，大幅降低了训练成本。

未来有何展望？

研究团队计划探索更复杂的中间特征提取方法，并将框架扩展至异构多智能体环境，开源代码旨在加速该领域的基础设施迭代。

OrchRM：透過中間產物自監督獎勵建模之多智能體編排優化

針對基於大型語言模型的多智能體系統（MAS）在編排訓練中面臨的監督訊號稀缺與計算成本高昂兩大難題，本文提出編排獎勵建模（OrchRM）框架。該框架創新建構多智能體執行過程中產生的中間產物作為勝負對比，訓練 Bradley-Terry 獎勵模型，無需人工標註即可評估編排品質。與依賴昂貴子代理展開的現有方法不同，OrchRM 直接在編排層級運作，大幅提升訓練效率。實驗顯示，此方法在 token 消耗上達成 10 倍訓練效率提升，並在數學推理、網路問答及多跳推理等任務中，將 MAS 測試時擴展的準確率最高提升 8%。

随着基于大语言模型的多智能体系统（MAS）在复杂任务中的广泛应用，如何高效协调具有专业能力的子代理成为关键挑战。然而，训练高效的编排器（Orchestrator）长期受制于两个主要瓶颈：一是缺乏高质量的监督信号，因为人工标注多智能体交互过程的奖励成本极高；二是计算资源消耗巨大，传统方法往往需要大量的子代理展开（rollouts）来收集数据。为了解决这一难题，本文提出了编排奖励建模（OrchRM），这是一种全新的自监督框架。其核心贡献在于提出了一种无需人工标注即可评估编排质量的方法。OrchRM 巧妙地利用了多智能体在执行任务过程中产生的中间产物（intermediate artifacts），通过对比分析这些产物来构建胜败对（win-lose pairs），进而训练 Bradley-Terry 奖励模型。这种方法不仅避免了昂贵的人工标注，还从根本上改变了数据收集的方式，使得在编排层级直接进行奖励引导的训练成为可能，为多智能体系统的可扩展性提供了新的技术路径。在技术实现层面，OrchRM 的设计极具针对性，旨在打破现有框架对子代理展开的依赖。传统的测试时扩展（test-time scaling）和编排器训练框架通常需要在推理阶段进行大量的子代理调用，这导致了极高的计算开销。

相比之下，OrchRM 直接在编排层级操作，利用多智能体执行链中自然产生的中间状态作为评估依据。具体而言，框架通过捕捉子代理在推理过程中的关键中间产物，判断其是否有助于最终答案的正确性，从而构建出用于训练奖励模型的对比样本。这种机制允许系统在不增加额外子代理调用成本的情况下，获得高质量的奖励信号。通过这种方式，OrchRM 能够高效地指导编排器的训练，使其学会在何时调用何种子代理，以及如何整合中间结果。这种自监督的训练策略不仅降低了数据收集的门槛，还使得奖励模型能够更准确地反映编排策略的质量，从而在训练过程中提供更稳定的梯度信号，提升模型的收敛速度和最终性能。为了验证 OrchRM 的有效性，研究团队在多个具有代表性的基准数据集上进行了广泛的实验，涵盖了数学推理、基于网络的问答以及多跳推理等复杂领域。实验结果令人瞩目：在训练效率方面，OrchRM 将 token 使用量降低了高达 10 倍，这意味着在相同计算资源下可以训练出更强大的编排器。在性能表现上，该方法在多智能体测试时扩展（MAS test-time scaling）任务中，将准确率提升了高达 8%。

更重要的是，消融实验和跨领域测试表明，这些性能增益并非局限于单一任务，而是具有高度的泛化能力。无论是在需要严格逻辑推导的数学问题，还是需要在开放网络环境中检索信息的问答任务中，OrchRM 均表现出一致的优势。这些关键结果有力地证明了基于中间产物的自监督奖励建模是一种通用且高效的优化手段，能够有效解决多智能体编排中的奖励稀疏和训练低效问题，为后续研究提供了坚实的实证基础。从行业意义与潜在影响来看，OrchRM 的提出对开源社区和工业落地具有深远影响。首先，它降低了对高质量人工标注数据的依赖，使得构建大规模、专业化的多智能体系统变得更加可行和经济。对于工业界而言，这意味着可以更低成本地部署和维护复杂的智能体协作系统，特别是在那些需要实时响应和高准确率的场景中，如金融分析、法律检索或自动化编程。其次，OrchRM 所倡导的在编排层级进行奖励建模的理念，为后续研究开辟了新方向。未来的工作可以进一步探索更复杂的中间产物特征提取方法，或将此框架扩展至更异构的多智能体环境。此外，随着代码的开源，研究者可以在此基础上进行二次开发，加速多智能体编排技术的迭代与创新。总之，OrchRM 不仅是一个有效的训练框架，更是推动多智能体系统向更鲁棒、更可扩展方向发展的关键一步，有望成为该领域的基础性工具之一。

Sources

arXiv