OrchRM:基於中間產物的多智能體編排獎勵建模與高效訓練
針對基於大語言模型的多智能體系統(MAS)在協調專業智能體時面臨的監督數據稀缺與計算成本高昂問題,本文提出了一種名為編排獎勵建模(OrchRM)的自監督框架。該框架利用多智能體執行過程中的中間產物構建勝負對,用於訓練 Bradley-Terry 獎勵模型,從而在無需人工標註的情況下評估編排質量。與依賴昂貴子智能體展開的現有方法不同,OrchRM 直接在編排層面進行操作,實現了高效且高性能源獎勵引導式編排器訓練及測試時擴展。實驗表明,OrchRM 在數學推理、基於網路的問答及多跳推理等多個領域均展現出顯著優勢,其訓練效率在 token 使用量上提升了高達 10 倍,同時在多智能體測試時擴展效能上的準確率提升了最高 8%。這一成果證明了編排級獎勵建模作為構建魯棒多智能體系統可擴展方向的巨大潛力,相關程式碼已開源。