OrchRM:透過中間產物自監督獎勵建模之多智能體編排優化
針對基於大型語言模型的多智能體系統(MAS)在編排訓練中面臨的監督訊號稀缺與計算成本高昂兩大難題,本文提出編排獎勵建模(OrchRM)框架。該框架創新建構多智能體執行過程中產生的中間產物作為勝負對比,訓練 Bradley-Terry 獎勵模型,無需人工標註即可評估編排品質。與依賴昂貴子代理展開的現有方法不同,OrchRM 直接在編排層級運作,大幅提升訓練效率。實驗顯示,此方法在 token 消耗上達成 10 倍訓練效率提升,並在數學推理、網路問答及多跳推理等任務中,將 MAS 測試時擴展的準確率最高提升 8%。