OrchRM:基於中間產出的多智能體編排獎勵建模與高效訓練
針對基於大語言模型的多智能體系統(MAS)在編排訓練中面臨的人工標註稀缺與計算成本高昂的雙重挑戰,本文提出了一種名為編排獎勵建模(OrchRM)的自監督框架。該框架創新性地利用多智能體執行過程中產生的中間產物,構建勝敗對以訓練 Bradley-Terry 獎勵模型,從而在無需人工標註的情況下直接評估編排質量。與現有依賴昂貴子智能體回放的測試時擴展和編排器訓練方法不同,OrchRM 直接在編排層面運作,顯著提升了獎勵引導訓練的效率和性能。實驗表明,該方法在 token 使用量上提升了高達 10 倍的訓練效率,同時在數學推理、基於網絡的問答及多跳推理等多個領域,將 MAS 測試時擴展性能提升了高達 8% 的準確率。這一成果證明了編排級獎勵建模作為構建魯棒多智能體系統的可擴展方向具有巨大潛力。