Skill-RM:基於智能體技能統一異質評估標準的大模型獎勵模型

本文提出了一種名為Skill-RM的统一框架,旨在解決大語言模型後訓練階段獎勵模型面臨的評估標準異質化難題。當前獎勵模型依賴基於規則的驗證器、地面真值參考、程式清單及複雜評分標準等多種異質依據,缺乏統一的整合機制。Skill-RM將獎勵建模重構為可複用的「獎勵評估技能」執行過程,透過結構化智能體任務的形式,動態選擇並聚合針對特定輸入的證據。該方法為協調異質資源提供一致介面,使獎勵模型超越靜態評估,實現跨任務的透明性與一致性。廣泛實驗表明,Skill-RM在基準測試及最佳N選擇、強化學習等下游應用中持續優於傳統裁判基線,證明了透過策略性動態編排證據可實現更優效能。