超越成對比較:你的語言模型正在秘密優化偏好圖
直接偏好優化(DPO)利用成對的偏好比較來對齊語言模型,提供了區別於人類反饋強化學習(RLHF)的簡潔有效方案。然而在實際應用中,訓練數據通常來自同一提示詞的多次採樣,天然形成了豐富的偏好結構,而成對DPO無法充分利用這些信息。將多路採樣數據強行壓縮為獨立成對樣本會丟棄偏好之間的傳遞性關係,引入冗餘甚至衝突的監督信號,導致優化過程不穩定。為此,本文提出圖直接偏好優化(GraphDPO),將偏好關係建模為有向圖結構,通過圖上的傳播機制保留傳遞性和高階偏好信號,從而實現對語言模型的更穩定、更充分的對齊訓練。