PRISM:基於偏好感知影響函數的數據選擇方法

隨著大型語言模型規模的持續擴張,如何更高效地利用訓練數據成為提升訓練效率的關鍵。現有的數據選擇方法通常將目標行為表示為一組示例,並假設這些示例具有同等重要性,忽略了示例與當前模型行為的相關性差異,導致訓練預算分配不夠精準。為此,本文提出了PRISM(PReference-aware Influence-function-based Data Selection Method for Efficient Fine-Tuning),一種基於偏好感知影響函數的數據選擇方法。該方法利用當前模型的偏好對目標示例進行加權,構建出能夠反映模型真實偏好的目標表示,並據此對候選訓練樣本進行評分,從而將數據預算集中在最有可能推動模型向目標行為轉變的樣本上。理論分析表明,這種偏好加權策略能夠提供更有效的目標行為偏好提升方向。在多種模型架構和規模上的實驗結果顯示,PRISM在高效微調以及面向安全性的監督微調修復任務中均取得了顯著改進,證明了精確刻畫目標行為對於預算高效的數據選擇至關重要。