滑鼠與視線洩露偏好:基於隱式回饋的大語言模型對齊新方法
現有大模型對齊方法依賴顯式人類回饋,標註成本高且參與度有限。本文提出利用滑鼠軌跡、眼球注視等隱式訊號進行對齊。作者建構IFLLM資料集,收集59名參與者1336輪多輪對話的行為資料。實驗顯示,基於隱式回饋的獎勵模型將準確率從55%提升至64%,應用DPO後八個大模型回應品質相對提升近三倍。研究證明了野外隱式回饋的巨大價值,開源資料與程式碼為低成本高保真對齊開闢了新路徑。
現有大模型對齊方法依賴顯式人類回饋,標註成本高且參與度有限。本文提出利用滑鼠軌跡、眼球注視等隱式訊號進行對齊。作者建構IFLLM資料集,收集59名參與者1336輪多輪對話的行為資料。實驗顯示,基於隱式回饋的獎勵模型將準確率從55%提升至64%,應用DPO後八個大模型回應品質相對提升近三倍。研究證明了野外隱式回饋的巨大價值,開源資料與程式碼為低成本高保真對齊開闢了新路徑。