滑鼠與視線洩露偏好:利用隱性反饋對齊大語言模型
目前大語言模型對齊方法主要依賴顯式人類反饋,存在標註成本高且數據稀缺的瓶頸,同時忽視了互聯網巨頭賴以建立經濟護城河的隱性反饋價值。本文提出利用使用者滑鼠軌跡和眼動軌跡等隱性信號來量化並優化模型對齊效果。研究團隊構建了名為IFLLM的新數據集,收集了59名Mechanical Turk工人的1336輪多輪對話中的隱性行為數據。實驗表明,基於隱性反饋構建的獎勵模型將文本獎勵模型的準確率從55%提升至64%,並在應用DPO後使八個大語言模型的響應質量相對提升近三倍。該研究證明了野外真實場景中隱性反饋的巨大價值,並開源了數據、代碼及採集網站,為低成本高效對齊LLM提供了新範式。