價值軸:語言模型內部編碼了當前策略是否正確的訊號
本文深入探究了大型語言模型是否在內部隱式地跟蹤其當前生成軌跡的「價值」,即當前策略達成目標的可能性。研究團隊利用合成上下文強化學習數據,為Qwen3-8B模型構建了一個明確的「價值」軸。實驗發現,該軸上的激活狀態能有效區分高/低口頭置信度、回溯與非回溯的生成過程,以及正確與損壞的程式碼。透過因果干預發現,向高價值方向引導會抑制自我修正並降低解釋性,而向低價值方向引導則誘發回溯與探索行為。此外,研究證明直接偏好優化(DPO)能提升獎勵行為的內部價值,使模型在表現後更自信。最後,在真實場景測試中,發現模型對政治敏感查詢賦予低價值,且監督微調提升了訓練域內的內部置信度。結果表明,語言模型線性編碼了預期的目標成功估計值,並以此調節其追求特定方向的置信度。