基於上下文獎勵適應的魯棒偏好建模:應對人類價值觀異質性
針對傳統人類回饋強化學習(RLHF)中靜態獎勵模型難以泛化至未見偏好領域的問題,本文提出了上下文獎勵適應(In-Context Reward Adaptation)框架。該方法利用Transformer的上下文學習能力,透過少量偏好演示即時推斷潛在的獎勵結構,從而動態適應異構的人類價值觀。研究表明,標準Transformer存在漸近偏差,但引入人類響應時間作為輔助輸入訊號後,模型能有效適應未見領域的偏好分佈。實驗證實,該框架為偏好建模提供了更堅固的基礎,支持異構獎勵表徵及分佈偏移,為靈活的機人對齊提供了可擴展路徑。