PARL:基於偏好感知量規的個性化評估新範式
大語言模型正從通用助手向以用戶為中心的智能體演進,個性化對齊成為核心課題,而評估個性化對齊效果則成為關鍵瓶頸。現有評估方法(從自動指標到LLM-as-a-Judge)難以捕捉長期互動中嵌入的主觀偏好。論文提出三大評估原則:代表性、用戶一致性和判別性,並引入「個性化評估即學習」新範式,將評估視為動態學習而非靜態判斷。在此範式下,作者提出PARL框架——直接從原始用戶歷史誘導偏好感知評估量規,並加入自驗證機制保證一致性;結合判別性強化學習目標,通過對比用戶生成內容與競爭性模型輸出學習精確的用戶特定決策邊界。實驗表明PARL能誘導高保真量規,可靠識別用戶對齊響應,且在不同用戶和任務間有效泛化。