中立面具:RLHF如何保留LLM黨派結構僅實現淺層對齊

本研究深入探討大型語言模型對齊訓練的核心機制,特別是強化學習人類反饋(RLHF)在塑造模型行為時的實際效果。儘管RLHF旨在使模型符合「人類價值觀」,但其內部運作往往不透明。透過對Llama 3.1 8B模型在RLHF前後的內部表示進行機械案例研究,本文揭示了RLHF並未真正消除基礎模型中的結構化黨派傾向,而是透過壓縮黨派信號的變異數,生成了表面平衡且非黨派的輸出。利用稀疏自編碼器分解技術,研究發現策略編碼特徵在指令微調模型中完全失活,證實了因果路徑的斷裂。這表明RLHF編碼的是一種功能性的政治中立規範,而非結構性改變。這種「中立面具」使得底層幾何結構依然完整,一旦透過特定提示繞過防護欄,黨派生成機制即可被重新啟動,揭示了對齊模型的脆弱性。

Sources