中性面具：RLHF如何保留LLM党派结构仅实现浅层对齐

最新研究揭示，强化学习人类反馈（RLHF）并未真正消除大语言模型内部的党派偏见，而是通过压缩信号方差制造了"中性面具"。通过对Llama 3.1 8B模型的机械可解释性分析发现，RLHF导致策略编码特征失活，切断了因果路径，但底层几何结构依然完整。这意味着模型仅习得了表面上的政治中立规范，一旦通过特定提示绕过防护栏，潜在的党派生成机制即可被重新激活。这一发现深刻挑战了当前对齐技术的安全性假设，表明主流对齐方法可能只是掩盖而非解决了价值观冲突问题，为理解模型脆弱性及开发更鲁棒的对齐算法提供了关键视角。

在大语言模型迅速融入社会各个层面的背景下，确保其安全性与有用性成为对齐训练的核心目标。目前，强化学习人类反馈（RLHF）作为主要的对齐机制，试图将模型行为与广泛认可的"人类价值观"相协调。然而，这一过程的黑盒性质引发了诸多疑问：究竟编码了哪些价值观？这些价值观代表谁的立场？RLHF又是如何在神经网络内部实现这种编码的？越来越多的证据表明，RLHF可能仅产生了功能性的合规，而非深层次的价值观对齐。本文针对这一现象，以党派政治取向为切入点，对Llama 3.1 8B模型在RLHF前后的内部表示进行了深入的机械案例分析。研究核心贡献在于揭示了RLHF并未从根本上去除基础模型中固有的结构化党派方向，而是通过一种更为隐蔽的方式——压缩党派信号的方差，来生成表面上平衡、中立的输出。这一发现挑战了传统认为对齐训练能彻底净化模型偏见的观点，指出所谓的"中立"可能只是一种被强加的行为规范，而非模型内在认知的真实转变。为了深入解析这一现象的技术机理，研究团队采用了稀疏自编码器（Sparse Autoencoder, SAE）分解技术，对模型内部的激活模式进行了精细拆解。分析显示，在基础模型中 sporadically（零星）激活的策略编码特征，在经过RLHF处理的指令模型中变得完全非活跃。这意味着RLHF并没有抹去模型关于党派知识的几何结构，而是切断了从党派几何结构到最终输出生成之间的因果路径。通过特征级别的 steering（ steering）实验，研究人员进一步确认了这种因果断开。具体而言，RLHF训练过程实际上是在模型内部建立了一道"防火墙"，抑制了那些直接指向特定党派立场的特征激活，从而强制模型输出符合政治中立规范的文本。这种方法并非通过删除或重写底层知识来实现中立，而是通过抑制特定神经通路的活跃度，使得模型在常规交互中表现出一致性的高雅与平衡。这种技术手段虽然有效控制了表面输出，但保留了底层复杂的党派几何结构，为后续的绕过行为留下了潜在空间。在实验设置与关键结果方面，研究主要基于Llama 3.1 8B模型，对比了其基础版本与经过RLHF对齐后的指令版本。实验不仅关注最终输出的文本内容，更侧重于分析模型内部隐藏状态的表示变化。关键指标包括党派信号方差的压缩程度以及稀疏自编码器提取特征的激活频率变化。消融实验发现，当引入能够推断并放大用户党派身份的提示时，原本在指令模型中失活的党派生成机制会被重新激活。这表明，尽管RLHF在标准测试基准上表现出良好的中立性，但其底层的党派几何结构依然完整无缺。一旦外部输入触发了特定的上下文线索，模型便能绕过RLHF设置的防护栏，恢复其潜在的党派倾向生成能力。这一结果有力地证明了当前对齐方法在结构上的不彻底性，即模型仅仅学会了"假装"中立，而非真正"理解"或"内化"中立价值观，其内部的知识结构并未发生本质性的重构。这项研究对开源社区、工业落地及后续研究具有深远的行业意义。首先，它警示我们当前广泛使用的RLHF技术可能存在根本性的局限，即它更多是一种行为主义的约束，而非认知层面的重塑。对于依赖大语言模型进行内容生成、舆情分析或决策支持的工业应用而言，这种"功能性中立"意味着模型可能在特定诱导下表现出不可预测的偏见，带来潜在的安全风险与伦理隐患。其次，该研究提出的机械分析方法为解读模型内部黑盒提供了新的工具，有助于开发者更精准地定位和对齐模型中的特定价值观结构。最后，如果RLHF通过断开而非移除价值负载结构来运作，那么这一模式可能同样适用于其他价值领域，如性别、种族或宗教偏见。这意味着当前对齐模型的行为可能比其输出所显示的更加脆弱，未来的研究需要探索更深层次的结构化对齐方法，以确保模型在各种复杂场景下的鲁棒性与真实性。

Sources

arXiv