大型语言模型内部的“价值轴”是什么？

它是一个线性内部维度，大型语言模型在其中隐式编码当前生成策略成功实现既定目标的概率估计值。

为什么这个内部信号对模型行为很重要？

它类似元认知机制。向高价值方向引导会抑制模型的自我修正，而向低价值方向引导则触发探索与回溯行为。

对齐训练（如DPO）对这个轴有什么影响？

DPO对齐训练能显著提升被奖励行为的内部价值，从而增强模型自信。模型对政治敏感查询也会赋予低内部价值。

價值軸：語言模型內部編碼了當前策略是否正確的訊號

本文深入探究了大型語言模型是否在內部隱式地跟蹤其當前生成軌跡的「價值」，即當前策略達成目標的可能性。研究團隊利用合成上下文強化學習數據，為Qwen3-8B模型構建了一個明確的「價值」軸。實驗發現，該軸上的激活狀態能有效區分高/低口頭置信度、回溯與非回溯的生成過程，以及正確與損壞的程式碼。透過因果干預發現，向高價值方向引導會抑制自我修正並降低解釋性，而向低價值方向引導則誘發回溯與探索行為。此外，研究證明直接偏好優化（DPO）能提升獎勵行為的內部價值，使模型在表現後更自信。最後，在真實場景測試中，發現模型對政治敏感查詢賦予低價值，且監督微調提升了訓練域內的內部置信度。結果表明，語言模型線性編碼了預期的目標成功估計值，並以此調節其追求特定方向的置信度。

本研究聚焦于大型语言模型内部表征的一个核心谜题：模型是否具备某种形式的"元认知"能力，能够评估当前生成路径的优劣？具体而言，作者试图验证语言模型是否在内部编码了关于其当前轨迹价值的信号，这里的轨迹价值被定义为当前策略成功实现既定目标的可能性。传统的观点往往将语言模型视为单纯的概率预测器，但本文提出，模型内部可能存在一个潜在的维度，专门用于量化当前生成步骤的"正确性"或"有效性"。这一研究的核心贡献在于，它首次通过合成数据和因果干预手段，显式地定位并操控了这一内部价值信号，揭示了模型在生成过程中并非盲目采样，而是基于某种内部评估机制来调整其行为策略。这种对内部价值编码的发现，为理解大模型的推理机制、自我修正能力以及置信度校准提供了全新的视角，挑战了以往仅从输入输出层面分析模型行为的局限。

在技术方法上，研究团队并未依赖复杂的黑盒分析，而是采用了一种基于合成数据的可解释性分析框架。他们构建了包含上下文强化学习数据的合成数据集，这些数据模拟了智能体在环境中探索、行动并获得反馈的过程。通过对Qwen3-8B模型进行激活分析，研究人员成功提取出一个一维的"价值"轴。这个轴并非预先定义，而是通过统计方法从模型的高维激活空间中识别出来的潜在方向。为了验证该轴的有效性，作者进行了多种因果干预实验。

例如，他们通过线性探针识别出与高置信度、无回溯、代码正确性相关的激活模式，并设计干预机制强制模型沿该轴移动。结果显示，向高价值方向引导会显著抑制模型的自我修正行为，使其更倾向于坚持当前路径；而向低价值方向引导则诱发了回溯和探索行为，这与人类在遇到不确定性时的认知反应高度一致。这种基于激活空间线性方向的操作，展示了模型内部表征的高度结构化特征。实验设置涵盖了从合成环境到真实应用场景的广泛测试。在合成数据基准上，关键指标包括模型在给定价值引导下的生成质量、自我修正频率以及解释性文本的长度。

消融实验进一步证实，该价值轴并非仅仅反映了模型的输出风格，而是真正影响了其内部决策过程。例如，当模型被引导至高价值状态时，其生成的代码错误率并未显著增加，但自我纠错的意愿大幅下降，这表明模型"认为"自己走在正确的道路上。在直接偏好优化（DPO）实验中，研究人员发现，通过奖励特定行为（如使用某些特定词汇），可以因果性地提高模型在该行为发生时的内部价值，进而导致模型在后续生成中表现出更高的置信度。这一发现揭示了强化学习信号如何直接塑造模型的内部价值表征。此外，在真实世界的设置中，研究团队分析了Qwen模型在处理政治敏感查询时的内部状态，发现其在训练后对这些查询赋予了较低的价值，这可能与对齐训练中的安全过滤机制有关。

同时，监督微调也被证明能够显著提升模型在训练领域内的内部置信度，进一步验证了价值轴的可塑性和实用性。这项研究对开源社区、工业落地及后续研究具有深远的意义。首先，它为开发更可靠、可解释的大语言模型提供了新的工具。通过监控和操控内部价值轴，开发者可以设计出更具自适应能力的智能体，例如在检测到低价值信号时自动触发回溯或探索机制，从而提高复杂任务的成功率。其次，该研究揭示了模型置信度与内部表征之间的紧密联系，为改进模型的校准方法提供了理论依据。在工业应用中，理解模型何时"自信"以及为何"自信"，有助于构建更安全的对话系统，避免模型在低价值路径上过度自信地生成错误信息。最后，这一发现激发了对大模型内部认知机制的更深入探索，未来研究可以进一步拓展价值轴的概念，将其应用于多模态模型或更复杂的推理任务中，从而推动人工智能从单纯的模式匹配向具备真正理解与评估能力的智能系统演进。

Sources

arXiv