PAEC框架是什么？它解决了大语言模型推理中的什么问题？

PAEC（位置感知熵校准）是一种token级熵管理框架，用于解决RLVR训练中策略熵快速崩溃、模型过早收敛于狭窄推理路径的问题，通过在决策敏感位置维持适度不确定性实现精细化探索控制。

PAEC相比传统全局熵正则化有何核心优势？实验效果如何？

PAEC不再对所有token均匀注入随机性，而是利用软掩码识别关键决策位置并施加锚点下界惩罚。在五套数学推理基准上显著提升宏观平均多数投票准确率，AIME高难任务增益尤为突出。

PAEC的工业落地前景及未来研究方向有哪些？

PAEC可作为即插即用模块集成到现有RLHF/RLVR流程，在金融分析、代码生成、法律推理等高逻辑要求领域提升鲁棒性。未来可探索更复杂的注意力机制优化软掩码，或推广至其他序列决策任务。

PAEC：面向LLM推理的RLVR位置感知熵校準框架

在可驗證獎勵強化學習（RLVR）提升大語言模型推理能力的過程中，策略熵的快速崩潰是一個核心瓶頸，導致模型過早收斂於狹窄的高機率路徑。雖然全域熵正則化能鼓勵探索，但在長推理軌跡中對非決策相關token均勻增加熵效率低下。本文提出位置感知熵校準（PAEC），一種token級別的熵管理框架。PAEC透過區域性top-p熵和前兩名候選者的競爭程度構建軟遮罩，並應用基於錨點的下界懲罰以防止選定位置的熵崩潰。在五個數學推理基準上的實驗表明，PAEC顯著提升了巨觀平均多數投票效能，尤其在AIME風格任務上表現突出。研究結果建議，推理RL中的熵管理應聚焦於決策敏感位置的選擇性探索分配，而非均勻注入隨機性。

当前，利用可验证奖励的强化学习（RLVR）已成为提升大语言模型复杂推理能力的关键技术路径。然而，这一方法面临着一个严峻的挑战：策略熵的快速崩溃。在训练初期，模型往往倾向于迅速收敛到少数几个高概率的推理路径上，这种过早的确定性导致探索空间被大幅压缩，限制了模型发现更优解的能力。尽管现有的全局熵正则化方法试图通过引入随机性来缓解这一问题，但其"一刀切"的策略在长序列推理中显得极为低效，因为并非所有token位置都对最终决策具有同等重要性许多中间步骤仅仅是机械性的推导，无需额外探索。针对这一痛点，本研究提出了位置感知熵校准（PAEC）框架。PAEC的核心贡献在于将熵管理从全局层面细化至token级别，旨在实现更精细化的探索控制。它不再盲目地增加整体随机性，而是智能地识别那些对推理结果至关重要的"决策敏感位置"，并在这些特定位置上维持适度的不确定性，从而在保持推理连贯性的同时最大化有效探索。

PAEC的技术实现依赖于一个精巧的token级熵管理机制。该方法首先构建了一个软掩码（soft mask），用于动态评估每个token位置的重要性。这个软掩码的计算基于两个关键指标：局部top-p熵以及前两名候选token之间的竞争程度。局部top-p熵反映了模型在当前步的概率分布分散程度，而前两名候选者的竞争强度则直接暗示了该位置是否存在歧义或多种合理的推理分支。如果竞争激烈且熵值较高，说明该位置是决策的关键节点。在此基础上，PAEC引入了一种基于锚点的下界惩罚机制。具体而言，对于被软掩码选中的高重要性位置，算法会施加一个约束，防止其熵值低于某个预设的锚点阈值。

这种设计有效地阻止了策略在这些关键决策点上的过早坍缩，强制模型在这些位置保留一定的探索空间。相比之下，对于非关键位置，模型则可以自由地降低熵值以加快收敛。这种选择性而非均匀性的熵调控策略，使得PAEC能够在不牺牲训练稳定性的前提下，显著提升模型在复杂推理任务中的表现。为了验证PAEC的有效性，研究团队在五个主流的数学推理基准数据集上进行了广泛的实验。实验结果一致显示，相较于强大的RLVR基线模型，引入PAEC后模型的宏观平均多数投票性能得到了显著提升。特别是在类似于AIME（美国数学邀请赛）的高难度任务中，PAEC带来的增益尤为明显。这类任务通常涉及多步逻辑推导和复杂的解题策略，正是需要精细化探索管理的典型场景。

消融实验进一步证实了位置感知机制的重要性：移除软掩码或锚点惩罚任一组件，都会导致性能下降，证明了两者协同工作的必要性。关键指标的分析表明，PAEC不仅提高了最终答案的正确率，还改善了推理路径的多样性。这意味着模型不再固守单一的解题套路，而是能够根据题目特点灵活调整策略。这些实证结果有力地支持了论文的核心观点：在推理强化学习中，熵的管理应当被视为一种在决策敏感位置上进行选择性探索资源分配的问题，而非简单的全局随机性注入。PAEC的提出对大语言模型的推理优化及工业落地具有深远的意义。首先，它为理解RLVR中的探索-利用权衡提供了新的视角，强调了"位置敏感性"在长序列生成任务中的核心价值。对于开源社区而言，PAEC提供了一种即插即用的熵校准模块，可以方便地集成到现有的RLHF或RLVR训练流程中，无需大幅修改底层架构。在工业应用层面，尤其是在金融分析、代码生成和法律推理等对逻辑严密性要求极高的领域，PAEC能够帮助模型避免陷入局部最优解，提高处理罕见或复杂案例的鲁棒性。此外，该研究启示后续工作可以进一步探索更复杂的注意力机制或语义分析工具来优化软掩码的构建，甚至将这种位置感知的思想扩展到其他类型的序列决策任务中。总之，PAEC不仅是一个有效的算法改进，更是推动LLM从"概率模仿"向"深度推理"迈进的重要一步，为构建更智能、更可靠的AI系统奠定了理论基础。

Sources

arXiv