PAEC:面向LLM推理的RLVR位置感知熵校準框架
在可驗證獎勵強化學習(RLVR)提升大語言模型推理能力的過程中,策略熵的快速崩潰是一個核心瓶頸,導致模型過早收斂於狹窄的高機率路徑。雖然全域熵正則化能鼓勵探索,但在長推理軌跡中對非決策相關token均勻增加熵效率低下。本文提出位置感知熵校準(PAEC),一種token級別的熵管理框架。PAEC透過區域性top-p熵和前兩名候選者的競爭程度構建軟遮罩,並應用基於錨點的下界懲罰以防止選定位置的熵崩潰。在五個數學推理基準上的實驗表明,PAEC顯著提升了巨觀平均多數投票效能,尤其在AIME風格任務上表現突出。研究結果建議,推理RL中的熵管理應聚焦於決策敏感位置的選擇性探索分配,而非均勻注入隨機性。