破解LLM强化学习熵崩溃难题:STARE如何通过惊奇度引导重塑推理能力

针对大语言模型在基于可验证奖励的强化学习训练中普遍存在的策略熵崩溃问题,最新研究提出了STARE方法。该方法通过一阶梯度分析揭示了Token级信用分配的不匹配机制,利用批次内惊奇度分位数识别关键Token并选择性重加权其有效优势,同时引入目标熵闭环门控以稳定调节。在1.5B至32B参数规模及多种复杂推理任务中,STARE成功维持了数千步训练的策略熵稳定。实验显示,其在AIME24和AIME25基准上的准确率较DAPO等基线提升4%-8%,且反思Token与响应长度同步增长,有效平衡了探索与利用,为释放强化学习在大模型中的训练潜力提供了全新路径。

在大语言模型的后训练阶段,基于可验证奖励的强化学习算法,特别是组相对策略优化(GRPO),已成为提升复杂推理能力的主流范式。然而,这一领域长期面临一个严峻挑战:在训练过程中,策略分布往往迅速坍缩,导致策略熵急剧下降,即所谓的"策略熵崩溃"。这种现象不仅限制了模型的探索能力,还可能导致训练不稳定或陷入局部最优。本文的核心贡献在于首次对GRPO框架下的Token级熵动态进行了系统的一阶梯度分析,精准定位了导致熵崩溃的根本原因——Token级信用分配的不匹配。研究指出,单个Token的熵变化并非孤立发生,而是分解为轨迹级优势函数与针对下一个Token分布的熵敏感度函数的乘积。这一发现揭示了一个关键的"优势-惊奇度"四象限结构,并观察到系统处于一种近临界状态。

基于这一深刻的理论洞察,作者提出了STARE(Surprisal-guided Token-level Advantage Reweighting for policy Entropy stability)方法,旨在通过精细化的Token级干预来维持策略熵的稳定性,从而解决长期困扰强化学习训练的效果瓶颈问题。在技术方法层面,STARE的设计巧妙地结合了理论分析与工程实现。首先,算法通过计算批次内样本的惊奇度(Surprisal)分位数,动态识别出对熵变影响最大的关键Token子集。这些Token通常位于决策的关键节点,其预测的不确定性对整体策略熵具有决定性影响。随后,STARE并未对所有Token均匀调整,而是选择性地对这些关键Token的有效优势进行重加权。这种重加权机制能够根据Token的惊奇度水平,自适应地调整其在梯度更新中的贡献,从而抑制那些导致熵过快下降的高置信度Token的影响,同时鼓励对低惊奇度Token的探索。

更为创新的是,STARE引入了一个目标熵闭环门控机制。该机制实时监测当前策略熵与预设目标区间的偏差,并据此动态调节重加权的强度。这种闭环控制策略确保了在整个训练过程中,策略熵始终被约束在理想的范围内,既避免了过度探索导致的噪声干扰,又防止了过早收敛带来的多样性丧失,实现了训练过程的精细调控。实验部分涵盖了从1.5B到32B不同规模的语言模型,并在短思维链(Short CoT)、长思维链(Long CoT)以及多轮工具使用(Multi-Turn Tool Use)三类具有代表性的推理任务家族上进行了广泛评估。结果表明,STARE能够在数千步的强化学习训练步数中,持续维持策略熵在目标带内,展现了极高的训练稳定性。在关键的推理基准测试AIME24和AIME25上,STARE的表现显著优于DAPO及其他竞争性基线模型,平均准确率提升了4%至8%。

消融实验进一步揭示,这种性能提升并非单纯来自参数量的增加,而是源于探索与利用之间的良好平衡。具体而言,随着训练的深入,STARE生成的反思Token数量与响应长度呈现同步增长的趋势,这表明模型在保持推理深度的同时,并未牺牲探索的广度。这种动态平衡机制有效地解锁了强化学习在复杂推理任务中的潜在能力,证明了稳定熵控制对于提升最终模型性能的关键作用。从行业意义与潜在影响来看,STARE为大规模语言模型的强化学习后训练提供了一种可解释且高效的解决方案。对于开源社区而言,该方法论的公开不仅丰富了RLHF相关的技术栈,其提供的理论分析框架也为后续研究如何优化信用分配提供了新的视角。在工业落地方面,稳定的策略熵意味着更少的训练崩溃风险和更可控的计算资源消耗,这对于部署大规模推理模型至关重要。此外,STARE所强调的探索-利用平衡机制,对于提升模型在开放域问答、代码生成等需要高度创造性和多样性的任务中的表现具有直接指导意义。随着大模型向更复杂的认知任务演进,如何维持策略的多样性与稳定性将成为核心议题,STARE提出的基于惊奇度引导的重加权思路,有望成为未来强化学习算法设计的重要参考范式,推动智能体在复杂环境下的持续学习与适应能力。

Sources