DelTA:破解大模型强化学习信用分配难题,以判别性优化重塑推理能力

针对大语言模型中基于可验证奖励的强化学习(RLVR)技术,研究揭示了标准策略梯度更新本质为线性判别器,易受高频格式Token干扰。为此提出DelTA方法,通过估计Token系数放大特定侧梯度并抑制弱判别方向,重新加权自归一化代理目标。在Qwen3-8B及14B基座模型上,DelTA在七个数学基准测试中分别以3.26和2.62分的优势超越最强基线,并在代码生成与域外评估中展现卓越泛化能力,为提升模型逻辑推理精度提供了新的技术路径。

在提升大语言模型推理能力的众多技术中,基于可验证奖励的强化学习(RLVR)已成为核心手段。然而,尽管RLVR效果显著,学术界对于响应级别的奖励如何具体转化为Token级别的概率变化这一黑盒过程,理解仍然不足。这篇论文的核心贡献在于引入了一种判别器视角来解析RLVR的更新机制。作者指出,标准的策略梯度更新方向实际上隐式地充当了一个线性判别器,作用于Token梯度向量之上,从而决定在学习过程中哪些Token的概率应当增加或减少。然而,在标准的序列级RLVR中,这种判别器是由正负侧质心构成的,这些质心通过优势加权的平均Token梯度向量形成。问题在于,这种质心构建方式往往会被共享的高频模式(如格式化Token)所主导,从而稀释了那些能够更好区分高奖励响应与低奖励响应的稀疏且具判别性的方向。为了解决这一局限性,研究团队提出了DelTA(Discriminative Token Credit Assignment),一种判别性Token信用分配方法。

该方法旨在通过更精细的机制来重塑RLVR的更新方向,使其更加聚焦于真正具有区分能力的信号,而非被噪声或通用格式所干扰。在技术方法层面,DelTA的核心创新在于引入了一套Token系数估计机制。传统的RLVR方法往往假设所有Token在贡献奖励信号时具有某种均匀性或简单的加权关系,而DelTA则通过计算特定的Token系数,主动放大那些与特定侧(正侧或负侧)相关的Token梯度方向,同时显著降低共享Token或弱判别性Token的权重。这些系数并非固定不变,而是根据数据动态估计,从而能够适应不同响应之间的细微差异。具体而言,DelTA利用这些估计出的系数对自归一化的RLVR代理目标进行重新加权。这一过程使得有效侧向质心(side-wise centroids)变得更加对比鲜明,进而重塑了整个RLVR的更新方向。从数学直觉上看,这相当于在梯度更新时,不仅考虑了奖励的大小,还考虑了每个Token在区分好坏响应中的独特贡献度。

通过抑制那些在正负响应中都频繁出现、缺乏判别力的Token的影响,DelTA迫使模型将概率质量集中在那些真正导致奖励差异的关键Token上。这种机制避免了标准方法中因高频格式Token主导梯度而导致的更新方向偏移,确保了模型学习到的策略更加精准和鲁棒。为了验证DelTA的有效性,研究团队在七个数学基准测试上进行了广泛的实验。实验结果显示,DelTA在Qwen3-8B-Base模型上比最强的同规模基线平均高出3.26分,在Qwen3-14B-Base模型上平均高出2.62分。这一显著的性能提升证明了该方法在数学推理任务上的强大能力。除了数学基准,研究还进一步在代码生成任务、不同的模型骨干网络以及域外评估中进行了测试。这些额外的实验结果一致表明,DelTA具有良好的泛化能力,不仅局限于特定的任务或模型架构。

消融实验进一步揭示了Token系数估计机制的重要性,显示了去除该机制后性能的大幅下降,证实了其对抑制共享噪声和提升判别性方向的关键作用。此外,分析还表明,DelTA在保持训练稳定性的同时,能够更有效地利用有限的计算资源,使得模型在相同的训练步数内达到更高的性能水平。从行业意义与潜在影响来看,DelTA的提出为RLVR技术的优化提供了新的理论视角和实践路径。首先,它揭示了标准RLVR中存在的细微缺陷,即高频共享模式对梯度更新的干扰,这一发现对于理解大模型强化学习的内在机制具有重要价值。其次,DelTA作为一种即插即用的方法,可以轻松地集成到现有的RLVR框架中,无需对模型架构进行重大修改,这降低了其在开源社区和工业界落地的门槛。对于工业界而言,提升推理能力的同时减少计算开销或提高训练效率,意味着更低的部署成本和更快的迭代速度。对于后续研究,DelTA启发了更多关于Token级信用分配机制的探索,未来可能衍生出更多针对特定任务或模态的优化算法。总之,DelTA不仅提升了模型在数学和代码任务上的表现,更为构建更智能、更可靠的推理型大语言模型奠定了坚实的技术基础。