打破算力迷信:秩1轨迹外推以15%成本实现大模型推理跃升
强化学习结合可验证奖励(RLVR)虽已成为提升大语言模型推理能力的主流范式,但其参数轨迹的几何特性长期未被深入探索。最新研究揭示RLVR权重轨迹具有极低秩且高度可预测的特性,性能增益主要由参数增量的秩1近似捕捉。基于此,作者提出计算高效的RELEX方法,仅通过短观测窗口估计秩1子空间并利用线性回归外推未来检查点,无需额外训练。在Qwen系列模型上的实验表明,RELEX仅需15%的全量训练步数即可达到或超越完整RLVR性能,甚至能以零成本外推至观测窗口10-20倍远的未来,为降低大模型训练成本提供了全新思路。
在大型语言模型(LLMs)的推理能力优化领域,强化学习结合可验证奖励(RLVR)已确立为一种主导范式。然而,尽管RLVR在提升模型数学推理和逻辑能力方面表现卓越,学术界对于由此产生的参数更新轨迹的内在几何结构仍缺乏深入理解。大多数研究聚焦于如何设计更复杂的奖励函数或优化算法,却忽视了模型权重在训练过程中变化的本质规律。本文的核心贡献在于首次系统性地揭示了RLVR训练过程中参数轨迹的极简几何特性。研究团队发现,这些轨迹并非高维空间中杂乱无章的随机游走,而是呈现出极低的秩结构,且高度可预测。具体而言,模型在下游任务中获得的绝大部分性能增益,实际上可以被参数增量的秩1近似所捕捉。这一发现颠覆了传统认知,即认为复杂的模型更新需要高维空间的丰富表达,证明了在RLVR场景下,参数更新主要沿着单一主导方向进行,且该方向的演化幅度与训练步数之间存在着近乎线性的关系。这一理论洞察为后续提出高效训练方法奠定了坚实的数学基础,也为理解深度模型优化动力学提供了新视角。基于上述发现,作者提出了一种名为RELEX(REinforcement Learning EXtrapolation)的全新方法。RELEX的设计哲学是"少即是多",它摒弃了传统RLVR中漫长的迭代训练过程,转而采用一种基于观测的外推策略。
该方法首先在一个极短的观测窗口内收集RLVR训练的早期权重更新数据,通过奇异值分解等技术估计出参数变化的秩1子空间。随后,利用线性回归模型拟合该子空间中投影幅度随训练步数的演变趋势,从而预测未来任意步数的权重状态。与需要持续计算梯度或维护复杂优化器状态的传统方法不同,RELEX在估计完子空间后,无需任何额外的反向传播或模型训练即可生成未来的检查点。这种策略极大地降低了计算开销,因为它避免了在长周期训练中反复评估奖励和更新权重的过程。此外,RELEX还引入了一个关键的"去噪"机制:通过将参数更新投影到秩1子空间,模型能够过滤掉随机优化过程中产生的高频噪声,只保留最具信息量的更新方向。这种去噪效应不仅提高了外推的准确性,还防止了因噪声累积导致的性能退化,使得模型在未见过的训练阶段仍能保持稳定的性能增长。为了验证RELEX的有效性,研究团队在三个不同规模的Qwen系列模型上进行了广泛实验,包括Qwen2.5-Math-1.5B、Qwen3-4B-Base和Qwen3-8B-Base。实验涵盖了域内和域外基准测试,以评估方法的泛化能力。结果显示,RELEX仅需执行全量RLVR训练15%的步骤,即可在各项指标上达到或超越完整训练的效果。例如,在Qwen3-8B-Base模型上,仅使用少量早期步数的数据,RELEX生成的检查点在数学推理基准上的得分与经过数千步完整训练后的模型相当。
更令人印象深刻的是其外推能力:RELEX能够以零训练成本预测远超观测窗口的未来性能。实验表明,该方法可以外推至观测窗口10到20倍远的步数,例如仅观察前50步的训练轨迹,就能准确预测第1000步时的模型性能,且性能随外推步数继续提升。消融实验进一步证实了RELEX设计的极简性:增加子空间的秩(如使用秩2或更高)并未带来性能增益,引入非线性建模同样无效。这反证了秩1近似的充分性,表明RLVR轨迹的主导成分足以解释大部分性能变化,任何试图捕捉更高维细节的努力都是冗余的。RELEX的提出对开源社区和工业界具有深远的意义。首先,它大幅降低了大模型推理能力优化的计算成本,使得在资源受限的环境下进行RLVR训练成为可能,促进了更广泛的研究者和开发者参与模型优化。其次,其外推能力为模型训练提供了新的策略选择,研究人员可以在训练早期快速评估潜在性能,从而更灵活地分配计算资源。对于工业落地而言,RELEX提供了一种高效的模型迭代方案,减少了长时间训练带来的不确定性和资源浪费。此外,该研究揭示了RLVR轨迹的低秩特性,为后续研究提供了新的理论切入点,例如探索其他优化算法是否也具有类似的几何结构,或如何利用这一特性设计更高效的微调方法。总之,RELEX不仅是一种实用的训练加速工具,更是对大模型优化动力学的一次深刻洞察,有望推动LLM推理能力优化向更高效、更可解释的方向发展。