打破全参数更新迷思:单Transformer层微调竟能媲美全参数强化学习
最新研究挑战了大语言模型后训练中全参数更新均匀贡献的传统假设。通过系统性层间分析,研究揭示仅训练单个Transformer层即可恢复大部分全参数强化学习增益,甚至在特定场景下表现更优。该研究在Qwen3、Qwen2.5等七款模型及多种算法中验证了"层贡献"指标,发现高贡献层集中于网络中部且模式稳定。这一发现不仅揭示了强化学习适应性的层间分布规律,更为高效微调提供了新视角,表明无需更新全部参数即可实现显著性能提升,对降低计算成本和优化训练策略具有深远影响。
在大语言模型的后训练阶段,强化学习已成为提升模型能力的关键手段,但现有研究普遍假设所有Transformer层对强化学习带来的性能提升具有同等贡献,因此通常采用全参数更新策略。然而,这种均匀更新的假设缺乏理论支撑,且计算成本高昂。本研究旨在打破这一固有认知,通过系统性的层间分析,深入探究强化学习适应过程在Transformer各层中的分布规律。研究团队提出并验证了一个反直觉的核心发现:仅训练单个Transformer层,即可恢复大部分全参数强化学习所获得的性能增益,在某些特定场景下,其表现甚至超越全参数训练。这一发现不仅挑战了传统全参数微调的必要性,也为理解大模型内部知识更新机制提供了全新的视角,揭示了模型能力增强并非均匀分布,而是高度集中在特定结构位置。通过这一研究,我们得以重新审视强化学习在深层网络中的作用机制,为后续的高效模型优化奠定了理论基础。为了深入量化这一现象,研究团队引入了"层贡献"这一关键指标,用于衡量在隔离训练单个层时,所恢复的全参数强化学习改进比例。在方法论上,研究涵盖了两个主要的模型家族(Qwen3和Qwen2.5)以及七款不同规模的模型,并应用了三种主流的强化学习算法(GRPO、GiGPO和Dr. GRPO)。
实验任务领域广泛,包括数学推理、代码生成以及智能体决策制定等具有代表性的复杂任务。通过这种多维度的实验设置,研究人员能够全面评估不同层在不同任务下的贡献差异。训练策略上,研究并未采用复杂的混合架构,而是专注于隔离训练单个层,以排除其他层的干扰,从而精确捕捉该层在强化学习过程中的独立作用。这种严谨的实验设计确保了结论的可靠性,使得"层贡献"成为一个具有普适性的量化标准,能够跨模型、跨任务进行有效比较。实验结果呈现出令人惊讶的稳定性模式。在涵盖多种模型家族、算法及任务领域的广泛测试中,研究观察到强化学习的增益高度集中在少数几个,甚至在许多情况下仅集中在单个Transformer层上。更为关键的是,这些高贡献层的位置呈现出一致的结构性规律:它们主要集中于Transformer堆栈的中间部分,而靠近输入端和输出端的层则贡献显著较低。这种层排名模式在不同数据集、任务类型、模型架构及强化学习算法之间表现出强烈的相关性,表明这种分布并非偶然,而是大语言模型内部信息处理与知识整合的固有特性。
消融实验进一步证实,忽略这些高贡献层将导致性能大幅下降,而仅更新这些关键层则能保持绝大部分性能优势。这一发现不仅验证了"层贡献"指标的有效性,也为后续的资源分配策略提供了明确指导,即优先优化中间层可获得更高的边际收益。这一研究成果对开源社区、工业落地及后续研究具有深远的意义。在工业落地方面,由于无需更新全部参数,模型微调的计算成本和存储需求将大幅降低,使得在资源受限环境下进行大规模个性化定制成为可能。对于开源社区而言,这一发现鼓励开发者探索更轻量级的微调方法,推动高效AI工具链的发展。在后续研究层面,该工作为理解大模型内部机制提供了新的切入点,未来研究可进一步探索如何自动识别这些关键层,或设计针对中间层的专用优化算法。此外,这一发现也可能启发新的模型架构设计,例如在中间层引入更强的非线性变换或注意力机制,以进一步提升模型在特定任务上的表现。总之,本研究不仅优化了现有的训练范式,更为大语言模型的高效演进开辟了新的道路。