ZO-Act:激活引导的零阶微调,打破大模型显存与反向传播瓶颈

针对大语言模型在显存受限或无法进行反向传播场景下的微调难题,研究提出ZO-Act方法。该方法创新性地利用输入激活值构建低秩子空间,仅在初始化时计算一次激活基,随后优化轻量级系数矩阵。通过前向传播损失评估,ZO-Act显著降低扰动维度,兼容Adam等动量优化器并原生支持量化模型。在Llama-3-8B及OPT-13B等模型上的实验表明,其在语言理解与推理任务上显著优于现有基线,为资源受限环境下的大模型高效适配提供了新范式。

在大规模语言模型(LLM)的微调过程中,传统的基于梯度的优化方法往往依赖于反向传播算法,这不仅需要巨大的显存开销来存储中间激活值和梯度,而且在某些边缘设备或隐私保护场景中,反向传播可能完全不可行或成本过高。零阶优化(Zeroth-Order, ZO)作为一种替代方案,通过仅利用前向传播的损失值来估计梯度,从而规避了对反向传播的依赖。然而,现有的零阶微调方法存在显著缺陷:它们通常对全模型权重进行随机扰动,或者使用随机生成的低维子空间,这导致了梯度估计的高方差和收敛缓慢,最终限制了微调后的模型性能。针对这一痛点,本研究提出了ZO-Act方法,其核心贡献在于引入了一种基于激活信息的低秩子空间约束机制。该方法不再盲目地扰动所有参数,而是通过分析输入数据的激活模式,构建一个固定的低秩子空间,将参数更新的自由度限制在这个子空间内。

这种设计不仅大幅减少了需要优化的参数维度,还使得优化过程更加稳定和高效,为在资源受限环境下微调大语言模型提供了一条全新的技术路径。从技术实现的角度来看,ZO-Act的设计极具巧思且工程友好。对于模型中的每一个线性层,ZO-Act仅在训练初始化阶段计算一次小的激活基矩阵,这一步骤捕获了输入数据的主要变化方向。随后,在训练过程中,模型权重被表示为该激活基与一个轻量级系数矩阵的线性组合。优化器不再直接更新庞大的权重矩阵,而是仅更新这些低维的系数矩阵。

由于系数矩阵的维度远小于原始权重矩阵,ZO-Act有效地降低了有效扰动维度,从而减少了梯度估计中的方差项和有限差分误差。更重要的是,这种参数化方式引入了显式的可训练变量,使得ZO-Act能够直接兼容Adam等基于动量的现代优化器,解决了传统零阶方法难以利用动量加速收敛的问题。此外,该方法天然支持量化大语言模型的微调。由于低秩子空间结构的存在,原始的低位权重可以保持冻结状态,仅通过调整系数矩阵来适应新任务,从而在保持模型量化压缩优势的同时,实现了有效的任务适配,避免了量化带来的性能大幅下降。为了验证ZO-Act的有效性,研究者在多个主流大语言模型基准上进行了广泛的实验。

实验涵盖了Llama-3-8B、OPT-13B以及经过INT4量化的Llama-3-8B模型,评估任务包括语言理解、问答系统和常识推理等多个维度。实验结果一致显示,ZO-Act在各项指标上均显著优于现有的强零阶微调基线方法。特别是在量化模型上,ZO-Act展现出了卓越的性能保持能力,证明了其在极低资源消耗下的有效性。消融实验进一步揭示了激活基选择的重要性以及低秩结构对收敛稳定性的贡献。研究发现,通过限制扰动在激活主导的子空间内,模型能够更准确地捕捉任务相关的特征变化,而随机扰动则容易引入噪声,导致优化方向偏离。

这些关键结果不仅验证了ZO-Act的理论优势,也展示了其在实际应用场景中的鲁棒性和泛化能力,为后续研究提供了宝贵的基准数据。ZO-Act的提出对开源社区和工业落地具有深远的意义。在开源社区,该方法为开发者提供了一种无需反向传播即可微调开源大模型的轻量级工具,降低了参与大模型微调的门槛,促进了更多基于零阶优化的创新研究。在工业落地方面,随着大模型向边缘设备、移动端和物联网终端部署的需求日益增长,显存和计算资源的限制成为主要瓶颈。ZO-Act通过减少显存占用和计算复杂度,使得在资源受限设备上实时微调模型成为可能,特别是在需要快速适应新任务或个性化数据的场景中。此外,其对量化模型的支持也为部署高效、低功耗的AI应用提供了新的解决方案。未来,随着零阶优化理论的进一步完善和硬件加速技术的发展,ZO-Act有望成为大模型微调领域的重要标准方法之一,推动AI技术在更广泛场景下的普及和应用。

Sources