算子级视觉跳过:破解多模态大模型推理效率瓶颈的新范式
多模态大语言模型在处理长视觉序列时面临巨大的推理计算压力,现有粗粒度加速策略易导致精度损失。最新研究从答案可观测视角发现晚期视觉Token更新存在"答案静默"冗余,据此提出算子级视觉Token跳过框架。该框架将Transformer层分解为注意力与前馈网络算子,选择性绕过冗余计算。实验显示,该方法在Qwen3-VL上降低33.7% TFLOPs的同时保留99.5%的原始性能,实现了效率与精度的高效权衡,为多模态推理优化提供了新的技术路径。
多模态大语言模型(MLLMs)在处理长视觉Token序列时,其推理计算量显著增加,成为制约实际应用的关键瓶颈。现有的加速方法大多采用粗粒度的策略,例如直接移除部分视觉Token或在整个Transformer层中跳过视觉Token的更新。然而,这些方法往往缺乏细粒度的判断能力,容易在抑制冗余计算的同时,误伤对最终答案生成至关重要的细粒度视觉证据,或者错误地跳过那些虽然计算量大但对输出有贡献的算子。本文从答案可观测的视角深入研究了视觉Token的计算过程,发现了一个关键现象:在模型推理的后期,视觉Token的更新幅度虽然依然很大,但实际上对最终答案Token的表示几乎没有影响。这种被称为"答案静默"的冗余现象,为更精细化的加速提供了理论依据。基于此,本文的核心贡献在于提出了一种算子级的视觉Token跳过框架,旨在打破传统层级别或Token级别剪枝的局限,通过更细粒度的控制来实现计算资源的优化,从而在不牺牲模型精度的前提下显著提升推理效率。在技术方法层面,本文深入剖析了Transformer层的内部结构,将其分解为注意力(Attention)算子和前馈网络(FFN)算子两个独立部分。研究发现,有用的视觉计算往往具有算子主导性和层依赖性,即不同层和不同算子对最终答案的贡献程度差异巨大。
基于这一发现,作者设计了一种动态跳过机制,该机制能够根据每一层和每一个算子的实际贡献,选择性地进行跳过。具体而言,框架保留了完整的视觉Token序列,确保视觉信息的完整性,但在推理过程中,对于被判定为冗余的Attention或FFN算子,直接跳过其计算步骤,或者仅保留部分关键计算。这种策略避免了整层跳过带来的信息损失,也克服了直接移除Token导致的上下文断裂问题。通过这种细粒度的算子级控制,模型能够在保持对视觉细节敏感的同时,大幅减少不必要的浮点运算,从而实现计算效率的显著提升。为了验证所提方法的有效性,作者在三种主流的多模态大语言模型架构上进行了广泛的实验,并覆盖了十个视觉问答(VQA)基准测试。实验结果展示了该方法在效率与精度之间的优异权衡能力。特别是在使用Qwen3-VL作为基础模型的实验中,该方法成功减少了33.7%的TFLOPs(每秒万亿次浮点运算),这意味着推理过程中的计算负载得到了显著降低。更为关键的是,在如此大幅度的计算节省下,模型在各项VQA任务上的表现仅损失了微不足道的0.5%,即保留了99.5%的原始模型性能。
消融实验进一步揭示了不同层和算子跳过策略对最终结果的影响,证实了算子级跳过比传统的层级别跳过更能有效地识别并剔除冗余计算,同时保留了关键的视觉推理能力。这些结果不仅验证了"答案静默"假设的正确性,也证明了算子级跳过框架的通用性和有效性。这项研究对多模态大语言模型的开源社区和工业落地具有深远的意义。首先,它提供了一种无需重新训练模型即可实现高效推理的轻量级解决方案,极大地降低了部署成本,使得在资源受限设备上运行大型多模态模型成为可能。其次,算子级跳过机制的提出,为后续研究提供了新的思路,即通过更细粒度的分析来优化模型计算,而非仅仅依赖于宏观的结构修改。这对于推动多模态模型在实时视频分析、自动驾驶等对延迟敏感的应用场景中的落地具有重要价值。此外,该方法对现有模型的兼容性较好,易于集成到现有的推理引擎中,有助于加速多模态AI技术的普及和应用。未来,随着视觉序列长度的进一步增加,这种细粒度的计算优化策略将成为提升多模态模型可扩展性的关键手段之一。