Transformer大激活值与注意力黑洞解剖:Spike、Sparsity与模型鲁棒性

本文系统研究了Transformer语言模型中两个反复出现的异常现象:大激活值(massive activations)和注意力黑洞(attention sinks)。大激活值指少数token在隐藏层的少数通道中出现极端异常值,幅度超出正常值数个数量级;注意力黑洞指某些token无论语义相关性如何都吸引不成比例的注意力权重。先前研究观察到这两种现象在decoder-only pre-norm Transformer中频繁共现,但对其因果关系和功能角色缺乏机制性解释。

作者通过系统实验揭示了完整的因果链条:早期前馈网络层中的SwiGLU模块充当「方向性二次放大器」,当token表示与特定触发方向对齐时,通过秩一主导的二次形式产生极端激活值。这些极端值通过残差流在中间层持续传播,最终由网络末端的「下阶块」注入反向值来中和。关键发现在于归一化层(RMSNorm)将这些大激活token转化为稀疏的、近常数的向量表示,使其Key投影坍缩到极低维子空间,从而与普通token的Key形成几何可分离性——这正是注意力黑洞的根本成因。

论文通过大量消融实验证明:两种现象可以独立抑制而不损害语言建模性能。Sandwich归一化和DynamicTanh可消除大激活值,注意力头维度(d_head)是控制Sink形成的关键架构参数。这些发现为模型量化、剪枝、KV缓存管理和长上下文推理提供了直接的设计指导。论文被ICML 2026接收。

Transformer大激活值与注意力黑洞解剖:Spike、Sparsity与模型鲁棒性

大型语言模型的内部运作长期以来被一层"黑箱"遮蔽,但随着规模扩张和工程部署需求的激增,两种反复出现的异常现象引发了研究者越来越强烈的关注:**大激活值(Massive Activations)**与**注意力黑洞(Attention Sinks)**。这两种现象不仅是理论层面的谜题,更直接制约着模型量化、注意力剪枝和KV缓存管理等核心工程实践。最新被ICML 2026录用的研究"The Spike, the Sparse and the Sink",首次构建了一条从底层算子到宏观行为的完整因果链,揭示了两者共同的诞生根源。

---

研究背景:两个困扰工程实践的异常现象

在decoder-only的pre-norm Transformer中,研究者屡次观察到:某些token在某些隐藏层通道上会产生幅值高达数千甚至数万的极端数值——而正常token的激活值仅在个位数量级。这就是"大激活值"或"Spike"现象。与此同时,在注意力矩阵中,部分特殊token(如序列开头的`[BOS]`、标点符号等)会吸引不成比例的注意力权重,无论其语义相关性如何——这便是"注意力黑洞"或"Attention Sink"现象。

两者对工程的影响是实质性的:大激活值使int8量化的动态范围几乎被少数异常值"霸占",导致其余token精度严重下降;Attention Sink则意味着KV缓存中必须永久保留某些"无用"token,否则模型性能急剧崩溃。此前的工作(如LLM.int8、StreamingLLM、SlimAttention)虽然针对各自的现象提出了工程补丁,却缺乏对两者统一机制的解释。

---

核心发现一:大激活值的生命周期——Rise, Plateau, Fall

研究团队通过逐层可视化,在Llama 2 7B等多个模型中发现了一条清晰的"大激活值生命线":

  • **注入阶段(Step-up Blocks)**:网络早期(如Llama 2 7B的第4层)的前馈网络(FFN)会突然"注入"极端值,使特定token在特定通道上的激活值骤升至正常水平的数百倍。
  • **传播阶段(Plateau)**:通过残差连接,这些极端值在中间层被被动传递,维持在高位。
  • **中和阶段(Step-down Blocks)**:网络末端(第62层)的FFN会注入等幅的反向值,将大激活值"归零"。

这一"注入-传播-中和"的三段式结构,在GPT-2、Pythia、Mistral等多个系列模型中均得到验证,具有相当的普遍性。

---

核心发现二:SwiGLU作为方向性二次放大器

大激活值是如何被注入的?研究发现,SwiGLU激活函数是核心机制。在spike token上,SiLU门控函数运行在近恒等(near-identity)区间,使得SwiGLU的输出可以近似写成输入的二次形式。

更关键的是,对应的权重矩阵呈现出强烈的**秩一主导(rank-one dominant)**结构:所有spike通道共享几乎相同的触发方向。一旦某token的激活值向量与这一方向对齐,所有spike通道将同步激活,产生"雪崩效应"。

这一发现揭示了大激活值的**稀疏性(Sparsity)**成因——并非随机噪声,而是特定输入方向的系统性放大,且因触发条件特殊,在正常文本中仅有少数token满足条件。

---

核心发现三:从Spike到Sink的归一化桥梁

大激活值如何演变为注意力黑洞?RMSNorm是关键的"转化器"。研究证明,RMSNorm对spike token施加了三重变换:

1. **有界化(Bounding)**:将极端值压缩到有界范围内;

2. **稀疏化(Sparsification)**:归一化后,spike通道主导整个向量,非spike通道相对趋近于零,形成稀疏表示;

3. **近常数化(Near-constancy)**:不同spike token经归一化后,得到的向量高度相似,几乎与输入内容无关。

归一化后的稀疏向量通过Key投影后,被限制在极低维子空间中。这与普通token的Key向量形成了**几何可分离性**:spike token的Key总是落在特定"方向",使得Query几乎对所有位置都能"找到"它们——这正是注意力黑洞的根本成因。

至此,研究完成了从底层算子(SwiGLU二次放大)到中间现象(大激活值稀疏性)再到宏观行为(注意力黑洞)的完整因果链条。

---

消融实验:量化两种现象的可控性

为验证理论,研究团队在训练过程中引入多种干预:

| 干预方式 | 对大激活值的影响 | 对注意力黑洞的影响 |

|---|---|---|

| **Sandwich归一化** | Spike幅值从3818降至520 | 部分抑制 |

| **DynamicTanh** | 完全消除大激活值 | 同步消除 |

| **增大d_head(注意力头维度)** | 无直接影响 | Sink ratio从4.1%→46.0% |

核心结论:**两种现象可以独立抑制而不损害模型性能**。这意味着它们并非Transformer功能的必要组成,而是特定架构选择下的"副产品"。

---

鲁棒性视角:为什么这对模型可靠性至关重要

从鲁棒性角度审视,大激活值和注意力黑洞代表了模型内部的两种"脆弱点":

  • **量化脆弱性**:大激活值使混合精度量化(如LLM.int8)成为必要,增加了推理系统复杂度;若直接使用int8,少数spike通道会"占据"整个量化范围,导致绝大多数通道精度损失。
  • **长序列脆弱性**:Attention Sink导致KV缓存必须保留"无语义价值"的开头token,否则滑动窗口注意力的长序列处理能力崩溃(StreamingLLM的发现)。
  • **对抗攻击面**:理解spike的触发方向,理论上可以构造特定输入来人工激活大激活值,影响模型行为。

研究建议,未来架构设计应将"无spike/无sink"作为可探索的设计目标,而非将其视为不可避免的特性。

---

实践指导意义

1. **量化工程**:Sandwich归一化或DynamicTanh可从根本上缓解int8量化压力,在训练时引入即可,无需推理时的特殊处理。

2. **KV缓存策略**:理解Sink的形成机制后,可以设计更智能的缓存淘汰策略——真正"重要"的是Sink token的归一化后Key向量,而非其原始内容。

3. **架构搜索**:d_head参数对Sink ratio的敏感影响(从8到128时Sink比例从4.1%跳升至46.0%),为多头注意力的参数配置提供了新维度的考量。

4. **可解释性研究**:大激活值的"注入-传播-中和"生命周期框架,为理解Transformer中的信息存储与传递提供了新的可视化视角。

本研究被ICML 2026录用,由Jiachen Zhu等人完成,是近年来Transformer内部机制研究中少有的同时解释两种现象、并提供定量干预证据的工作。