Transformer大激活值与注意力黑洞解剖：Spike、Sparsity与模型鲁棒性

本文系统研究了Transformer语言模型中两个反复出现的异常现象：大激活值（massive activations）和注意力黑洞（attention sinks）。大激活值指少数token在隐藏层的少数通道中出现极端异常值，幅度超出正常值数个数量级；注意力黑洞指某些token无论语义相关性如何都吸引不成比例的注意力权重。先前研究观察到这两种现象在decoder-only pre-norm Transformer中频繁共现，但对其因果关系和功能角色缺乏机制性解释。

作者通过系统实验揭示了完整的因果链条：早期前馈网络层中的SwiGLU模块充当「方向性二次放大器」，当token表示与特定触发方向对齐时，通过秩一主导的二次形式产生极端激活值。这些极端值通过残差流在中间层持续传播，最终由网络末端的「下阶块」注入反向值来中和。关键发现在于归一化层（RMSNorm）将这些大激活token转化为稀疏的、近常数的向量表示，使其Key投影坍缩到极低维子空间，从而与普通token的Key形成几何可分离性——这正是注意力黑洞的根本成因。

论文通过大量消融实验证明：两种现象可以独立抑制而不损害语言建模性能。Sandwich归一化和DynamicTanh可消除大激活值，注意力头维度（d_head）是控制Sink形成的关键架构参数。这些发现为模型量化、剪枝、KV缓存管理和长上下文推理提供了直接的设计指导。论文被ICML 2026接收。

Transformer大激活值与注意力黑洞解剖：Spike、Sparsity与模型鲁棒性

大型语言模型的内部运作长期以来被一层"黑箱"遮蔽，但随着规模扩张和工程部署需求的激增，两种反复出现的异常现象引发了研究者越来越强烈的关注：**大激活值（Massive Activations）**与**注意力黑洞（Attention Sinks）**。这两种现象不仅是理论层面的谜题，更直接制约着模型量化、注意力剪枝和KV缓存管理等核心工程实践。最新被ICML 2026录用的研究"The Spike, the Sparse and the Sink"，首次构建了一条从底层算子到宏观行为的完整因果链，揭示了两者共同的诞生根源。

---

研究背景：两个困扰工程实践的异常现象

在decoder-only的pre-norm Transformer中，研究者屡次观察到：某些token在某些隐藏层通道上会产生幅值高达数千甚至数万的极端数值——而正常token的激活值仅在个位数量级。这就是"大激活值"或"Spike"现象。与此同时，在注意力矩阵中，部分特殊token（如序列开头的`[BOS]`、标点符号等）会吸引不成比例的注意力权重，无论其语义相关性如何——这便是"注意力黑洞"或"Attention Sink"现象。

两者对工程的影响是实质性的：大激活值使int8量化的动态范围几乎被少数异常值"霸占"，导致其余token精度严重下降；Attention Sink则意味着KV缓存中必须永久保留某些"无用"token，否则模型性能急剧崩溃。此前的工作（如LLM.int8、StreamingLLM、SlimAttention）虽然针对各自的现象提出了工程补丁，却缺乏对两者统一机制的解释。

---

核心发现一：大激活值的生命周期——Rise, Plateau, Fall

研究团队通过逐层可视化，在Llama 2 7B等多个模型中发现了一条清晰的"大激活值生命线"：

**注入阶段（Step-up Blocks）**：网络早期（如Llama 2 7B的第4层）的前馈网络（FFN）会突然"注入"极端值，使特定token在特定通道上的激活值骤升至正常水平的数百倍。
**传播阶段（Plateau）**：通过残差连接，这些极端值在中间层被被动传递，维持在高位。
**中和阶段（Step-down Blocks）**：网络末端（第62层）的FFN会注入等幅的反向值，将大激活值"归零"。

这一"注入-传播-中和"的三段式结构，在GPT-2、Pythia、Mistral等多个系列模型中均得到验证，具有相当的普遍性。

---

核心发现二：SwiGLU作为方向性二次放大器

大激活值是如何被注入的？研究发现，SwiGLU激活函数是核心机制。在spike token上，SiLU门控函数运行在近恒等（near-identity）区间，使得SwiGLU的输出可以近似写成输入的二次形式。

更关键的是，对应的权重矩阵呈现出强烈的**秩一主导（rank-one dominant）**结构：所有spike通道共享几乎相同的触发方向。一旦某token的激活值向量与这一方向对齐，所有spike通道将同步激活，产生"雪崩效应"。

这一发现揭示了大激活值的**稀疏性（Sparsity）**成因——并非随机噪声，而是特定输入方向的系统性放大，且因触发条件特殊，在正常文本中仅有少数token满足条件。

---

核心发现三：从Spike到Sink的归一化桥梁

大激活值如何演变为注意力黑洞？RMSNorm是关键的"转化器"。研究证明，RMSNorm对spike token施加了三重变换：

1. **有界化（Bounding）**：将极端值压缩到有界范围内；

2. **稀疏化（Sparsification）**：归一化后，spike通道主导整个向量，非spike通道相对趋近于零，形成稀疏表示；

3. **近常数化（Near-constancy）**：不同spike token经归一化后，得到的向量高度相似，几乎与输入内容无关。

归一化后的稀疏向量通过Key投影后，被限制在极低维子空间中。这与普通token的Key向量形成了**几何可分离性**：spike token的Key总是落在特定"方向"，使得Query几乎对所有位置都能"找到"它们——这正是注意力黑洞的根本成因。

至此，研究完成了从底层算子（SwiGLU二次放大）到中间现象（大激活值稀疏性）再到宏观行为（注意力黑洞）的完整因果链条。

---

消融实验：量化两种现象的可控性

为验证理论，研究团队在训练过程中引入多种干预：

| 干预方式 | 对大激活值的影响 | 对注意力黑洞的影响 |

|---|---|---|

| **Sandwich归一化** | Spike幅值从3818降至520 | 部分抑制 |

| **DynamicTanh** | 完全消除大激活值 | 同步消除 |

| **增大d_head（注意力头维度）** | 无直接影响 | Sink ratio从4.1%→46.0% |

核心结论：**两种现象可以独立抑制而不损害模型性能**。这意味着它们并非Transformer功能的必要组成，而是特定架构选择下的"副产品"。

---

鲁棒性视角：为什么这对模型可靠性至关重要

从鲁棒性角度审视，大激活值和注意力黑洞代表了模型内部的两种"脆弱点"：

**量化脆弱性**：大激活值使混合精度量化（如LLM.int8）成为必要，增加了推理系统复杂度；若直接使用int8，少数spike通道会"占据"整个量化范围，导致绝大多数通道精度损失。
**长序列脆弱性**：Attention Sink导致KV缓存必须保留"无语义价值"的开头token，否则滑动窗口注意力的长序列处理能力崩溃（StreamingLLM的发现）。
**对抗攻击面**：理解spike的触发方向，理论上可以构造特定输入来人工激活大激活值，影响模型行为。

研究建议，未来架构设计应将"无spike/无sink"作为可探索的设计目标，而非将其视为不可避免的特性。

---

实践指导意义

1. **量化工程**：Sandwich归一化或DynamicTanh可从根本上缓解int8量化压力，在训练时引入即可，无需推理时的特殊处理。

2. **KV缓存策略**：理解Sink的形成机制后，可以设计更智能的缓存淘汰策略——真正"重要"的是Sink token的归一化后Key向量，而非其原始内容。

3. **架构搜索**：d_head参数对Sink ratio的敏感影响（从8到128时Sink比例从4.1%跳升至46.0%），为多头注意力的参数配置提供了新维度的考量。

4. **可解释性研究**：大激活值的"注入-传播-中和"生命周期框架，为理解Transformer中的信息存储与传递提供了新的可视化视角。

本研究被ICML 2026录用，由Jiachen Zhu等人完成，是近年来Transformer内部机制研究中少有的同时解释两种现象、并提供定量干预证据的工作。