The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

本文系统研究了Transformer语言模型中两个反复出现的异常现象:大激活值(massive activations)和注意力黑洞(attention sinks)。大激活值指少数token在隐藏层的少数通道中出现极端异常值,幅度超出正常值数个数量级;注意力黑洞指某些token无论语义相关性如何都吸引不成比例的注意力权重。先前研究观察到这两种现象在decoder-only pre-norm Transformer中频繁共现,但对其因果关系和功能角色缺乏机制性解释。

作者通过系统实验揭示了完整的因果链条:早期前馈网络层中的SwiGLU模块充当「方向性二次放大器」,当token表示与特定触发方向对齐时,通过秩一主导的二次形式产生极端激活值。这些极端值通过残差流在中间层持续传播,最终由网络末端的「下阶块」注入反向值来中和。关键发现在于归一化层(RMSNorm)将这些大激活token转化为稀疏的、近常数的向量表示,使其Key投影坍缩到极低维子空间,从而与普通token的Key形成几何可分离性——这正是注意力黑洞的根本成因。

论文通过大量消融实验证明:两种现象可以独立抑制而不损害语言建模性能。Sandwich归一化和DynamicTanh可消除大激活值,注意力头维度(d_head)是控制Sink形成的关键架构参数。这些发现为模型量化、剪枝、KV缓存管理和长上下文推理提供了直接的设计指导。论文被ICML 2026接收。

Analyse approfondie et perspectives industrielles

Dans une perspective plus large, cette evolution illustre la tendance acceleree de la transition de la technologie IA des laboratoires vers les applications industrielles. Les analystes du secteur s accordent a dire que 2026 sera une annee charniere pour la commercialisation de l IA. Sur le plan technique, l efficacite d inference des grands modeles continue de s ameliorer tandis que les couts de deploiement diminuent, permettant a davantage de PME d acceder aux capacites avancees de l IA.

Cependant, la proliferation rapide de l IA apporte egalement de nouveaux defis: complexite croissante de la protection des donnees personnelles, demandes accrues de transparence des decisions de l IA et difficultes de coordination de la gouvernance transfrontaliere de l IA. Les autorites reglementaires de plusieurs pays surveillent de pres ces evolutions, tentant d equilibrer promotion de l innovation et prevention des risques.

Du point de vue de la chaine industrielle, la couche d infrastructure en amont connait une consolidation, les entreprises leaders elargissant leurs barrieres concurrentielles par l integration verticale. La couche de plateforme intermediaire voit son ecosysteme open-source prosperer, abaissant les barrieres d entree au developpement IA. La couche d application en aval montre une acceleration de la penetration de l IA dans les industries traditionnelles.

De plus, la competition pour les talents est devenue un goulot d etranglement critique. La guerre pour les meilleurs chercheurs en IA s intensifie a l echelle mondiale, les gouvernements introduisant des politiques attractives. Les modeles d innovation industrie-universite sont promus globalement pour accelerer l industrialisation de l IA.

Analyse approfondie et perspectives industrielles

Dans une perspective plus large, cette evolution illustre la tendance acceleree de la transition de la technologie IA des laboratoires vers les applications industrielles. Les analystes du secteur s accordent a dire que 2026 sera une annee charniere pour la commercialisation de l IA. Sur le plan technique, l efficacite d inference des grands modeles continue de s ameliorer tandis que les couts de deploiement diminuent, permettant a davantage de PME d acceder aux capacites avancees de l IA.