The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

本文系统研究了Transformer语言模型中两个反复出现的异常现象：大激活值（massive activations）和注意力黑洞（attention sinks）。大激活值指少数token在隐藏层的少数通道中出现极端异常值，幅度超出正常值数个数量级；注意力黑洞指某些token无论语义相关性如何都吸引不成比例的注意力权重。先前研究观察到这两种现象在decoder-only pre-norm Transformer中频繁共现，但对其因果关系和功能角色缺乏机制性解释。

作者通过系统实验揭示了完整的因果链条：早期前馈网络层中的SwiGLU模块充当「方向性二次放大器」，当token表示与特定触发方向对齐时，通过秩一主导的二次形式产生极端激活值。这些极端值通过残差流在中间层持续传播，最终由网络末端的「下阶块」注入反向值来中和。关键发现在于归一化层（RMSNorm）将这些大激活token转化为稀疏的、近常数的向量表示，使其Key投影坍缩到极低维子空间，从而与普通token的Key形成几何可分离性——这正是注意力黑洞的根本成因。

论文通过大量消融实验证明：两种现象可以独立抑制而不损害语言建模性能。Sandwich归一化和DynamicTanh可消除大激活值，注意力头维度（d_head）是控制Sink形成的关键架构参数。这些发现为模型量化、剪枝、KV缓存管理和长上下文推理提供了直接的设计指导。论文被ICML 2026接收。

심층 분석과 업계 전망

거시적 관점에서 이 발전은 AI 기술이 실험실에서 산업 응용으로 가속 전환하는 트렌드를 체현한다. 업계 분석가들은 2026년이 AI 상업화의 핵심 전환점이 될 것으로 광범위하게 인식하고 있다. 기술 측면에서는 대규모 모델의 추론 효율이 향상되고 배포 비용이 하락하여 더 많은 중소기업이 AI 역량에 접근할 수 있게 되었다.

그러나 급속한 보급은 새로운 과제도 가져온다: 데이터 프라이버시 복잡화, AI 결정 투명성 요구 증대, 국경을 넘는 AI 거버넌스 조정 곤란. 각국 규제 당국이 동향을 주시하며 혁신 촉진과 리스크 방지의 균형을 모색하고 있다. 투자자에게도 지속 가능한 경쟁 우위를 가진 AI 기업 식별이 점점 중요해지고 있다.

산업 체인 관점에서 상류 인프라 층은 통합과 재구축을 경험하며 선두 기업들이 수직 통합으로 경쟁 장벽을 확대하고 있다. 중류 플랫폼 층에서는 오픈소스 생태계가 번성하여 AI 개발 진입 장벽이 낮아지고 있다. 하류 응용 층에서는 금융, 의료, 교육, 제조 등 전통 산업의 AI 침투율이 가속적으로 상승 중이다.

또한 인재 경쟁이 AI 산업 발전의 핵심 병목이 되고 있다. 세계 최고 AI 연구자의 쟁탈전이 격화되며 각국 정부가 AI 인재 유치 우대 정책을 내놓고 있다. 산학 협력 혁신 모델이 글로벌하게 추진되어 AI 기술의 산업화를 가속화하고 있다. 지속적인 기술 모니터링과 전략적 투자가 필수적이다.