Attention Residuals论文解读:10年没变的残差连接终于被Kimi重写了
Moonshot AI发布Attention Residuals(AttnRes)论文,挑战Transformer架构中沿用十年的固定残差连接范式。核心创新是用softmax注意力替代固定累加——每层学习一个伪查询,对所有前序层输出计算注意力权重,实现选择性信息检索而非均匀组合。Block AttnRes变体将层分组为块级表示,降低内存和通信开销以适应大规模模型。在Kimi Linear(48B总参数MoE架构,1.4T token训练)上验证,AttnRes在MMLU、GPQA-Diamond、BBH、Math、HumanEval等基准上一致超越基线,额外成本极低(训练<4%,推理<2%)。
Attention Residuals论文解读:Transformer沿用10年的残差连接被Kimi重写了
2026年3月16日,Moonshot AI(月之暗面)发表了**Attention Residuals(AttnRes)**论文,从架构层面挑战了Transformer模型中几乎从未被质疑过的基础设计——**固定加法残差连接(Fixed Additive Residual Connections)**。这一设计自2017年Transformer论文发布以来沿用至今,近十年来被视为稳定训练的基石。
问题诊断:为什么传统残差连接是个"历史遗留"?
传统残差连接的公式极为简单:
h_l = F_l(h_{l-1}) + h_{l-1}
每层的输出是该层的变换结果加上上一层的输出(权重固定为1:1)。
这种设计在2017年被证明能有效解决深层网络的梯度消失问题,成为Transformer的标配。然而,随着模型规模的不断增大,研究者们发现了几个系统性问题:
1. PreNorm Dilution(预层归一化稀释)
现代Transformer通常使用PreNorm(在注意力计算前进行层归一化)而非原始的PostNorm。这带来了一个隐性问题:随着层数增加,层归一化会压缩各层输出的方差,而固定残差连接会"稀释"各层学习到的特征表示,导致较深的层对模型最终输出的贡献越来越小。
2. 信息访问的局限性
固定残差连接的每一层只能"看到"前一层的输出。对于需要长距离依赖的任务,一个层无法直接利用5层前、10层前的信息——这些信息已经被连续的层变换"混合"和"稀释"。
3. 梯度传播的不均匀性
在反向传播中,梯度通过固定残差路径流动,导致不同深度的层接收的梯度量级差异显著,使得深层网络的训练稳定性和收敛速度受到影响。
AttnRes的核心设计
Attention Residuals的关键洞察是:**残差连接可以用注意力机制来实现,而不是简单的加法**。
数学形式:
设模型有L层,第l层的隐藏状态计算为:
h_l = Σ_{j<l} α_{l,j} · h_j
其中 α_{l,j} 是通过深度维度注意力机制学习的权重,表示第l层对第j层输出的"关注程度"。
关键特性:
- **自适应性**:每层可以根据自身的计算需求,动态决定从哪些前序层汲取多少信息
- **全局可见性**:每层可以直接访问所有前序层的信息(而不只是上一层)
- **权重可学习**:α_{l,j}不是固定的,而是通过端对端训练学习的
类比理解:
如果把每层想象成一个决策者:
- **传统残差**:每个决策者只能听前一任决策者的意见(权重固定)
- **AttnRes**:每个决策者可以综合所有前辈决策者的意见,并根据情境自动给每个前辈分配权重
Block AttnRes:从理论到工程
原始AttnRes的计算复杂度有一个工程问题:如果每层都对所有前序层计算注意力,计算和通信开销随层数增加呈O(L²)增长,在有64层的模型上会有64²=4096倍的开销增加——这显然不可接受。
Kimi团队的解决方案是**Block Attention Residuals**:
1. 将模型的L层分成若干块(Block),每块包含k层
2. 在块内:使用AttnRes(每层对块内所有前序层计算注意力)
3. 块间:使用传统固定残差连接
这样,计算复杂度从O(L²)降低到O(L·k),在k远小于L的情况下(如k=8,L=48),开销大幅减少,同时保留了主要的性能收益。
实验结果分析
测试平台:Kimi Linear(480亿总参数MoE)
Kimi Linear是Moonshot AI的一个以MoE(混合专家)架构为基础的语言模型,总参数480亿,激活参数约100亿(典型MoE配置)。
核心结论:
1. **1.25倍计算等效优势**:在相同训练compute(token数量)下,Block AttnRes达到的性能,相当于标准PreNorm基准使用**约1.25倍更多计算**训练得到的结果。
2. **更低的Scaling Loss**:AttnRes的scaling loss曲线(loss随compute增加的下降速度)优于PreNorm基准,说明随着模型规模增大,AttnRes的相对优势会进一步放大。
3. **多任务全面提升**:在推理、编码、通用评测(MMLU等)等多个基准上,AttnRes均显示出一致的提升。
4. **PreNorm稀释问题缓解**:实验数据显示,各层输出的magnitude(量级)分布比PreNorm更均匀,梯度在不同层间的分布也更均匀。
与其他残差改进的对比
ResiDual(2023):同时使用PostNorm和PreNorm的混合方案,缓解了PostNorm不稳定和PreNorm稀释的问题,但本质上仍是固定加法残差。
Gated Residuals(不同变体):用可学习的门控系数控制残差强度,是AttnRes的"轻量版前驱",但门控是标量(scalar)而非向量/注意力权重,灵活性不足。
AttnRes的独特性:AttnRes是目前已知方案中唯一完全用注意力机制替代加法残差,并实现全层可见性(通过Block AttnRes)的方案。
潜在影响:如果1.25倍被广泛验证
1.25倍的计算等效优势,如果在更多架构和规模上被独立验证,意味着:
训练成本视角:
- 训练一个GPT-5级别的模型(假设10亿美元成本),使用AttnRes可以节省约2亿美元
- 或者:相同预算下,可以训练出相当于1.25倍算力支撑的更强模型
推理成本视角:
- 同等规模的AttnRes模型在某些任务上的性能等于更大规模的标准模型
- 这意味着可以用更小的模型达到相同的任务性能,显著降低推理成本
架构设计视角:
- 如果AttnRes成为标配,Transformer的基础设计将发生重要演变
- 可能影响下一代主流大模型的架构选择
开放问题与质疑
1. **独立复现尚未完成**:目前结果仅在Kimi自己的MoE框架内验证
2. **规模泛化性**:在1B、7B、70B等不同参数量级下,1.25倍优势是否一致?
3. **长上下文任务**:AttnRes在长文档理解等需要极长序列的任务上是否同样有效?
4. **Block大小敏感性**:k(每块层数)的选择对结果有多大影响?
结语
Attention Residuals不是一个"又一个效果微弱的trick",而是对Transformer核心假设的根本性重新审视。固定加法残差的1:1权重假设,在2017年是合理的工程选择,但随着对深度神经网络理解的深化,这一假设的局限性越来越清晰。如果AttnRes能够通过独立验证并在多种架构上被证明有效,它将成为下一代大模型训练的重要基础技术。月之暗面的这篇论文,是2026年迄今为止最值得关注的AI基础研究之一。