Attention Residuals和普通Transformer残差连接有什么区别？

核心区别：传统残差连接使用固定的1:1加法权重（每层只能看上一层），而Attention Residuals用可学习的注意力权重替代——每层可以动态地从所有前序层选择性地获取信息，权重通过端对端训练学习。实际上类似于将Token序列注意力应用于'层深度'维度。Block AttnRes通过将层分块解决了原始方案的O(L²)计算复杂度问题。

1.25倍计算优势在实际中意味着什么？

意味着使用AttnRes训练的模型，在相同训练预算下，性能等同于标准Transformer多训练了25%。具体数字：如果训练一个模型需要100亿token，使用AttnRes版本只需约80亿token（1/1.25≈0.8）就能达到同等性能。对于大规模训练（如千亿美元量级），这相当于节省了数十亿美元的算力成本。

Kimi发布的代码可以用来复现Attention Residuals吗？

是的，Kimi团队已在GitHub上公开了Attention Residuals的论文和相关代码。但目前独立复现工作尚未大规模完成，结果仍基于Kimi自己的MoE架构（480亿参数Kimi Linear）的内部测试。研究社区正在验证这些结果是否在其他架构（如标准Llama架构、GPT架构）上也能重现。

Attention Residuals论文解读：10年没变的残差连接终于被Kimi重写了

Moonshot AI发布Attention Residuals（AttnRes）论文，挑战Transformer架构中沿用十年的固定残差连接范式。核心创新是用softmax注意力替代固定累加——每层学习一个伪查询，对所有前序层输出计算注意力权重，实现选择性信息检索而非均匀组合。Block AttnRes变体将层分组为块级表示，降低内存和通信开销以适应大规模模型。在Kimi Linear（48B总参数MoE架构，1.4T token训练）上验证，AttnRes在MMLU、GPQA-Diamond、BBH、Math、HumanEval等基准上一致超越基线，额外成本极低（训练<4%，推理<2%）。

Attention

Residuals论文解读：Transformer沿用10年的残差连接被Kimi重写了 2026年3月16日，Moonshot AI（月之暗面）发表了**Attention Residuals（AttnRes）**论文，从架构层面挑战了Transformer模型中几乎从未被质疑过的基础设计——**固定加法残差连接（Fixed Additive Residual Connections）**。这一设计自2017年Transformer论文发布以来沿用至今，近十年来被视为稳定训练的基石。 #

问题诊断：为什么传统残差连接是个"历史遗留"？

传统残差连接的公式极为简单： ``` h_l = F_l(h_{l-1}) + h_{l-1} ``` 每层的输出是该层的变换结果加上上一层的输出（权重固定为1:1）。这种设计在2017年被证明能有效解决深层网络的梯度消失问题，成为Transformer的标配。然而，随着模型规模的不断增大，研究者们发现了几个系统性问题： **1. PreNorm Dilution（预层归一化稀释）** 现代Transformer通常使用PreNorm（在注意力计算前进行层归一化）而非原始的PostNorm。这带来了一个隐性问题：随着层数增加，层归一化会压缩各层输出的方差，而固定残差连接会"稀释"各层学习到的特征表示，导致较深的层对模型最终输出的贡献越来越小。 **2. 信息访问的局限性** 固定残差连接的每一层只能"看到"前一层的输出。对于需要长距离依赖的任务，一个层无法直接利用5层前、10层前的信息——这些信息已经被连续的层变换"混合"和"稀释"。 **3. 梯度传播的不均匀性** 在反向传播中，梯度通过固定残差路径流动，导致不同深度的层接收的梯度量级差异显著，使得深层网络的训练稳定性和收敛速度受到影响。 #

AttnRes的核心设计 Attention

Residuals的关键洞察是：**残差连接可以用注意力机制来实现，而不是简单的加法**。 **数学形式：** 设模型有L层，第l层的隐藏状态计算为： ``` h_l = Σ_{j<l} α_{l,j} · h_j ``` 其中 α_{l,j} 是通过深度维度注意力机制学习的权重，表示第l层对第j层输出的"关注程度"。 **关键特性：** - **自适应性**：每层可以根据自身的计算需求，动态决定从哪些前序层汲取多少信息 - **全局可见性**：每层可以直接访问所有前序层的信息（而不只是上一层） - **权重可学习**：α_{l,j}不是固定的，而是通过端对端训练学习的 **类比理解：** 如果把每层想象成一个决策者： - **传统残差**：每个决策者只能听前一任决策者的意见（权重固定） - **AttnRes**：每个决策者可以综合所有前辈决策者的意见，并根据情境自动给每个前辈分配权重 #

Block

AttnRes：从理论到工程原始AttnRes的计算复杂度有一个工程问题：如果每层都对所有前序层计算注意力，计算和通信开销随层数增加呈O(L²)增长，在有64层的模型上会有64²=4096倍的开销增加——这显然不可接受。 Kimi团队的解决方案是**Block Attention Residuals**： 1. 将模型的L层分成若干块（Block），每块包含k层 2. 在块内：使用AttnRes（每层对块内所有前序层计算注意力） 3. 块间：使用传统固定残差连接这样，计算复杂度从O(L²)降低到O(L·k)，在k远小于L的情况下（如k=8，L=48），开销大幅减少，同时保留了主要的性能收益。 #

实验结果分析

测试平台：Kimi Linear（480亿总参数MoE） Kimi Linear是Moonshot AI的一个以MoE（混合专家）架构为基础的语言模型，总参数480亿，激活参数约100亿（典型MoE配置）。核心结论： 1. 1.25倍计算等效优势：在相同训练compute（token数量）下，Block AttnRes达到的性能，相当于标准PreNorm基准使用约1.25倍更多计算训练得到的结果。 2. 更低的Scaling Loss：AttnRes的scaling loss曲线（loss随compute增加的下降速度）优于PreNorm基准，说明随着模型规模增大，AttnRes的相对优势会进一步放大。 3. 多任务全面提升：在推理、编码、通用评测（MMLU等）等多个基准上，AttnRes均显示出一致的提升。 4. PreNorm稀释问题缓解：实验数据显示，各层输出的magnitude（量级）分布比PreNorm更均匀，梯度在不同层间的分布也更均匀。 #

与其他残差改进的对比

ResiDual（2023）：同时使用PostNorm和PreNorm的混合方案，缓解了PostNorm不稳定和PreNorm稀释的问题，但本质上仍是固定加法残差。 Gated Residuals（不同变体）：用可学习的门控系数控制残差强度，是AttnRes的"轻量版前驱"，但门控是标量（scalar）而非向量/注意力权重，灵活性不足。 AttnRes的独特性：AttnRes是目前已知方案中唯一完全用注意力机制替代加法残差，并实现全层可见性（通过Block AttnRes）的方案。 #

潜在影响：如果1.25倍被广泛验证

1.25倍的计算等效优势，如果在更多架构和规模上被独立验证，意味着： **训练成本视角：** - 训练一个GPT-5级别的模型（假设10亿美元成本），使用AttnRes可以节省约2亿美元 - 或者：相同预算下，可以训练出相当于1.25倍算力支撑的更强模型 **推理成本视角：** - 同等规模的AttnRes模型在某些任务上的性能等于更大规模的标准模型 - 这意味着可以用更小的模型达到相同的任务性能，显著降低推理成本 **架构设计视角：** - 如果AttnRes成为标配，Transformer的基础设计将发生重要演变 - 可能影响下一代主流大模型的架构选择 #

开放问题与质疑

1. **独立复现尚未完成**：目前结果仅在Kimi自己的MoE框架内验证 2. **规模泛化性**：在1B、7B、70B等不同参数量级下，1.25倍优势是否一致？ 3. **长上下文任务**：AttnRes在长文档理解等需要极长序列的任务上是否同样有效？ 4. **Block大小敏感性**：k（每块层数）的选择对结果有多大影响？ #

结语

Attention Residuals不是一个"又一个效果微弱的trick"，而是对Transformer核心假设的根本性重新审视。固定加法残差的1:1权重假设，在2017年是合理的工程选择，但随着对深度神经网络理解的深化，这一假设的局限性越来越清晰。如果AttnRes能够通过独立验证并在多种架构上被证明有效，它将成为下一代大模型训练的重要基础技术。月之暗面的这篇论文，是2026年迄今为止最值得关注的AI基础研究之一。