Kimi发布Attention Residuals,用1.25倍算力优势重新定义Transformer

Moonshot AI的Kimi团队发布Attention Residuals(AttnRes)架构论文,提出用softmax注意力机制替代Transformer中沿用十年的固定残差连接。每一层学习特定的伪查询来计算前序层输出的注意力权重,实现选择性信息检索。在Kimi Linear 48B MoE模型上验证,AttnRes在额外训练成本不到4%、推理延迟增加不到2%的情况下,达到了基线1.25倍算力的等效性能。论文和代码已在GitHub开源,引发深度学习社区广泛讨论。

Kimi发布Attention Residuals:用1.25倍算力优势重新定义Transformer残差连接

2026年3月16日,月之暗面(Moonshot AI)旗下的Kimi团队发布了一篇技术论文,提出了名为**Attention Residuals(AttnRes,注意力残差)**的新型架构创新。这项研究直接挑战了Transformer模型中沿用近十年的固定残差连接机制,以约**1.25倍计算量优势**在多项基准测试上超越标准PreNorm基准。

什么是残差连接?为什么需要改变?

要理解Attention Residuals的意义,需要先了解传统残差连接的局限。

在标准Transformer中,每层的计算遵循以下范式:

output = layer(input) + input  // 残差连接

这种固定的加法操作有几个已知问题:

1. **PreNorm稀释(PreNorm Dilution)**:随着深度增加,残差连接会导致各层输出的量级分布不均匀

2. **信息流僵化**:每层只能"看到"前一层的输出,无法直接访问更早层的信息

3. **梯度传播不均**:反向传播时,梯度在不同深度的层之间分布不均匀

Attention Residuals的核心创新

AttnRes的核心思想是:**用注意力机制替代固定的加法残差**。具体而言:

传统残差:

  • 每层的输入 = 当前层输出 + 上一层输出(固定权重,通常1:1)

Attention Residuals:

  • 每层的输入 = **自适应加权组合**(token嵌入 + 所有前序层输出的注意力加权)
  • 每层可以"选择"从哪些前序层获取多少信息
  • 权重通过类似Token序列注意力的深度维度注意力机制学习

类比:如果传统残差是"每层只听上一层的意见",AttnRes则是"每层可以综合考虑所有前辈层的意见,并自适应地给每个前辈层分配权重"。

Block AttnRes:工程化落地

原始AttnRes的计算和通信开销随模型深度平方增长,难以实用化。Kimi团队为此引入了**Block AttnRes**:

  • 将模型层数分为若干块(block)
  • 在块内应用AttnRes
  • 块间使用传统残差连接

这种分块策略将内存和通信开销从O(depth²)降低到可接受范围,同时保留了大部分性能收益。

在Kimi Linear上的实测结果

AttnRes被集成到了Kimi的**Kimi Linear**架构中——一个拥有**480亿总参数**的Mixture-of-Experts(MoE)模型:

性能指标:

  • 推理、编码、通用评测任务全面提升
  • **关键数字**:Block AttnRes在相同训练compute下,达到了相当于标准基准使用**约1.25倍计算量**训练结果的性能
  • 缩放损失(scaling loss)低于PreNorm基准——这意味着随着模型规模增大,AttnRes的优势会进一步放大

1.25倍意味着什么?

  • 如果训练一个基准模型需要100亿token
  • 使用AttnRes的模型只需要80亿token就能达到同等效果(1/1.25 ≈ 80%)
  • 或者:相同训练预算下,AttnRes模型的性能相当于多训练了25%

学术价值与工程价值

学术价值:

Attention Residuals从架构创新角度解决了Transformer的一个已知但长期被接受的缺陷。这与近年来的其他残差改进(如ResiDual、Pre-Post Norm混合等)处于同一研究方向,但AttnRes走得更远——它用注意力机制彻底替代了加法残差的假设。

工程价值:

在模型训练成本持续高涨的背景下,1.25倍的计算效率提升具有直接的商业价值:

  • 训练一个等效的模型可以节省约20%的算力成本
  • 随着模型规模的增大(从十亿到千亿参数),这个优势会转化为数百万到数十亿美元的节省

对AI架构研究的影响

AttnRes的发布引发了AI研究社区的讨论:

支持者的观点:

  • 证明了Transformer基础架构仍有改进空间
  • 1.25倍的计算优势是实质性的,不是噱头

质疑者的观点:

  • 目前结果仅在Kimi自己的MoE架构上验证,需要更广泛的独立复现
  • 与其他架构改进(如Linear Attention、State Space Models等)相比,优势范围尚待确认
  • 1.25倍优势在不同规模(1B vs 480B)下是否一致需要进一步验证

开放性与可重现性

Kimi团队已在GitHub上发布了Attention Residuals的论文和相关代码,允许社区验证和复现。这种开放态度与中国AI公司近年来的研究发表策略一致——通过开放技术细节获取全球研究社区的认可和验证。

结语

Kimi的Attention Residuals是2026年迄今为止最有实质意义的Transformer架构创新之一。它不是另一个"在GPT上加了一个模块",而是对残差连接这一Transformer核心假设的根本性重新思考。1.25倍的计算优势,如果在更多架构和规模上得到独立验证,将会成为下一代大模型训练的标配技术。这篇论文,值得所有AI从业者认真阅读。