Kimi Launches Attention Residuals with 1.25x Compute Advantage

L'équipe Kimi de Moonshot AI publie l'article Attention Residuals (AttnRes), proposant de remplacer les connexions résiduelles fixes du Transformer par l'attention softmax. Chaque couche apprend une pseudo-requête pour calculer les poids d'attention sur les sorties des couches précédentes. Validé sur Kimi Linear 48B MoE (1,4T tokens), AttnRes atteint une performance équivalente à 1,25× le calcul de base avec moins de 4% de surcoût d'entraînement et moins de 2% de latence d'inférence supplémentaire.

Kimi lance Attention Residuals : avantage de calcul de 1,25x en repensant les connexions résiduelles

Le 16 mars 2026, l'équipe Kimi de Moonshot AI a publié un papier présentant **Attention Residuals (AttnRes)**—une architecture qui remplace les connexions résiduelles addatives fixes dans les Transformers par un mécanisme de mixage basé sur l'attention entre couches, démontrant un **avantage de calcul d'environ 1,25x** sur les baselines PreNorm standard.

Le problème : les connexions résiduelles fixes ont des limitations connues

Les résidus Transformer standard créent : dilution PreNorm, flux d'information rigide, propagation de gradient inégale.

L'innovation centrale

AttnRes permet à chaque couche de **pondérer sélectivement les contributions de toutes les couches précédentes** via un mécanisme d'attention en profondeur. **Block AttnRes** rend cela pratique en partitionnant les couches en blocs.

Résultats sur Kimi Linear (48Md paramètres MoE)

Intégré dans Kimi Linear (48Md paramètres MoE) : améliorations dans le raisonnement, le codage et les benchmarks généraux ; Block AttnRes correspond aux performances d'un baseline entraîné avec ~1,25x plus de calcul ; perte de mise à l'échelle inférieure au baseline PreNorm.

Le papier et le code sont disponibles sur GitHub pour vérification communautaire.

Analyse approfondie et perspectives industrielles

Dans une perspective plus large, cette evolution illustre la tendance acceleree de la transition de la technologie IA des laboratoires vers les applications industrielles. Les analystes du secteur s accordent a dire que 2026 sera une annee charniere pour la commercialisation de l IA. Sur le plan technique, l efficacite d inference des grands modeles continue de s ameliorer tandis que les couts de deploiement diminuent, permettant a davantage de PME d acceder aux capacites avancees de l IA.

Cependant, la proliferation rapide de l IA apporte egalement de nouveaux defis: complexite croissante de la protection des donnees personnelles, demandes accrues de transparence des decisions de l IA et difficultes de coordination de la gouvernance transfrontaliere de l IA. Les autorites reglementaires de plusieurs pays surveillent de pres ces evolutions, tentant d equilibrer promotion de l innovation et prevention des risques.