Qu'est-ce qu'Attention Residuals et en quoi est-il différent des Transformers normaux ?

Les Transformers traditionnels utilisent des résidus additifs fixes (sortie de chaque couche + couche précédente, pondération 1:1 fixe). Attention Residuals remplace cela par un mécanisme d'attention en profondeur permettant à chaque couche de pondérer sélectivement les contributions de TOUTES les couches précédentes. Block AttnRes rend cela pratique. Résultat : ~1,25x d'efficacité de calcul par rapport aux baselines PreNorm standard.

À quel point l'avantage de 1,25x est-il significatif ?

Très significatif à grande échelle. En termes absolus : entraîner un modèle à 100M$ avec AttnRes donne les mêmes performances qu'un modèle conventionnel à 125M$—une économie de 25M$. À l'échelle frontière (budgets >1Md$), cela se traduit par plus de 200M$ d'économies par run.

Attention Residuals a-t-il été vérifié indépendamment ?

Pas encore en mars 2026. Les résultats sont basés sur les propres tests de Kimi sur leur architecture MoE. Le papier et le code ont été publiés sur GitHub pour reproduction communautaire. Une vérification indépendante sur différentes architectures et à différentes échelles est nécessaire.

Kimi Launches Attention Residuals with 1.25x Compute Advantage

L'équipe Kimi de Moonshot AI publie l'article Attention Residuals (AttnRes), proposant de remplacer les connexions résiduelles fixes du Transformer par l'attention softmax. Chaque couche apprend une pseudo-requête pour calculer les poids d'attention sur les sorties des couches précédentes. Validé sur Kimi Linear 48B MoE (1,4T tokens), AttnRes atteint une performance équivalente à 1,25× le calcul de base avec moins de 4% de surcoût d'entraînement et moins de 2% de latence d'inférence supplémentaire.

Kimi

lance Attention Residuals : avantage de calcul de 1,25x en repensant les connexions résiduelles Le 16 mars 2026, l'équipe Kimi de Moonshot AI a publié un papier présentant **Attention Residuals (AttnRes)**—une architecture qui remplace les connexions résiduelles addatives fixes dans les Transformers par un mécanisme de mixage basé sur l'attention entre couches, démontrant un **avantage de calcul d'environ 1,25x** sur les baselines PreNorm standard. #

Le

problème : les connexions résiduelles fixes ont des limitations connues Les résidus Transformer standard créent : dilution PreNorm, flux d'information rigide, propagation de gradient inégale. #

L'innovation centrale AttnRes permet

à chaque couche de **pondérer sélectivement les contributions de toutes les couches précédentes** via un mécanisme d'attention en profondeur. **Block AttnRes** rend cela pratique en partitionnant les couches en blocs. #

Résultats sur Kimi

Linear (48Md paramètres MoE) Intégré dans Kimi Linear (48Md paramètres MoE) : améliorations dans le raisonnement, le codage et les benchmarks généraux ; Block AttnRes correspond aux performances d'un baseline entraîné avec ~1,25x plus de calcul ; perte de mise à l'échelle inférieure au baseline PreNorm. Le papier et le code sont disponibles sur GitHub pour vérification communautaire. #

Analyse

approfondie et perspectives industrielles Dans une perspective plus large, cette evolution illustre la tendance acceleree de la transition de la technologie IA des laboratoires vers les applications industrielles. Les analystes du secteur s accordent a dire que 2026 sera une annee charniere pour la commercialisation de l IA. Sur le plan technique, l efficacite d inference des grands modeles continue de s ameliorer tandis que les couts de deploiement diminuent, permettant a davantage de PME d acceder aux capacites avancees de l IA. Cependant, la proliferation rapide de l IA apporte egalement de nouveaux defis: complexite croissante de la protection des donnees personnelles, demandes accrues de transparence des decisions de l IA et difficultes de coordination de la gouvernance transfrontaliere de l IA. Les autorites reglementaires de plusieurs pays surveillent de pres ces evolutions, tentant d equilibrer promotion de l innovation et prevention des risques.