Attention Residuals Paper: Kimi Rewrites the 10-Year-Old Residual Connection
L'article AttnRes de Moonshot AI remet en question le paradigme des connexions résiduelles fixes dans les Transformers. L'innovation remplace l'accumulation fixe par l'attention softmax — chaque couche apprend une pseudo-requête pour calculer les poids d'attention. La variante Block AttnRes réduit les surcoûts mémoire. Validé sur Kimi Linear (48B MoE, 1,4T tokens), surpassant les baselines sur MMLU, GPQA-Diamond, BBH, Math et HumanEval avec un surcoût minimal.
Article Attention Residuals : Kimi réécrit la connexion résiduelle vieille de 10 ans
L'article Attention Residuals (AttnRes) de Moonshot AI, publié le 16 mars 2026, remet en question la conception fondamentale des connexions résiduelles additives fixes dans les Transformers—une conception essentiellement inchangée depuis 2017.
Le Problème : Qu'est-ce qui ne va pas avec les résidus fixes ?
Résidus standard : `h_l = F_l(h_{l-1}) + h_{l-1}` (pondération fixe 1:1)
Trois problèmes systémiques :
1. **Dilution PreNorm** : La normalisation de couche compresse la variance ; les résidus fixes diluent les représentations apprises
2. **Accès limité à l'information** : Chaque couche ne peut voir que la sortie de la couche précédente
3. **Propagation de gradient inégale** : Les gradients circulent de manière inégale selon la profondeur
La solution AttnRes
Remplacer l'addition fixe par une attention apprise en profondeur : `h_l = Σ_{j<l} α_{l,j} · h_j`
Block AttnRes partitionne les couches en blocs de k couches, réduisant l'overhead de O(L²) à O(L·k).
Résultats (Kimi Linear, 48Md MoE) : Block AttnRes correspond aux performances d'une baseline entraînée avec ~1,25x plus de calcul. Perte de mise à l'échelle inférieure = avantage qui grandit avec la taille du modèle.
Questions ouvertes : reproduction indépendante nécessaire ; généralisation à d'autres échelles ; sensibilité au paramètre k.
Analyse approfondie et perspectives industrielles
Dans une perspective plus large, cette evolution illustre la tendance acceleree de la transition de la technologie IA des laboratoires vers les applications industrielles. Les analystes du secteur s accordent a dire que 2026 sera une annee charniere pour la commercialisation de l IA. Sur le plan technique, l efficacite d inference des grands modeles continue de s ameliorer tandis que les couts de deploiement diminuent, permettant a davantage de PME d acceder aux capacites avancees de l IA.
Cependant, la proliferation rapide de l IA apporte egalement de nouveaux defis: complexite croissante de la protection des donnees personnelles, demandes accrues de transparence des decisions de l IA et difficultes de coordination de la gouvernance transfrontaliere de l IA. Les autorites reglementaires de plusieurs pays surveillent de pres ces evolutions, tentant d equilibrer promotion de l innovation et prevention des risques.