Quelle est la différence exacte entre Attention Residuals et les résidus Transformer standard ?

Les résidus standard utilisent une pondération additive fixe 1:1 où chaque couche ne voit que la couche précédente. Attention Residuals remplace cela par une attention en profondeur apprise—chaque couche sélectionne dynamiquement des informations de TOUTES les couches précédentes. Block AttnRes partitionne les couches en blocs (ex: 8 couches chacun) pour réduire l'overhead de O(L²) à O(L·k).

Que signifie concrètement un 'avantage de calcul de 1,25x' ?

Cela signifie qu'un modèle AttnRes entraîné avec 100Md tokens obtient les mêmes performances qu'un Transformer standard entraîné avec 125Md tokens (~20% moins de calcul). À l'échelle frontier (>1Md$ de budget), cela représente des centaines de millions d'économies potentielles.

Le résultat Attention Residuals a-t-il été vérifié indépendamment ?

Pas encore en mars 2026. Les résultats sont basés sur les tests internes de Kimi sur leur architecture MoE de 48Md paramètres. Le papier et le code sont sur GitHub. La vérification indépendante sur d'autres architectures est l'étape critique suivante.

Attention Residuals Paper: Kimi Rewrites the 10-Year-Old Residual Connection

L'article AttnRes de Moonshot AI remet en question le paradigme des connexions résiduelles fixes dans les Transformers. L'innovation remplace l'accumulation fixe par l'attention softmax — chaque couche apprend une pseudo-requête pour calculer les poids d'attention. La variante Block AttnRes réduit les surcoûts mémoire. Validé sur Kimi Linear (48B MoE, 1,4T tokens), surpassant les baselines sur MMLU, GPQA-Diamond, BBH, Math et HumanEval avec un surcoût minimal.

Article Attention

Residuals : Kimi réécrit la connexion résiduelle vieille de 10 ans L'article Attention Residuals (AttnRes) de Moonshot AI, publié le 16 mars 2026, remet en question la conception fondamentale des connexions résiduelles additives fixes dans les Transformers—une conception essentiellement inchangée depuis 2017. #

Le

Problème : Qu'est-ce qui ne va pas avec les résidus fixes ? Résidus standard : `h_l = F_l(h_{l-1}) + h_{l-1}` (pondération fixe 1:1) **Trois problèmes systémiques :** 1. **Dilution PreNorm** : La normalisation de couche compresse la variance ; les résidus fixes diluent les représentations apprises 2. **Accès limité à l'information** : Chaque couche ne peut voir que la sortie de la couche précédente 3. **Propagation de gradient inégale** : Les gradients circulent de manière inégale selon la profondeur #

La

solution AttnRes Remplacer l'addition fixe par une attention apprise en profondeur : `h_l = Σ_{j<l} α_{l,j} · h_j` **Block AttnRes** partitionne les couches en blocs de k couches, réduisant l'overhead de O(L²) à O(L·k). **Résultats** (Kimi Linear, 48Md MoE) : Block AttnRes correspond aux performances d'une baseline entraînée avec ~1,25x plus de calcul. Perte de mise à l'échelle inférieure = avantage qui grandit avec la taille du modèle. Questions ouvertes : reproduction indépendante nécessaire ; généralisation à d'autres échelles ; sensibilité au paramètre k. #

Analyse

approfondie et perspectives industrielles Dans une perspective plus large, cette evolution illustre la tendance acceleree de la transition de la technologie IA des laboratoires vers les applications industrielles. Les analystes du secteur s accordent a dire que 2026 sera une annee charniere pour la commercialisation de l IA. Sur le plan technique, l efficacite d inference des grands modeles continue de s ameliorer tandis que les couts de deploiement diminuent, permettant a davantage de PME d acceder aux capacites avancees de l IA. Cependant, la proliferation rapide de l IA apporte egalement de nouveaux defis: complexite croissante de la protection des donnees personnelles, demandes accrues de transparence des decisions de l IA et difficultes de coordination de la gouvernance transfrontaliere de l IA. Les autorites reglementaires de plusieurs pays surveillent de pres ces evolutions, tentant d equilibrer promotion de l innovation et prevention des risques.