Transfert de coordonnées par permutation symbolique et fixation de norme dans les transformateurs RMSNorm
Cet article examine le problème de la fixation de norme qui se pose lorsqu'on transfère des objets indexés par coordonnées — tels que les vecteurs d'orientation et les autoencodeurs clairsemés — entre les points de contrôle dans les pipelines de grands modèles de langage modernes. Les auteurs montrent que les normes du flux résiduel des architectures RMSNorm possèdent une symétrie sous le groupe de permutation de signes $B_d$, et que l'alignement par permutations seules est incomplet. Ils introduisent un algorithme de couplage hongrois à marginalisation symbolique, prouvant que la corrélation symbolique brute présente un plafond de précision structurel sous des coordonnées décorrélées, qu'ils éliminent par marginalisation symbolique. Les expériences montrent que composer des normes $B_d$ locales pour un transfert préservant les coordonnées permet de récupérer 91,1 % des coordonnées inter-exécutions à 1500 étapes, surpassant nettement le couplage par extrémité à 60,3 %. Sur des tâches incluant la reconstruction SAE de TinyLlama, l'orientation émotionnelle de Qwen et l'orientation du refus, l'alignement basé sur les normes $B_d$ dépasse largement les bases uniquement permutationnelles. Le cadre démontre en outre que le transfert symbolique pendant l'entraînement des états préserve la cohérence de la trajectoire, et révèle que les revendications d'interprétabilité doivent être exprimées par rapport à des normes explicites pour être reproductibles.
Contexte
Les pipelines de traitement des grands modèles de langage (LLM) modernes sont devenus d'une complexité croissante, nécessitant la capacité de transmettre des objets indexés par coordonnées entre différents points de contrôle du modèle. Ces objets incluent des vecteurs de direction, les caractéristiques des autoencodeurs clairsemés (SAE), des ensembles de neurones Top-k et des listes d'attribution, qui sont essentiels pour la modification du modèle, l'analyse de l'interprétabilité et l'intervention. Cependant, la transmission de ces objets n'est bien définie que si les normes du flux résiduel du modèle sont fixées. Sans un cadre de normalisation cohérent, les représentations internes du modèle deviennent ambiguës, entraînant des erreurs significatives lors de la tentative d'alignement ou de transfert de caractéristiques entre différentes étapes d'entraînement ou variantes de modèles.
Un écart théorique fondamental a été identifié dans la manière dont les outils actuels gèrent les symétries de normalisation. Les recherches précédentes supposaient souvent que l'alignement pouvait être réalisé par des permutations seules, correspondant au groupe de permutation $S_d$. Cette hypothèse est valide pour les architectures utilisant LayerNorm, où le graphique de flux résiduel présente une symétrie sous $S_d$ (permettant des inversions de signe globales). Cependant, la majorité des LLM modernes utilisent RMSNorm, qui introduit un gain par canal générique. Ce choix architectural modifie fondamentalement le groupe de symétrie du flux résiduel. Pour les architectures RMSNorm, le groupe de symétrie s'étend au groupe de permutation signé $B_d = S_d \ltimes \{\pm 1\}^d$. Cela signifie que chaque canal peut indépendamment inverser son signe, un degré de liberté que l'alignement par permutations seules ignore complètement.
Ce négligence a conduit à un échec systémique de nombreuses méthodes existantes de modification et d'interprétabilité des modèles. En supposant incorrectement une structure de norme plus simple, ces outils introduisent des biais systématiques lorsqu'ils sont appliqués aux modèles basés sur RMSNorm. L'étude récente met en évidence que l'ignorance de la symétrie de permutation de signe résulte en un processus d'alignement incomplet. Par conséquent, toute tentative de transfert d'objets indexés par coordonnées sans tenir compte de la symétrie $B_d$ est théoriquement erronée, rendant les outils d'alignement ultérieurs inefficaces et produisant potentiellement des résultats trompeurs dans des applications critiques telles que la direction sentimentale ou l'intervention de refus.
Analyse approfondie
Pour remédier à l'incomplétude de l'alignement par permutations seules, les auteurs introduisent un algorithme de couplage hongrois à marginalisation symbolique. Cette méthode va au-delà du traitement des coordonnées comme un ensemble non ordonné pour un simple couplage de permutations. Au lieu de cela, elle gère explicitement la symétrie de permutation de signe inhérente à RMSNorm. L'innovation centrale réside dans la preuve que le couplage de corrélation symbolique brute, sous des coordonnées décorrélées, souffre d'un plafond de précision structurel. Ce plafond est déterminé uniquement par la proportion de signes positifs dans la norme vraie, rendant impossible l'atteinte d'une haute précision sans traiter directement la dimension du signe.
L'algorithme proposé élimine cette limitation structurelle par la marginalisation symbolique. En marginalisant sur les permutations de signe, l'algorithme supprime efficacement l'ambiguïté qui empêche un couplage précis. Cela permet une récupération plus précise de la transformation de norme vraie entre les points de contrôle. L'implémentation technique se concentre sur le transfert préservant les coordonnées plutôt que sur la fusion au niveau fonctionnel. Cette distinction est cruciale car elle assure que la cohérence sémantique des représentations internes est maintenue tout au long du processus de réglage fin du modèle, fournissant une base robuste pour les tâches en aval.
L'étude démontre en outre que la composition de normes $B_d$ locales permet la préservation de l'identité des coordonnées le long d'une trajectoire de réglage fin. En sauvegardant la norme $B_d$ locale à chaque point de contrôle le long de la même ligne de base, les chercheurs ont construit un mécanisme qui suit précisément les changements de coordonnées. Ce mécanisme corrige non seulement l'ordre de permutation des coordonnées, mais aussi l'inversion de signe de chaque canal de coordonnées individuel. Cette double correction garantit que les objets transférés restent fonctionnellement équivalents à leurs contreparties originales, un exploit qui était auparavant inatteignable avec les techniques d'alignement standard.
Impact sur l'industrie
La validation expérimentale de ce cadre révèle des écarts de performance significatifs entre l'alignement basé sur les normes $B_d$ et les lignes de base traditionnelles par permutations seules. Dans une expérience de récupération de coordonnées impliquant 1500 étapes de réglage fin sur la même ligne de base, la méthode proposée a récupéré 91,1 % des coordonnées inter-exécutions. En contraste frappant, la méthode de couplage par extrémité traditionnelle, qui ne repose que sur des permutations, n'a réussi à récupérer que 60,3 %. Ce gain substantiel n'est pas simplement le résultat d'un routage par la ligne de base, mais est directement attribuable à la gestion correcte de la symétrie de signe. Les données soulignent la nécessité pratique de la normalisation $B_d$ pour des opérations de modèle fiables.
Dans des tâches d'application spécifiques, la supériorité de l'alignement $B_d$ devient encore plus prononcée. Dans la tâche de reconstruction d'autoencodeur clairsemé (SAE) de TinyLlama, l'erreur quadratique moyenne normalisée (NMSE) sous normalisation $B_d$ n'était que de 0,004. En revanche, sous la normalisation $S_d$ par permutations seules, le taux d'erreur a bondi à 1,08. Cela indique que les méthodes par permutations seules échouent à capturer la structure essentielle des caractéristiques, conduisant à un échec quasi-total de la reconstruction. Les implications pour la recherche reposant sur les SAE pour l'interprétabilité mécanique sont sévères, car les méthodes standard peuvent analyser du bruit plutôt que des caractéristiques significatives.
L'impact sur les tâches de direction est tout aussi dramatique. Dans la direction sentimentale de Qwen, la norme $B_d$ a préservé 95,8 % de l'effet de direction. Cependant, sous la normalisation $S_d$, cette efficacité a chuté de manière précipitée à 17,2 %. Plus critique encore, dans les tâches de direction du refus, l'utilisation de la normalisation $S_d$ a provoqué l'inversion du signe de direction, annihilant complètement l'intervention et potentiellement induisant le comportement opposé. Ces résultats démontrent que l'ignorance de la symétrie de signe ne réduit pas seulement l'efficacité ; elle peut inverser activement le comportement intentionnel du modèle, posant des risques significatifs pour les applications de sécurité et de contrôle.
Perspectives
Le cadre prouve également que le transfert symbolique pendant l'entraînement de l'état préserve la cohérence de la trajectoire. L'état AdamW, lorsqu'il est transféré en utilisant la norme $B_d$, maintient avec succès la trajectoire récupérée. En revanche, les états alignés uniquement par permutations s'écartent de la trajectoire du point de contrôle fonctionnellement équivalent. Cette découverte suggère que les avantages de la normalisation $B_d$ s'étendent au-delà du transfert de caractéristiques statiques aux processus d'entraînement dynamiques, assurant que les chemins d'optimisation restent cohérents et prévisibles. Cela a des implications profondes pour l'entraînement distribué et les stratégies de fusion de modèles, où la maintenance de la cohérence de l'état est primordiale. En outre, l'étude révèle une exigence critique pour la reproductibilité dans la recherche sur l'interprétabilité. Les auteurs démontrent que les revendications d'interprétabilité doivent être formulées par rapport à des normes explicites pour être reproductibles. Sans spécifier l'hypothèse de norme, les résultats de différents laboratoires ou outils peuvent être incomparables ou même contradictoires. Cela appelle à un changement des normes de la communauté, où les chercheurs doivent déclarer explicitement le cadre de normalisation utilisé dans leurs analyses. Cela suggère également que de nombreuses découvertes d'interprétabilité passées peuvent nécessiter une réévaluation sous les contraintes de symétrie $B_d$ correctes. Pour l'industrie plus large, la compréhension et l'application du transfert de permutation de signe offrent une voie pour optimiser les stratégies de fusion de modèles et améliorer l'efficacité du réglage fin. En réduisant la dégradation des performances causée par les incohérences de normes, les entreprises peuvent construire des outils d'intervention de modèle plus robustes. Les recherches futures devraient se concentrer sur le calcul et la transmission efficaces des normes $B_d$ dans les modèles à grande échelle. De plus, explorer l'application de ce cadre à d'autres architectures pourrait consolider davantage les fondements théoriques de l'interprétabilité et de l'alignement des LLM, faisant avancer le domaine vers une pratique plus standardisée et fiable.
La transition d'un alignement par permutations seules à un alignement conscient de la permutation de signe marque une maturation significative dans le domaine de l'interprétabilité mécanique. À mesure que les LLM continuent de croître en taille et en complexité, la capacité de suivre et de manipuler avec précision les représentations internes devient de plus en plus vitale. Le cadre de norme $B_d$ fournit la rigueur mathématique nécessaire pour garantir que ces manipulations sont précises et reproductibles. Cette recherche résout non seulement un goulot d'étranglement technique spécifique, mais établit également une nouvelle norme pour la manière dont nous comprenons et interagissons avec le fonctionnement interne des modèles de langage modernes. Les implications pour la sécurité, le contrôle et la compréhension scientifique des systèmes d'IA sont profondes, incitant la communauté à adopter des normes théoriques plus rigoureuses dans leur travail quotidien.