Sur le transport de coordonnées symbole-permutation et la fixation de norme dans les Transformers RMSNorm

Cet article traite du problème d'ambiguïté de norme qui se pose lors du transport d'objets indexés par coordonnées (vecteurs de direction, auto-encodeurs creux, etc.) entre des points de contrôle dans les workflows de grands modèles de langage modernes. Il analyse en profondeur les propriétés de symétrie selon les différentes architectures de normalisation. L'étude montre que le groupe de norme du flux résiduel de LayerNorm est le groupe de permutations, tandis que RMSNorm, grâce à ses paramètres de gain par canal, voit son groupe de norme étendu au groupe des permutations signées incluant les inversions de signe. Les méthodes d'alignement traditionnelles, basées uniquement sur les permutations, souffrent d'une incomplétude symétrique pour les modèles RMSNorm. Pour remédier à cela, les auteurs proposent un algorithme de correspondance hongroise marginalisée sur les signes, démontrant que la correspondance brute de corrélation de signes impose une limite structurelle de précision sous des coordonnées décorrélées, limite que la marginalisation des signes élimine. Les expériences montrent qu'en 1500 étapes de fine-tuning, la récupération de coordonnées inter-exécution par norme symbole-permutation atteint 91,1 %, bien au-dessus des 60,3 % du couplage bout-à-bout. Ce transfert de norme améliore significativement la précision de reconstruction des auto-encodeurs creux TinyLlama (NMSE réduit de 1,08 à 0,004) et le taux de conservation du steer émotionnel (95,8 % contre 17,2 %), et révèle le rôle critique du transfert d'état AdamW dans la cohérence de trajectoire lors de l'entraînement d'état, offrant une base normative rigoureuse pour la recherche en interprétabilité.

Contexte

Dans l'ingénierie complexe des grands modèles de langage modernes, la manipulation d'objets indexés par coordonnées entre différents points de contrôle (checkpoints) constitue une étape critique mais souvent négligée. Ces objets incluent les vecteurs de direction utilisés pour l'édition de modèles, les bases des auto-encodeurs creux (SAE) employés dans l'analyse de l'interprétabilité, ainsi que les ensembles de neurones top-k sélectionnés par métriques d'importance. Cependant, ces opérations transversales ne sont mathématiquement bien définies qu'une fois la jauge du flux résiduel du modèle fixée. Cette étude révèle que cette dépendance à la jauge n'est pas neutre par rapport à l'architecture ; elle est intrinsèquement liée à la conception des couches de normalisation. Les modèles utilisant la normalisation par couche (LayerNorm) possèdent un groupe de jauge résiduel qui se limite au groupe de permutations, permettant simplement des inversions de signe globales. En revanche, les architectures reposant sur la normalisation RMSNorm, grâce à ses paramètres de gain par canal, voient leur groupe de jauge s'étendre au groupe des permutations signées. Cette distinction fondamentale implique que les méthodes d'alignement traditionnelles, basées uniquement sur les permutations, souffrent d'une incomplétude symétrique lorsqu'elles sont appliquées aux modèles RMSNorm, introduisant ainsi des biais systématiques dans les opérations ultérieures dépendant des coordonnées.

Analyse approfondie

Pour résoudre cette problématique d'alignement de jauge, les auteurs proposent une méthode novatrice nommée "transport de coordonnées symbole-permutation". L'approche se concentre sur la préservation des coordonnées plutôt que sur la fusion au niveau des fonctions. Sur le plan technique, l'introduction d'un algorithme de correspondance hongroise marginalisé sur les signes permet de gérer l'incertitude de signe inhérente à la RMSNorm. Les analyses théoriques démontrent que l'utilisation directe de la corrélation de signes brute conduit à un plafond de précision structurel sous des coordonnées décorrélées, limitant la précision à la proportion de signes positifs dans la vraie jauge. La marginalisation des signes élimine cette contrainte, permettant une récupération plus précise de la transformation de jauge réelle. De plus, la méthode préconise la récupération des coordonnées inter-exécutions en composant les jauges locales des checkpoints sauvegardés le long d'une trajectoire de fine-tuning de référence. Cette stratégie évite la comparaison brute des valeurs fonctionnelles entre checkpoints et se concentre sur la cohérence géométrique de l'espace de coordonnées sous-jacent, garantissant ainsi mathématiquement la précision et la réversibilité du transport.

Impact sur l'industrie

Les validations expérimentales menées sur plusieurs tâches de référence et architectures de modèles confirment l'efficacité de cette approche. Dans une trajectoire de fine-tuning de 1500 étapes, la précision des coordonnées inter-exécutions récupérées via la jauge symbole-permutation a atteint 91,1 %, surpassant nettement les 60,3 % obtenus par la correspondance d'extrémité basée uniquement sur les permutations. Cette amélioration significative ne résulte pas d'un simple routage, mais d'une capture précise de la structure de jauge. Dans le domaine de l'interprétabilité, les résultats sont tout aussi marquants : sur le modèle TinyLlama, l'erreur quadratique moyenne normalisée (NMSE) pour la reconstruction des auto-encodeurs creux est tombée de 1,08 à 0,004 avec la nouvelle méthode. De même, dans les tâches de direction émotionnelle sur Qwen, l'efficacité de la direction a été conservée à 95,8 % contre seulement 17,2 % avec l'approche traditionnelle, qui provoquait même des inversions de signe annihilant la fonction initiale. Ces résultats prouvent que la précision de l'alignement de jauge est le facteur déterminant, bien plus que la capacité du modèle lui-même.

Perspectives

Cette recherche a des implications profondes pour la communauté open source, le déploiement industriel et la recherche future. Elle démontre que les affirmations d'interprétabilité basées sur les coordonnées, telles que l'importance de neurones spécifiques, ne sont reproductibles que par rapport à une jauge explicite, imposant aux chercheurs de documenter rigoureusement leurs choix de jauge. Pour l'industrie, la fiabilité des outils de fusion de modèles, de récupération d'état de fine-tuning et d'édition de modèles dépend directement de cette compréhension structurelle. Le transport symbole-permutation rend le transfert de composants entre versions plus fiable, réduisant les coûts d'alignement. Enfin, l'étude met en lumière le rôle crucial de la structure de covariance dans l'entraînement d'état : le transport des signes des états AdamW permet de maintenir la trajectoire d'entraînement récupérée, tandis que le transport par permutation seule entraîne une déviation, même si les checkpoints semblent fonctionnellement identiques. Cela offre une nouvelle perspective sur le comportement dynamique des états d'optimiseur, faisant évoluer le domaine vers une théorie mathématique rigoureuse.

Sources

arXiv