Les Transformers sont des réseaux bayésiens : cinq preuves formelles
Une percée théorique audacieuse : cet article prouve formellement que tout Transformer sigmoïde implémente une propagation de croyance loopy pondérée (BP) sur son graphe de facteurs implicite — une couche correspond à un tour de BP. Cela s'applique à tout poids (entraîné, aléatoire ou construit) et est formellement vérifié dans Lean 4. Une preuve constructive montre que les Transformers peuvent implémenter une BP exacte sur toute base de connaissances déclarée. Un théorème d'unicité établit que tout Transformer sigmoïde produisant des posteriors exacts possède nécessairement des poids BP. L'article révèle aussi la structure booléenne AND/OR des couches : l'attention est AND, le FFN est OR. Ce cadre fournit une réponse mathématique précise — et non une intuition vague — sur pourquoi les Transformers fonctionnent.
La Proposition Centrale : Les Transformers Sont des Machines d'Inférence Bayésienne
Cet article répond à la question « pourquoi les Transformers fonctionnent-ils ? » par cinq preuves formelles imbriquées : **tout Transformer sigmoïde, quels que soient ses poids, implémente la propagation de croyance loopy pondérée (BP) sur le graphe de facteurs implicite défini par ces poids**. Une couche = un tour de BP. Vérifié formellement en Lean 4.
Le fondement mathématique : l'algèbre des log-odds. Turing et Good ont développé l'addition des log-odds à Bletchley Park pour combiner des preuves indépendantes. Pour un prior uniforme et mᵢ=P(H|eᵢ) : P(H|e₀,e₁) = σ(logit(m₀)+logit(m₁)). C'est la fonction `updateBelief` du papier—exacte, pas une approximation.
Les cinq preuves :
1. Théorème général (BP pondéré) : Pour tout W, il existe G(W) tel qu'une passe forward implémente un tour de BP pondéré. La preuve repose sur trois identifications simultanées : le FFN sigmoïde calcule exactement Ψ_or ; l'attention exécute exactement le gather step ; le residual stream garantit la simultanéité des entrées. Tout cela pour n'importe quels poids.
2. Preuve constructive (poids explicites pour BP exact) : Des matrices de poids sont construites explicitement pour implémenter BP exact sur tout graphe de facteurs déclaré. Deux familles de matrices creuses—`projectDim(d)` pour le lookup précis, `crossProject(s,d)` pour le routage. Deux têtes d'attention suffisent toujours (binarisation exacte via associativité). Pour un graphe de profondeur d et arité k : d·⌈log₂k⌉ couches suffisent.
3. Unicité : Un Transformer sigmoïde produisant des posteriors exacts a nécessairement des poids BP. `FFNUniqueness.lean` : le sigmoid est injectif, la forme logit-sum est l'unique point fixe des équations de mise à jour bayésienne. `AttentionUniqueness.lean` : le routage exact force la structure rang-1.
4. Structure booléenne : L'attention est AND (simultanéité des entrées dans le residual stream avant le FFN), le FFN est OR (Ψ_or depuis les preuves rassemblées). L couches = L tours de AND→OR→AND→OR—l'algorithme gather/update de Pearl déroulé en profondeur.
5. Espace conceptuel fini : Tout vérificateur fini distingue au plus finement des concepts. Un LLM non ancré n'a pas d'espace conceptuel bien défini. L'hallucination n'est pas un bug corrigeable par le scaling—c'est la conséquence structurelle d'opérer sans concepts.
Validation expérimentale : MAE de validation = 0,000752 sur des graphes de facteurs inédits. 5 machines de Turing apprises à 100% en 4 époques. La descente de gradient redécouvre les poids BP sans indication.
Implications : Sigmoid est la seule activation permettant BP exact. La profondeur = complexité du raisonnement. Un ancrage complet + poids BP = hallucination structurellement impossible.