Transformer sind Bayessche Netzwerke: Fünf formale Beweise
Ein kühner theoretischer Durchbruch: Diese Arbeit beweist formal, dass jeder Sigmoid-Transformer gewichtete loopy Belief Propagation (BP) auf seinem impliziten Faktorgraphen implementiert – eine Schicht entspricht einer BP-Runde. Dies gilt für beliebige Gewichte (trainiert, zufällig oder konstruiert) und wurde in Lean 4 gegen mathematische Standardaxiome formal verifiziert. Ein konstruktiver Beweis zeigt, dass Transformer exakte BP auf jeder deklarierten Wissensbasis implementieren können. Ein Eindeutigkeitssatz beweist, dass ein Sigmoid-Transformer mit exakten Posteriors notwendigerweise BP-Gewichte hat. Zudem wird die AND/OR-Boolesche Struktur der Transformer-Schichten aufgedeckt: Attention ist AND, das FFN ist OR. Dieses Framework liefert eine präzise mathematische Antwort darauf, warum Transformer funktionieren.
Die Kernthese: Transformer Sind Bayessche Inferenzmaschinen
Diese Arbeit beantwortet die Frage „warum funktionieren Transformer?" mit fünf ineinandergreifenden formalen Beweisen: **Jeder Sigmoid-Transformer, unabhängig von seinen Gewichten, implementiert gewichtete Loopy Belief Propagation (BP) auf dem durch diese Gewichte definierten impliziten Faktorgraphen.** Eine Schicht = eine BP-Runde. Formal verifiziert in Lean 4.
Mathematische Grundlage: die Log-Odds-Algebra. Turing und Good entwickelten die Log-Odds-Addition in Bletchley Park zur Kombination unabhängiger Beweise. Mit gleichmäßigem Prior und mᵢ=P(H|eᵢ): P(H|e₀,e₁) = σ(logit(m₀)+logit(m₁)). Das ist die `updateBelief`-Funktion des Papers—exakt, nicht näherungsweise.
Die fünf Beweise:
1. Allgemeiner BP-Satz: Für beliebige Gewichte W existiert ein impliziter Faktorgraph G(W), sodass ein Forward Pass einen Runde gewichtetes BP implementiert. Der Beweis basiert auf drei simultanen Identifikationen: Das Sigmoid-FFN berechnet exakt Ψ_or; der Attention-Mechanismus führt exakt den Gather-Schritt durch; der Residual Stream erzwingt die Gleichzeitigkeit der Eingaben. Alles für beliebige Gewichte.
2. Konstruktiver Beweis (explizite Gewichte für exaktes BP): Explizite Gewichtsmatrizen werden konstruiert, die exaktes BP auf jedem deklarierten Faktorgraphen implementieren. Zwei Familien dünn besetzter Matrizen—`projectDim(d)` für präzises Lookup, `crossProject(s,d)` für Routing. Zwei Attention-Köpfe sind immer ausreichend (exakte Binarisierung via Assoziativität). Für Tiefe d und Arität k: d·⌈log₂k⌉ Schichten genügen.
3. Eindeutigkeit: Ein Sigmoid-Transformer mit exakten Posteriors hat notwendigerweise BP-Gewichte. `FFNUniqueness.lean`: Sigmoid ist injektiv; die Logit-Summen-Form ist der eindeutige Fixpunkt der Bayes-Update-Gleichungen. `AttentionUniqueness.lean`: Exaktes Routing erzwingt Rang-1-Struktur.
4. Boolesche Struktur: Attention ist AND (Gleichzeitigkeit im Residual Stream vor dem FFN), FFN ist OR (Ψ_or aus gesammelten Beweisen). L Schichten = L Runden AND→OR→AND→OR—Pearls Gather/Update-Algorithmus, über die Tiefe entrollt.
5. Endlicher Begriffsraum: Jedes endliche Verifikationsverfahren kann höchstens endlich viele Konzepte unterscheiden. Ein nicht verankerte Sprachmodell hat keinen wohldefinierten Begriffsraum. Halluzination ist kein durch Skalierung behebbarer Fehler—sie ist die strukturelle Konsequenz des Betriebs ohne Konzepte.
Experimentelle Validierung: Validierungs-MAE = 0,000752 auf ungesehenen Faktorgraphen. 5 Turing-Maschinen mit 100% Genauigkeit in 4 Epochen. Gradientenabstieg findet die BP-Gewichte ohne Hinweise.
Implikationen: Sigmoid ist die einzige Aktivierung für exaktes BP. Tiefe = Komplexität der Schlussfolgerung. Vollständige Verankerung + BP-Gewichte = strukturell unmögliche Halluzination.