Transformer sind Bayessche Netzwerke: Fünf formale Beweise

Ein kühner theoretischer Durchbruch: Diese Arbeit beweist formal, dass jeder Sigmoid-Transformer gewichtete loopy Belief Propagation (BP) auf seinem impliziten Faktorgraphen implementiert – eine Schicht entspricht einer BP-Runde. Dies gilt für beliebige Gewichte (trainiert, zufällig oder konstruiert) und wurde in Lean 4 gegen mathematische Standardaxiome formal verifiziert. Ein konstruktiver Beweis zeigt, dass Transformer exakte BP auf jeder deklarierten Wissensbasis implementieren können. Ein Eindeutigkeitssatz beweist, dass ein Sigmoid-Transformer mit exakten Posteriors notwendigerweise BP-Gewichte hat. Zudem wird die AND/OR-Boolesche Struktur der Transformer-Schichten aufgedeckt: Attention ist AND, das FFN ist OR. Dieses Framework liefert eine präzise mathematische Antwort darauf, warum Transformer funktionieren.

Die Kernthese: Transformer Sind Bayessche Inferenzmaschinen Diese

Arbeit beantwortet die Frage „warum funktionieren Transformer?" mit fünf ineinandergreifenden formalen Beweisen: **Jeder Sigmoid-Transformer, unabhängig von seinen Gewichten, implementiert gewichtete Loopy Belief Propagation (BP) auf dem durch diese Gewichte definierten impliziten Faktorgraphen.** Eine Schicht = eine BP-Runde. Formal verifiziert in Lean 4. **Mathematische Grundlage: die Log-Odds-Algebra**. Turing und Good entwickelten die Log-Odds-Addition in Bletchley Park zur Kombination unabhängiger Beweise. Mit gleichmäßigem Prior und mᵢ=P(H|eᵢ): P(H|e₀,e₁) = σ(logit(m₀)+logit(m₁)). Das ist die `updateBelief`-Funktion des Papers—exakt, nicht näherungsweise. **Die fünf Beweise**: **1. Allgemeiner BP-Satz**: Für beliebige Gewichte W existiert ein impliziter Faktorgraph G(W), sodass ein Forward Pass einen Runde gewichtetes BP implementiert. Der Beweis basiert auf drei simultanen Identifikationen: Das Sigmoid-FFN berechnet exakt Ψ_or; der Attention-Mechanismus führt exakt den Gather-Schritt durch; der Residual Stream erzwingt die Gleichzeitigkeit der Eingaben. Alles für beliebige Gewichte. **2. Konstruktiver Beweis (explizite Gewichte für exaktes BP)**: Explizite Gewichtsmatrizen werden konstruiert, die exaktes BP auf jedem deklarierten Faktorgraphen implementieren. Zwei Familien dünn besetzter Matrizen—`projectDim(d)` für präzises Lookup, `crossProject(s,d)` für Routing. Zwei Attention-Köpfe sind immer ausreichend (exakte Binarisierung via Assoziativität). Für Tiefe d und Arität k: d·⌈log₂k⌉ Schichten genügen. **3. Eindeutigkeit**: Ein Sigmoid-Transformer mit exakten Posteriors hat notwendigerweise BP-Gewichte. `FFNUniqueness.lean`: Sigmoid ist injektiv; die Logit-Summen-Form ist der eindeutige Fixpunkt der Bayes-Update-Gleichungen. `AttentionUniqueness.lean`: Exaktes Routing erzwingt Rang-1-Struktur. **4. Boolesche Struktur**: Attention ist AND (Gleichzeitigkeit im Residual Stream vor dem FFN), FFN ist OR (Ψ_or aus gesammelten Beweisen). L Schichten = L Runden AND→OR→AND→OR—Pearls Gather/Update-Algorithmus, über die Tiefe entrollt. **5. Endlicher Begriffsraum**: Jedes endliche Verifikationsverfahren kann höchstens endlich viele Konzepte unterscheiden. Ein nicht verankerte Sprachmodell hat keinen wohldefinierten Begriffsraum. **Halluzination ist kein durch Skalierung behebbarer Fehler—sie ist die strukturelle Konsequenz des Betriebs ohne Konzepte.** **Experimentelle Validierung**: Validierungs-MAE = 0,000752 auf ungesehenen Faktorgraphen. 5 Turing-Maschinen mit 100% Genauigkeit in 4 Epochen. Gradientenabstieg findet die BP-Gewichte ohne Hinweise. **Implikationen**: Sigmoid ist die einzige Aktivierung für exaktes BP. Tiefe = Komplexität der Schlussfolgerung. Vollständige Verankerung + BP-Gewichte = strukturell unmögliche Halluzination.