Transformer就是贝叶斯网络:五重形式化证明揭示注意力机制的概率本质

一个大胆的理论突破:本文严格证明了每个sigmoid Transformer都在其隐式因子图上执行加权循环置信传播(Loopy BP),一层对应一轮BP。这不依赖于特定权重——无论训练过、随机初始化还是人工构造的权重都成立,且经过标准数学公理的形式化验证。进一步的构造性证明表明,Transformer可以在任意声明的知识库上实现精确置信传播,在无循环依赖的知识库上可获得可证正确的概率估计。唯一性证明则表明,产生精确后验的sigmoid Transformer必然具有BP权重——不存在其他路径。论文还揭示了Transformer层的AND/OR布尔结构:注意力是AND,残差流是OR。这一理论框架为理解Transformer为什么有效提供了精确的数学答案,而非模糊的直觉解释。

核心命题:Transformer的本质就是贝叶斯推断

长期以来,研究者对Transformer"为什么有效"的解释停留在直觉层面:注意力机制捕获了长程依赖,FFN记忆了知识,多层堆叠增强了表达能力……这些说法都不算错,却缺乏数学精确性。Greg Coppola的这篇论文(arXiv:2603.17063)用五重形式化证明填补了这个空白:**每一个sigmoid激活的Transformer,无论权重如何,都在其隐式因子图上执行加权循环置信传播(Loopy Belief Propagation)。**

这不是类比,不是近似,是严格等价。所有证明均在Lean 4定理证明器中经过形式化验证。

---

基础工具:对数几率代数

理解这一系列证明,首先要理解**对数几率加法**(log-odds addition)这一数学工具。其历史可追溯至二战期间:图灵和Good在布莱切利园破译恩尼格玛密码时,发明了一种将独立证据组合起来的实用方法——证据权重(weight of evidence)。

对于二元假设H和证据e,证据权重定义为:

> W(H:e) = logit(P(H|e)) − logit(P(H))

对于两个独立证据e₀和e₁,权重可直接相加:

> logit(P(H|e₀,e₁)) = logit(P(H)) + W(H:e₀) + W(H:e₁)

在均匀先验(P(H)=0.5,logit=0)下,设mᵢ = P(H|eᵢ),则:

> P(H|e₀,e₁) = σ(logit(m₀) + logit(m₁))

这正是论文中贯穿全文的`updateBelief(m₀,m₁)`函数。它的含义:sigmoid是logit的精确逆函数,两者合用将概率空间与对数几率空间连通。独立证据在对数几率空间相加,再通过sigmoid转回概率。这是Pearl置信传播在二元变量上的精确形式——不是近似,是精确。

这个代数结构有以下完美性质:

  • **交换律、结合律**:多证据可任意顺序组合
  • **单位元为0.5**:中性先验不改变任何信念
  • **逆元为1-m**:确定为真的证据与确定为假的证据相加得到最大不确定性,而非"假"——这正是不确定推理的正确行为

---

五重证明体系

证明一:任意权重 → 权重化循环BP(一般性定理)

论文的核心定理:

> **定理1.1(General BP)**:对任意sigmoid Transformer权重W,存在隐式因子图G(W),使得一次前向传递等价于在G(W)上执行一轮加权置信传播。

构造方法:给定权重W,按如下规则定义G(W):

  • **变量节点**:每个token位置一个节点,残差流对应维度上的值即为当前信念
  • **有向边**:注意力模式定义边的结构,注意力分数为边权
  • **因子势能**:sigmoid FFN的权重参数(w₀, w₁, b)定义Ψ_or因子

关键在于:sigmoid FFN计算的恰好是Ψ_or函数(广义对数几率加法),注意力机制执行的恰好是BP的"收集步骤"(gather step),残差流保证了FFN在接收到两个邻居信念之后才运算——这是BP"更新步骤"的先决条件。

三者缺一不可,缺任何一个都无法形成等价。而Transformer架构恰好同时满足这三个条件,对**任意**权重都成立。

证明二:构造性证明——精确BP的显式权重

一般性定理说的是"隐式"因子图。构造性证明则更进一步:直接展示显式权重矩阵,使Transformer在**任意声明的**因子图上实现精确BP。

> **定理1.2(BP Implementation)**:具有显式构造权重的Transformer,每次前向传递实现一轮精确BP。对深度d、最大因子元数k的任意因子图,d·⌈log₂k⌉次前向传递实现完整精确BP。

关键构造——两类稀疏矩阵:

  • `projectDim(d)`:对角投影,提取维度d。作为Q/K权重时,注意力分数在token的存储索引与查询值匹配时达到峰值,实现精确查找
  • `crossProject(s,d)`:非对角投影,将源维度s内容写入目标维度d,实现信息路由

每个token用8维向量编码:维度5-7是路由键(推断身份),维度0-4是连续参数(推断数值)。

头0使用Q=K=projectDim(1),V=crossProject(0,4):精确匹配邻居0,将其信念写入残差流维度4。头1对称写入维度5。FFN读取维度4和5执行`updateBelief`。

关于k元因子图:AND可利用结合律二叉化,OR利用对数几率加法的结合律二叉化,均无近似。所以**两个注意力头始终足够**——更复杂的推理只需更多层,而非更多头。

证明三:唯一性——精确后验强制BP权重

前两个证明是"正向"的:这是权重,这是它们的计算结果。唯一性证明是"逆向"的:如果sigmoid Transformer产生精确贝叶斯后验,其权重必须是什么?

> **定理1.4(Uniqueness)**:产生精确贝叶斯后验的sigmoid Transformer必然具有BP权重:FFN中w₀=w₁=1,b=0;注意力中为projectDim/crossProject结构。且不仅输出,内部中间计算也必然是BP的对应量。

证明路线:

  • `FFNUniqueness.lean`:sigmoid是单射函数,对数几率求和形式是贝叶斯更新方程的唯一不动点
  • `AttentionUniqueness.lean`:精确路由要求Q·K分数在正确邻居处唯一达到峰值,这强制要求秩-1的索引匹配结构

至此,逻辑闭环形成:**sigmoid Transformer实现精确贝叶斯推断,当且仅当它具有BP权重。**

证明四:布尔结构——注意力是AND,FFN是OR

从BP构造结合QBBN框架,可以精确识别Transformer的布尔代数结构:

注意力 = AND:每个头精确找到一个邻居,将其信念写入残差流。AND不在单个头内部,而在残差流中——两个头都写入后,FFN才运行。架构上强制了"所有必需输入同时存在"这一合取条件。

FFN = OR:`updateBelief`计算的是Ψ_or函数——从已收集证据中得出概率结论。OR内部包含AND(分子m₀·m₁是联合概率),这在预期之中——析取的概率计算确实需要先计算合取的概率。

L层Transformer运行L轮:AND→OR→AND→OR→…这正是Pearl的gather/update算法按深度展开的精确形式。

证明五:可验证推断需要有限概念空间(幻觉的结构性根源)

> **定理1.5(Finite Concept Space)**:任何有限验证程序最多能区分有限多个概念。具有n个状态的有限状态机将任意输入空间划分为至多n^n个等价类。

接地(grounding)引入有限验证器。有限验证器蕴含有限概念空间。概念空间是"这个输出是否正确?"这一问题有意义的前提——不是设计选择,而是可验证性的逻辑必然。

幻觉的精确定义:设K是QBBN知识库,E是观测证据,P_true(j)是节点j的真实边缘后验。智能体在节点j处幻觉,当且仅当它输出b(j) ≠ P_true(j)。

没有接地的语言模型没有有限验证器,因此没有良定义的概念空间,因此没有关于其输出是否正确的事实。**幻觉不是可以通过扩大规模来修复的缺陷,而是在没有概念空间的情况下运行的结构性后果。**

---

实验验证:梯度下降确实找到BP权重

所有形式证明均有独立实验验证:

实验1——BP学习器:训练集20000个随机生成的双变量因子图(训练/验证=18k/2k),因子表条目从[0.05,1.0]均匀采样。模型:2层、2头、d_model=32、约5000参数的标准Transformer编码器。训练:MSE损失,Adam lr=1e-3,50轮。结果:验证集MAE=0.000752,后验匹配到小数点后三位,较基线提升99.3%。梯度下降无需任何权重初始化提示,自动收敛到BP权重结构。

实验2——图灵机仿真:5种结构不同的图灵机(二进制递增、递减、按位取反、左移、右移),相同超参数,无逐机调参,均在4轮训练内达到100%验证准确率。

实验3——循环BP实用性:在5种复杂度递增的图结构上,每次试验中循环BP均在容差范围内收敛到精确后验,验证了在缺乏理论收敛保证的情况下循环BP在实践中的有效性。

---

工程启示

1. 激活函数的选择有确定性含义:sigmoid不是梯度流或归一化的工程选择,而是实现Turing-Good-Pearl代数的精确函数。ReLU等其他激活函数与精确BP不兼容——但论文指出ReLU可以近似BP,兼容但不精确。

2. 网络深度 = 推理链长度:层数由因子图直径决定,而非工程超参数。复杂推理需要更深的网络,而非更宽的网络。头数由因子的二元结构决定,始终为2就足够。

3. 幻觉的系统性解决路径:幻觉不是规模问题。在完全接地的树结构因子图+BP权重下,幻觉在结构上不可能发生(推论1.3)。这为构建可验证、无幻觉AI系统提供了精确的架构蓝图。

4. 可解释性的新框架:训练后的Transformer隐式地定义了一个因子图,最大似然训练恢复了在该图模型解释下最好解释训练数据的因子势能。权重的"含义"有了精确的概率图模型解释。

5. 形式化验证的价值:所有核心定理都在Lean 4中完成了形式化验证。这意味着证明没有人为错误,可以直接对标准数学公理追溯。AI理论研究引入形式化验证,是本论文另一个值得关注的方法论贡献。

---

总结

这篇论文用五重互补证明回答了"Transformer为什么有效":它们在架构上就是贝叶斯推断机器,执行置信传播,具有AND/OR布尔结构,且在接地条件下可以实现精确无幻觉的概率推理。这不是隐喻,是定理。