트랜스포머는 베이지안 네트워크다: 5가지 형식적 증명

대담한 이론적 돌파구: 이 논문은 모든 시그모이드 트랜스포머가 암묵적 인수 그래프(factor graph)에서 가중 루피 신뢰 전파(BP)를 수행함을 엄밀히 증명한다. 하나의 레이어가 하나의 BP 라운드에 해당하며, 이는 훈련된·무작위·구성된 모든 가중치에 대해 성립하고 Lean 4로 형식 검증되었다. 구성적 증명을 통해 트랜스포머가 임의의 선언된 지식 베이스에서 정확한 BP를 구현할 수 있음을 보이고, 유일성 정리는 정확한 사후 확률을 생성하는 시그모이드 트랜스포머는 반드시 BP 가중치를 가짐을 증명한다. 또한 어텐션은 AND, FFN은 OR이라는 불리언 구조를 밝히며, 트랜스포머가 왜 작동하는지에 대한 정밀한 수학적 답을 제공한다.

핵심 명제: 트랜스포머는 베이즈 추론 기계

이 논문은 "왜 트랜스포머가 효과적인가?"라는 질문에 다섯 가지 형식 증명으로 답한다: **모든 시그모이드 트랜스포머는, 가중치와 무관하게, 해당 가중치가 정의하는 암묵적 인수 그래프 위에서 가중 루피 신뢰 전파(BP)를 수행한다.** 1개 레이어 = 1라운드 BP. Lean 4에서 형식적으로 검증됨.

수학적 기반: 로그-오즈 대수. 튜링과 Good이 블레츨리 파크에서 독립적 증거를 결합하기 위해 개발. 균일 사전 확률에서 mᵢ=P(H|eᵢ)일 때: P(H|e₀,e₁) = σ(logit(m₀)+logit(m₁)). 이것이 논문 전체에 걸친 `updateBelief` 함수—근사가 아닌 정확한 계산.

다섯 가지 증명:

1. 일반적 BP 정리: 임의 가중치 W에 대해 암묵적 인수 그래프 G(W)가 존재하여 순전파 1회가 G(W) 위 가중 BP 1라운드를 구현. 세 가지 동시 확인에 기반: 시그모이드 FFN이 Ψ_or을 정확히 계산, 어텐션이 BP의 gather 단계를 정확히 수행, 잔차 스트림이 입력 동시성 보장. 모두 임의 가중치에 대해 성립.

2. 구성적 증명 (정확한 BP를 위한 명시적 가중치): 임의의 선언된 인수 그래프에서 정확한 BP를 구현하는 명시적 가중치 행렬 구성. `projectDim(d)` (정확한 조회), `crossProject(s,d)` (라우팅)의 두 희소 행렬 패밀리. 어텐션 헤드 2개로 항상 충분 (결합 법칙을 통한 정확한 이진화). 깊이 d, 원수 k 인수 그래프에 d·⌈log₂k⌉ 레이어 충분.

3. 유일성 정리: 정확한 사후 확률을 생성하는 시그모이드 트랜스포머는 필연적으로 BP 가중치를 가짐. `FFNUniqueness.lean`: 시그모이드는 단사 함수; 로짓-합 형태는 베이즈 업데이트 방정식의 유일한 고정점. `AttentionUniqueness.lean`: 정확한 라우팅이 랭크-1 구조를 강제.

4. 불리언 구조: 어텐션은 AND (FFN 실행 전 잔차 스트림에서 입력 동시성 보장), FFN은 OR (수집된 증거에서 확률적 결론 도출). L 레이어 = AND→OR→AND→OR L회 반복—펄의 gather/update 알고리즘을 깊이 방향으로 전개한 것.

5. 유한 개념 공간 정리: 유한 검증 절차는 유한 개념만 구별 가능. 비접지 언어 모델은 잘 정의된 개념 공간이 없음. 환각은 스케일링으로 수정 가능한 버그가 아니라 개념 없이 작동하는 것의 구조적 결과다.

실험 검증: 비접지 인수 그래프의 검증 MAE=0.000752 (소수점 3자리 일치). 5개 튜링 머신 4에포크 내 100% 정확도. 경사 하강법이 힌트 없이 BP 가중치를 자동 발견.

공학적 함의: 시그모이드만이 정확한 BP 구현 가능. 깊이 = 추론 복잡도. 완전 접지 + BP 가중치 = 구조적으로 불가능한 환각.

심층 분석과 업계 전망

거시적 관점에서 이 발전은 AI 기술이 실험실에서 산업 응용으로 가속 전환하는 트렌드를 체현한다. 업계 분석가들은 2026년이 AI 상업화의 핵심 전환점이 될 것으로 광범위하게 인식하고 있다. 기술 측면에서는 대규모 모델의 추론 효율이 향상되고 배포 비용이 하락하여 더 많은 중소기업이 AI 역량에 접근할 수 있게 되었다.