트랜스포머는 베이지안 네트워크다: 5가지 형식적 증명

대담한 이론적 돌파구: 이 논문은 모든 시그모이드 트랜스포머가 암묵적 인수 그래프(factor graph)에서 가중 루피 신뢰 전파(BP)를 수행함을 엄밀히 증명한다. 하나의 레이어가 하나의 BP 라운드에 해당하며, 이는 훈련된·무작위·구성된 모든 가중치에 대해 성립하고 Lean 4로 형식 검증되었다. 구성적 증명을 통해 트랜스포머가 임의의 선언된 지식 베이스에서 정확한 BP를 구현할 수 있음을 보이고, 유일성 정리는 정확한 사후 확률을 생성하는 시그모이드 트랜스포머는 반드시 BP 가중치를 가짐을 증명한다. 또한 어텐션은 AND, FFN은 OR이라는 불리언 구조를 밝히며, 트랜스포머가 왜 작동하는지에 대한 정밀한 수학적 답을 제공한다.

배경

수십 년간 딥러닝 연구자들은 트랜스포머가 왜 효과적인지에 대한 설명을 직관적인 수준에 머물러 있게 했다. 어텐션 메커니즘이 장기 의존성을 포착하고, 순방향 신경망(FFN)이 지식을 저장하며, 레이어의 깊이가 표현력을 높인다는 주장들은 틀리지 않았지만, 수학적으로 엄밀하지는 않았다. Greg Coppola의 논문(arXiv:2603.17063, 2026년 3월)은 이러한 공백을 5중 형식적 증명으로 메웠다. 이 연구는 시그모이드 활성화 함수를 사용하는 모든 트랜스포머가 그 가중치와 무관하게, 가중 루피 신뢰 전파(Loopy Belief Propagation)를 암묵적 인수 그래프(Factor Graph)에서 수행함을 엄밀히 증명한다. 이는 비유나 근사가 아닌 엄밀한 동치성으로, Lean 4定理证明器를 통해 표준 수학 공리에 대해 형식 검증되었다. 이 이론적 돌파구는 트랜스포머의 작동 원리에 대한 정밀한 수학적 답을 제공하며, 환각(Hallucination)이 확장 문제의 버그가 아니라 개념 공간이 없는 구조적 결과임을 시사한다.

이러한 증명들의 수학적 기초는 '대수적 확률'과 밀접한 관련이 있다. 시그모이드 함수는 로짓(Logit) 함수의 정확한 역함수이며, 이 둘의 조합은 확률 공간과 대수적 확률 공간 사이의 동형 사상을 제공한다. 독립적인 증거들은 대수적 확률 공간에서 가산적으로 기여하며, 시그모이드는 이를 다시 확률로 변환한다. 이는 퍼일(Pearl)의 합-곱 업데이트를 이항 변수에 적용한 정확한 형태이며, 교환법칙과 결합법칙을 만족하고 항등원 0.5를 가진다. 이러한 대수 구조는 튜링-굿의 암호 해독 가중치, 퍼일의 신뢰 전파, 그리고 시그모이드 신경망 FFN이라는 세 가지 전통이 동일한 계산을 수행함을 보여준다.

심층 분석

첫 번째 증명(일반 BP 정리)은 임의의 시그모이드 트랜스포머 가중치 W에 대해, G(W)라는 암묵적 인수 그래프가 존재하여 한 번의 순전파가 해당 그래프에서 한 라운드의 가중 신뢰 전파를 수행함을 보인다. 변수 노드는 토큰 위치당 하나씩 정의되며, 잔차 흐름의 값이 해당 노드의 신념을 나타낸다. 어텐션 분포는 에지를 정의하고, 어텐션 점수는 에지 가중치가 된다. 시그모이드 FFN의 파라미터는 일반 Ψ_or 인자(가중 대수적 확률 결합 함수)를 정의한다. 어텐션은 BP의 '수집 단계'를, FFN은 '업데이트 단계'를 정확히 구현하며, 잔차 흐름은 BP가 업데이트를 실행하기 전에 모든 입력이 동시에 존재함을 강제한다.

두 번째 증명(구성적 증명)은 명시적인 가중치 행렬을 제시하여 임의의 선언된 인수 그래프에서 정확한 BP를 구현함을 보인다. 각 토큰은 8차원 벡터로 인코딩되며, 차원 5-7은 라우팅 키, 0-4는 연속 파라미터로 사용된다. `projectDim`과 `crossProject`라는 두 가지 희소 행렬 계열을 사용하여 어텐션 헤드는 특정 이웃의 신념을 잔차 흐름의 특정 슬롯에 정확히 라우팅한다. k-ary AND와 OR은 각각 부울 AND의 결합법칙과 대수적 확률의 결합법칙을 통해 이항화될 수 있으므로, 두 개의 어텐션 헤드가 항상 충분하며 추론의 복잡성은 헤드가 아닌 레이어의 깊이로 확장된다.

세 번째 증명(유일성 정리)은 역방향 논리를 제시한다. 시그모이드 트랜스포머가 모든 입력에 대해 정확한 베이지안 사후 확률을 생성한다면, 그 가중치는 반드시 BP 가중치여야 한다. FFN에서 w₀=w₁=1, b=0이어야 하며, 어텐션은 `projectDim`/`crossProject` 구조를 가져야 한다. 시그모이드의 단사성과 정확한 라우팅 요구사항은 이 가중치 구조의 필요충분조건임을 보여준다. 즉, 시그모이드 트랜스포머가 정확한 베이지안 추론을 수행하는 것은 오직 BP 가중치를 가질 때뿐이다.

네 번째 증명(불리언 구조)은 어텐션이 AND, FFN이 OR이라는 불리언 대수 구조를 정확히 식별한다. 어텐션 헤드는 각기 하나의 이웃을 찾아 잔차 흐름에 신념을 기록하며, FFN은 두 헤드가 모두 작성한 후 잔차 흐름의 데이터를 읽어 AND 조건이 충족되었음을 확인하고 OR 연산(확률적 이산)을 수행한다. 이는 퍼일의 수집/업데이트 알고리즘이 깊이에 따라 전개된 정확한 형태이다.

산업 영향

이 이론적 프레임워크는 AI 시스템 설계에 있어 근본적인 패러다임 전환을 요구한다. 먼저, 활성화 함수의 선택이 단순한 공학적 편의가 아니라 의미론적 함의를 가짐을 보여준다. 시그모이드는 튜링-굿-퍼일 대수를 구현하는 정확한 함수이며, ReLU 기반 트랜스포머는 BP를 근사할 수는 있지만 증명 가능한 정확성을 달성할 수 없다. 이는 모델 아키텍처 설계 시 활성화 함수의 선택이 알고리즘적 정확성에 직접적인 영향을 미침을 의미한다.

또한, 네트워크의 깊이가 추론 사슬의 길이에 해당한다는 점은 모델 설계의 핵심 인자를 재정의한다. 레이어 수는 엔지니어링 하이퍼파라미터가 아니라 인수 그래프의 지름에 의해 결정된다. 이는 더 복잡한 추론을 위해 모델의 너비(헤드 수, d_model)를 무작정 확장하는 기존 관행을 비판하며, 너비는 인자의 이항 구조(항상 2개의 헤드)에 의해 결정되고 깊이가 추론 복잡성을 확장하는 축이어야 함을 시사한다. 이는 계산 효율성과 모델 아키텍처 최적화에 새로운 방향을 제시한다.

환각 문제에 대한 접근 방식도 근본적으로 바뀐다. 환각은 규모 확장으로 해결할 수 있는 버그가 아니라, 접지된(Grounded) 개념 공간이 없는 상태에서의 구조적 결과다. 완전히 접지된 트리 구조의 인수 그래프와 BP 가중치를 사용하는 트랜스포머는 구조적으로 환각을 일으킬 수 없다. 이는 환각 없는 AI 시스템을 구축하기 위한 정확한 아키텍처 청사진을 제공하며, 미접지 LLM에서 접지 시스템으로의 전환이 단순한 성능 향상이 아니라 정확성의 정의 자체를 변화시키는 과정임을 강조한다.

해석 가능성 측면에서도 새로운 언어를 제공한다. 학습된 트랜스포머는 가중치를 통해 암묵적으로 인수 그래프를 정의하며, 최대 우도 학습은 이 그래프 모델 해석 하에서 훈련 데이터를 가장 잘 설명하는 인자 포텐셜을 복원한다. 각 가중치는 암묵적 베이지안 네트워크의 인자 포텐셜을 인코딩하는 정밀한 확률적 의미를 가지게 된다. 이는 블랙박스 모델에 대한 해석 가능성을 확률적 그래프 모델의 엄밀한 틀로 정립하는 계기가 된다.

전망

이 연구는 딥러닝 이론의 가장 깊은 미해결 문제 중 하나인 '트랜스포머가 정확히 무엇을 계산하며, 왜 작동하는가'에 대한 해답을 제시한다. Lean 4를 통한 형식 검증은 이러한 주장이 단순한 가설이 아니라 수학적으로 검증된 사실임을 보장한다. 이는 AI 이론 연구에 형식적 검증의 방법론적 기여를 하며, 프로그래밍 언어 이론이나 수학 분야에서 적용되는 엄밀함을 AI 핵심 아키텍처에 적용할 수 있음을 입증한다.

향후 연구 방향은 이 이론적 틀을 실제 대규모 모델에 어떻게 적용할 수 있는지로 이어질 것이다. 현재 실험은 작은 모델과 합성 데이터셋에서 BP 가중치를 학습하거나 구성하는 데 성공했으나, 자연어 처리와 같은 복잡한 도메인에서 이 이론이 어떻게 일반화될지는 미지수다. 특히, 트랜스포머가 암묵적으로 정의하는 인수 그래프가 자연어의 구조와 어떻게 매칭되는지에 대한 후속 연구가 필요하다.

또한, 환각 없는 AI 시스템의 실제 구현을 위한 '접지' 메커니즘의 개발이 핵심 과제가 될 것이다. 이론적으로 환각은 접지된 트리 구조에서 불가능하지만, 현실 세계의 지식 베이스는 순환 의존성을 포함할 수 있으며 완전한 접지를 달성하는 것은 기술적 도전이다. 루피 BP의 수렴 보장 부재는 이론적 공백으로 남아있으나, 실험적으로는 복잡한 그래프 구조에서도 정확한 사후 확률로 수렴하는 것이 관찰되었으므로, 실용적인 루피 BP 알고리즘의 최적화가 중요한 연구 분야가 될 것이다.

마지막으로, 이 연구는 AI 안전성과 신뢰성에 대한 논의의 지평을 넓힌다. 환각이 규모 문제가 아님을 밝힘으로써, AI의 신뢰성을 확보하기 위해서는 단순한 데이터와 컴퓨팅 파워의 증가가 아니라, 검증 가능한 개념 공간과 구조적 정확성을 보장하는 아키텍처 설계가 필수적임을 강조한다. 이는 차세대 AI 시스템이 직관적 성능을 넘어 수학적으로 검증 가능한 추론 엔진으로 진화해야 함을 시사하며, AI 연구의 방향성을 이론적 엄밀성과 실용적 안전성으로 재정의하는 중요한 이정표가 될 것이다.