Attention Residuals Paper: Kimi Rewrites the 10-Year-Old Residual Connection
Moonshot AI의 AttnRes 논문이 Transformer의 10년 된 고정 잔차 연결 패러다임에 도전한다. 핵심 혁신은 고정 누적을 softmax 어텐션으로 대체하는 것. Block AttnRes 변형으로 대규모 모델의 메모리 오버헤드를 줄였다. Kimi Linear(48B MoE, 1.4T 토큰)에서 검증하여 MMLU, GPQA-Diamond, BBH, Math, HumanEval 등에서 기준선을 일관되게 상회. 추가 비용 극소(훈련 4% 미만, 추론 2% 미만).
배경
2026년 3월 16일, Moonshot AI는 Transformer 아키텍처의 핵심인 고정 가산 잔차 연결(Fixed Additive Residual Connections)을 근본적으로 재정의하는 'Attention Residuals(AttnRes)' 논문을 발표했습니다. 2017년 Transformer 논문이 등장한 이후 약 10년 동안 신경망의 심층화를 가능하게 한 안정성의 상징이었던 이 연결 방식은, 모델의 규모가 기하급수적으로 커지면서 내재한 한계에 부딪혔습니다. 기존 방식은 각 층의 출력이 이전 층의 출력에 단순히 1:1로 더해지는 구조로, 이는 깊은 네트워크에서 그라디언트 소실 문제를 해결하는 데 탁월했으나, 현대적인 PreNorm(사전 정규화) 구조와 결합될 때 'PreNorm Dilution'이라는 치명적인 약점을 드러냈습니다. 이는 층이 깊어질수록 층 정규화(Layer Normalization)가 각 층 출력의 분산을 압축하고, 고정된 잔차 연결이 이를 더욱 희석시켜 최종 출력에 대한 깊은 층의 기여도가 급격히 감소하는 현상을 의미합니다.
또한 기존 잔차 연결은 정보 접근의 제한성을 안고 있었습니다. 각 층은 오직 바로 이전 층의 출력만 볼 수 있었기 때문에, 5층 또는 10층 이전의 중요한 정보를 직접적으로 활용하는 것이 불가능했습니다. 이는 정보Telephone Game과 유사하게 중간 변환 과정에서 정보가 왜곡되거나 희미해지는 결과를 초래했습니다. Moonshot AI는 이러한 구조적 비효율성을 해결하기 위해, 단순한 가산 연산을 어텐션 메커니즘으로 대체하는 AttnRes를 제안했습니다. 이는 각 층이 모든 이전 층의 출력에 대해 학습 가능한 가중치를 적용하여 정보를 선택적으로 수집하는 방식으로, 아키텍처의 근본적인 패러다임 전환을 시도한 것입니다.
심층 분석
AttnRes의 핵심 혁신은 수식 $h_l = \sum_{j<l} \alpha_{l,j} \cdot h_j$에 잘 드러납니다. 여기서 $\alpha_{l,j}$는 깊이 차원 어텐션 메커니즘을 통해 학습된 가중치로, 현재 층 $l$이 이전 층 $j$의 출력을 얼마나 중요하게 여겨야 하는지를 나타냅니다. 이는 각 층이 자신의 계산 필요성에 따라 동적으로 정보를 선택하는 '적응성', 모든 이전 층에 대한 '전역적 가시성', 그리고 엔드투엔드 학습을 통한 '가중치 최적화'라는 세 가지 주요 특성을 제공합니다. 이를 의사결정 과정에 비유하면, 기존 방식이 각 결정자가 오직 직전 결정자의 의견만 반영하는 것과 달리, AttnRes는 모든 선배 결정자의 의견을 종합하고 상황에 따라 각 의견에 적절한 가중치를 부여하는 것과 같습니다.
그러나 순수한 AttnRes는 계산 복잡도가 층 수 $L$에 대해 $O(L^2)$로 증가하는 치명적인 공학적 문제를 안고 있습니다. 예를 들어 64층 모델에서는 4096배의 추가 오버헤드가 발생하여 실용화가 불가능했습니다. 이를 해결하기 위해 Kimi 팀은 'Block AttnRes' 변형을 도입했습니다. 이 방식은 모델을 $k$개의 층으로 구성된 블록(Block)으로 나누어, 블록 내에서는 AttnRes를 적용하고 블록 간에는 기존 고정 잔차 연결을 사용하는 하이브리드 방식을 채택했습니다. 이를 통해 계산 복잡도는 $O(L^2)$에서 $O(L \cdot k)$로 대폭 감소했으며, 특히 $k=8, L=48$인 경우와 같이 $k$가 $L$보다 훨씬 작을 때 성능 저하 없이 효율성을 극대화할 수 있었습니다.
이러한 이론적 개선은 실제 대규모 모델인 Kimi Linear(총 480억 파라미터의 MoE 아키텍처, 1.4T 토큰으로 학습)에서 검증되었습니다. 실험 결과, Block AttnRes는 동일한 학습 컴퓨팅량 기준으로 표준 PreNorm 기반선 대비 약 1.25배의 컴퓨팅 효율성을 보였습니다. 이는 AttnRes 모델이 더 적은 연산량으로 더 높은 성능을 달성했음을 의미하며, 스케일링 손실(Scaling Loss) 곡선이 기존 방식보다 완만하게 감소하여 모델 규모가 커질수록 그 장점이 더욱 부각됨을 시사합니다.
산업 영향
AttnRes가 제시한 1.25배의 컴퓨팅 효율성 향상은 AI 산업의 비용 구조에 지대한 영향을 미칠 잠재력을 지니고 있습니다. 만약 이 결과가 다양한 아키텍처와 규모에서 독립적으로 재현되어 검증된다면, 최첨단 대형 언어 모델(LLM)의 학습 비용은 획기적으로 절감될 수 있습니다. 예를 들어, 10억 달러 규모의 GPT-5급 모델을 훈련할 경우 AttnRes 적용을 통해 약 2억 달러의 비용을 절약할 수 있으며, 동일한 예산으로는 기존 대비 1.25배 더 강력한 모델을 구축할 수 있습니다. 이는 AI 연구의 진입 장벽을 낮추고, 더 많은 기업과 연구진이 고사양 모델을 개발할 수 있는 기회를 제공합니다.
또한 추론 비용 측면에서도 긍정적인 영향을 예상할 수 있습니다. 동일한 성능을 달성하기 위해 더 작은 규모의 모델을 사용할 수 있게 되므로, 서비스 제공자는 하드웨어 비용을 절감하면서도 사용자에게 높은 품질의 서비스를 제공할 수 있습니다. 이는 AI 서비스의 대중화와 상용화 속도를 가속화하는 핵심 동력이 될 것입니다. 특히 MoE(Mixture of Experts)와 같은 효율적인 아키텍처와 결합될 때 그 시너지 효과는 더욱 클 것으로 보입니다.
기존의 잔차 연결 개선안들과의 비교에서도 AttnRes의 독창성이 두드러집니다. 2023년 제안된 ResiDual는 PostNorm과 PreNorm을 혼합하여 안정성을 높였으나 여전히 고정 가산 잔차를 사용했으며, Gated Residuals는 학습 가능한 게이트를 도입했으나 스칼라 값에 국한되어灵活性이 부족했습니다. AttnRes는 어텐션 메커니즘을 통해 전 층에 대한 가중치 분포를 학습함으로써, 기존 방식들이 가지지 못한 세밀한 정보 제어 능력을 확보했습니다. 이는 단순한 하이퍼파라미터 튜닝을 넘어, 신경망이 정보를 처리하는 근본적인 방식을 변화시킨 것으로 평가됩니다.
전망
AttnRes의 성공적인 검증에도 불구하고, 아직 해결해야 할 과제도 존재합니다. 현재까지의 결과는 Moonshot AI의 자체 MoE 프레임워크 내에서만 확인되었으며, 독립적인 재현 연구가 필요합니다. 또한 1B, 7B, 70B 등 다양한 파라미터 규모에서 1.25배의 효율성 차이가 일관되게 유지되는지, 그리고 긴 문서 이해와 같은 장문맥(Long-Context) 태스크에서도 동일한 성능 향상이 나타나는지에 대한 검증이 요구됩니다. 특히 블록 크기 $k$의 선택이 성능에 미치는 민감도 분석을 통해 최적의 아키텍처 설계 가이드라인이 마련될 필요가 있습니다.
2026년은 AI 기술이 실험실을 넘어 산업 현장으로 본격적으로 확산되는 전환점이 될 것으로 예상됩니다. AttnRes와 같은 근본적인 아키텍처 혁신은 단순히 성능 향상을 넘어, AI 모델의 설계 철학을 재정의할 것입니다. 만약 독립적인 검증을 통해 그 유효성이 입증된다면, AttnRes는次世代 대형 모델의 표준 구성 요소로 자리 잡을 가능성이 높습니다. 이는 Transformer의 10년 된 고착화된 설계에 새로운 생명을 불어넣는 동시에, AI 산업의 경쟁 구도를 재편하는 중요한 계기가 될 것입니다. Moonshot AI의 이번 논문은 단순한 기술적 개선을 넘어, 딥러닝의 기초 이론에 대한 근본적인 성찰을 제시했다는 점에서 2026년 가장 주목받는 AI 기초 연구 중 하나로 기록될 것입니다.