Attention Residuals Paper: Kimi Rewrites the 10-Year-Old Residual Connection
Moonshot AI의 AttnRes 논문이 Transformer의 10년 된 고정 잔차 연결 패러다임에 도전한다. 핵심 혁신은 고정 누적을 softmax 어텐션으로 대체하는 것. Block AttnRes 변형으로 대규모 모델의 메모리 오버헤드를 줄였다. Kimi Linear(48B MoE, 1.4T 토큰)에서 검증하여 MMLU, GPQA-Diamond, BBH, Math, HumanEval 등에서 기준선을 일관되게 상회. 추가 비용 극소(훈련 4% 미만, 추론 2% 미만).
Attention Residuals 논문 해설: Kimi가 10년된 잔차 연결을 다시 썼다
Moonshot AI의 Attention Residuals(AttnRes) 논문(2026년 3월 16일 발표)은 2017년 오리지널 Transformer 논문 이후 본질적으로 변하지 않은 고정 덧셈 잔차 연결이라는 Transformer의 기본 설계에 도전한다.
문제: 고정 잔차의 무엇이 문제인가?
표준 잔차: `h_l = F_l(h_{l-1}) + h_{l-1}` (고정 1:1 가중치)
세 가지 체계적 문제:
1. **PreNorm 희석**: 레이어 정규화가 층 간 분산 압축; 고정 잔차가 학습된 표현을 점진적으로 희석
2. **정보 접근 제한**: 각 층이 이전 층의 출력만 볼 수 있음
3. **불균일한 기울기 전파**: 깊이에 따라 기울기가 불균일하게 흐름
AttnRes 해결책
고정 덧셈을 학습 가능한 깊이 방향 주의력으로 대체: `h_l = Σ_{j<l} α_{l,j} · h_j`
각 층이 학습된 중요도 가중치로 모든 이전 층에 선택적으로 주의를 기울임.
Block AttnRes: 순수 AttnRes는 O(L²) 오버헤드. Block AttnRes는 층을 k개 블록으로 분할해 오버헤드를 O(L²)에서 O(L·k)로 감소.
실험 결과 (Kimi Linear, 480억 MoE): Block AttnRes는 약 1.25배 더 많은 컴퓨팅으로 훈련한 표준 PreNorm 기준선 성능에 필적. 더 낮은 스케일링 손실 = 모델 크기 증가에 따라 우위 확대.
미해결 질문들: 독립적 재현 필요; 다양한 파라미터 규모에서의 1.25배 우위 일반화; 장문 컨텍스트 작업에서의 성능; 블록 크기 k에 대한 민감도.
심층 분석과 업계 전망
거시적 관점에서 이 발전은 AI 기술이 실험실에서 산업 응용으로 가속 전환하는 트렌드를 체현한다. 업계 분석가들은 2026년이 AI 상업화의 핵심 전환점이 될 것으로 광범위하게 인식하고 있다. 기술 측면에서는 대규모 모델의 추론 효율이 향상되고 배포 비용이 하락하여 더 많은 중소기업이 AI 역량에 접근할 수 있게 되었다.
그러나 급속한 보급은 새로운 과제도 가져온다: 데이터 프라이버시 복잡화, AI 결정 투명성 요구 증대, 국경을 넘는 AI 거버넌스 조정 곤란. 각국 규제 당국이 동향을 주시하며 혁신 촉진과 리스크 방지의 균형을 모색하고 있다. 투자자에게도 지속 가능한 경쟁 우위를 가진 AI 기업 식별이 점점 중요해지고 있다.
산업 체인 관점에서 상류 인프라 층은 통합과 재구축을 경험하며 선두 기업들이 수직 통합으로 경쟁 장벽을 확대하고 있다. 중류 플랫폼 층에서는 오픈소스 생태계가 번성하여 AI 개발 진입 장벽이 낮아지고 있다. 하류 응용 층에서는 금융, 의료, 교육, 제조 등 전통 산업의 AI 침투율이 가속적으로 상승 중이다.
또한 인재 경쟁이 AI 산업 발전의 핵심 병목이 되고 있다. 세계 최고 AI 연구자의 쟁탈전이 격화되며 각국 정부가 AI 인재 유치 우대 정책을 내놓고 있다. 산학 협력 혁신 모델이 글로벌하게 추진되어 AI 기술의 산업화를 가속화하고 있다. 지속적인 기술 모니터링과 전략적 투자가 필수적이다.