Kimi Launches Attention Residuals with 1.25x Compute Advantage
Moonshot AI의 Kimi팀이 Attention Residuals(AttnRes) 논문을 발표, Transformer에서 10년간 사용된 고정 잔차 연결을 softmax 어텐션으로 대체하는 아키텍처를 제안했다. Kimi Linear 48B MoE 모델(1.4T 토큰 훈련)에서 검증, 4% 미만의 추가 훈련 비용과 2% 미만의 추론 지연 증가로 기준선 대비 1.25배 연산 효율을 달성. 논문과 코드 GitHub 공개.
Kimi, Attention Residuals 발표: 1.25배 컴퓨팅 우위로 Transformer 잔차 연결 재정의
2026년 3월 16일, Moonshot AI의 Kimi 팀이 **Attention Residuals(AttnRes)**를 발표했다. 이는 Transformer의 고정 덧셈 잔차 연결을 층 간 주의력 기반 혼합 메커니즘으로 대체하는 새로운 아키텍처로, Block AttnRes가 표준 PreNorm 기준선 대비 **약 1.25배의 컴퓨팅 우위**를 보인다는 것을 실증했다.
문제: 고정 잔차 연결의 알려진 한계
표준 Transformer 잔차는 단순한 규칙을 따른다: 각 층의 출력에 이전 층의 출력을 더함(1:1 고정 가중치). 이로 인해:
- **PreNorm 희석**: 깊이가 증가함에 따라 출력 크기가 불균일해짐
- **경직된 정보 흐름**: 각 층이 이전 층에만 직접 접근 가능
- **불균일한 기울기 전파**: 깊이에 따라 기울기 분포가 불균일
핵심 혁신: 덧셈을 주의력으로 대체
AttnRes는 각 층이 토큰 수준 주의력과 유사한 깊이 방향 주의력 메커니즘을 사용해 **모든 이전 층의 기여를 선택적으로 가중치**할 수 있게 한다.
Block AttnRes는 층을 블록으로 분할하고 블록 수준 표현에 주의력을 적용해 메모리와 통신 오버헤드를 O(depth²)에서 관리 가능한 수준으로 줄인다.
Kimi Linear(480억 파라미터 MoE)에서의 결과
480억 총 파라미터 MoE 모델 Kimi Linear에 통합되어 AttnRes는:
- 추론, 코딩, 일반 평가 벤치마크 전반에서 개선 실증
- **Block AttnRes는 약 1.25배 더 많은 컴퓨팅으로 훈련한 기준선의 성능에 필적**
- PreNorm 기준선 대비 낮은 스케일링 손실(규모가 커질수록 우위 확대)
논문과 코드는 커뮤니티 검증을 위해 GitHub에 공개됐다.
심층 분석과 업계 전망
거시적 관점에서 이 발전은 AI 기술이 실험실에서 산업 응용으로 가속 전환하는 트렌드를 체현한다. 업계 분석가들은 2026년이 AI 상업화의 핵심 전환점이 될 것으로 광범위하게 인식하고 있다. 기술 측면에서는 대규모 모델의 추론 효율이 향상되고 배포 비용이 하락하여 더 많은 중소기업이 AI 역량에 접근할 수 있게 되었다.
그러나 급속한 보급은 새로운 과제도 가져온다: 데이터 프라이버시 복잡화, AI 결정 투명성 요구 증대, 국경을 넘는 AI 거버넌스 조정 곤란. 각국 규제 당국이 동향을 주시하며 혁신 촉진과 리스크 방지의 균형을 모색하고 있다. 투자자에게도 지속 가능한 경쟁 우위를 가진 AI 기업 식별이 점점 중요해지고 있다.
산업 체인 관점에서 상류 인프라 층은 통합과 재구축을 경험하며 선두 기업들이 수직 통합으로 경쟁 장벽을 확대하고 있다. 중류 플랫폼 층에서는 오픈소스 생태계가 번성하여 AI 개발 진입 장벽이 낮아지고 있다. 하류 응용 층에서는 금융, 의료, 교육, 제조 등 전통 산업의 AI 침투율이 가속적으로 상승 중이다.