Attention Residuals란 무엇이고 일반 Transformer와 어떻게 다른가요?

기존 Transformer는 고정 덧셈 잔차(각 층 출력 + 이전 층, 고정 1:1 가중치)를 사용. Attention Residuals는 이를 깊이 방향 주의력 메커니즘으로 대체해 각 층이 모든 이전 층의 기여를 선택적으로 가중치할 수 있게 한다. Block AttnRes가 이를 실용화. 결과: 표준 PreNorm 기준선 대비 약 1.25배의 컴퓨팅 효율.

1.25배 컴퓨팅 우위는 얼마나 중요한가요?

규모가 클수록 매우 중요. AttnRes로 1억 달러 모델을 훈련하면 일반적으로 1.25억 달러로 훈련한 모델과 동등한 성능——2,500만 달러 절약. 프론티어 규모(10억 달러 이상 훈련 예산)에서는 한 번의 실행당 2억 달러 이상 절약된다.

Attention Residuals는 독립적으로 검증됐나요?

2026년 3월 기준 아직 아니다. 결과는 Kimi 자체 MoE 아키텍처에서의 테스트를 기반으로 한다. 논문과 코드는 커뮤니티 재현을 위해 GitHub에 공개됐다. 다양한 아키텍처와 규모에서 독립적 검증이 이루어져야 커뮤니티가 주장을 완전히 지지할 수 있다.

Kimi Launches Attention Residuals with 1.25x Compute Advantage

Moonshot AI의 Kimi팀이 Attention Residuals(AttnRes) 논문을 발표, Transformer에서 10년간 사용된 고정 잔차 연결을 softmax 어텐션으로 대체하는 아키텍처를 제안했다. Kimi Linear 48B MoE 모델(1.4T 토큰 훈련)에서 검증, 4% 미만의 추가 훈련 비용과 2% 미만의 추론 지연 증가로 기준선 대비 1.25배 연산 효율을 달성. 논문과 코드 GitHub 공개.

배경

문샷 AI의 키미(Kimi) 팀은 2026년 3월 16일, 딥러닝 분야의 기초 아키텍처에 정면으로 도전하는 '어텐션 리지듀얼(Attention Residuals, 이하 AttnRes)' 논문과 관련 코드를 GitHub에 공개하며 업계의 큰 주목을 받았습니다. 이 혁신의 핵심은 2017년 Transformer가 탄생한 이후 단 한 번도 근본적으로 변경되지 않았던 '고정 잔차 연결(Fixed Residual Connections)' 메커니즘을 대체하는 데 있습니다. 기존 Transformer는 각 레이어의 출력을 단순히 이전 레이어의 출력에 더하는 1:1 고정 가중치 방식을 사용했습니다. 이는 구현이 간단하고 안정적이지만, 정보 흐름이 경직되어 있어 깊은 네트워크에서 출력 크기가 불균형해지는 'PreNorm 희석' 현상이나, 그라디언트가 깊이에 따라 고르지 않게 전파되는 문제를 야기해 왔습니다. 키미 팀은 이러한 한계를 극복하기 위해, 각 레이어가 이전 레이어들의 출력을 단순히 더하는 대신, 어텐션 메커니즘을 통해 선택적으로 가중치를 부여하는 방식을 제안했습니다.

AttnRes 아키텍처는 각 레이어가 '가짜 쿼리(Pseudo-Query)'를 학습하여, 이전 모든 레이어의 출력에 대한 어텐션 가중치를 동적으로 계산하도록 설계되었습니다. 이는 모델이 입력 시퀀스를 처리할 때 어텐션을 사용하는 것과 동일한 논리를 내부 은닉 상태(Internal Hidden States) 처리에도 적용한 것입니다. 결과적으로 모델은 이전 레이어들의 정보를 무조건적으로 수용하는 것이 아니라, 현재 컨텍스트에 가장 관련성이 높은 레이어의 특징만 선택적으로 추출하고 강화할 수 있게 됩니다. 이 과정에서 키미 팀은 계산 효율성을 높이기 위해 레이어를 블록으로 나누고 블록 단위로 어텐션을 적용하는 '블록 AttnRes' 방식을 도입하여, 메모리 및 통신 오버헤드를 O(depth²) 수준에서 관리 가능한 범위로 축소시켰습니다. 이러한 기술적 디테일들은 단순한 이론적 개선을 넘어, 실제 대규모 모델 학습에 즉시 적용 가능한 실용적인 솔루션임을 보여줍니다.

심층 분석

AttnRes의 가장 놀라운 성과는 키미 리니어(Kimi Linear) 48B MoE(혼합 전문가) 모델에서의 검증 결과를 통해 명확히 드러났습니다. 이 모델은 총 1.4조 토큰의 방대한 데이터셋으로 학습되었으며, AttnRes를 적용한 결과 기준선 모델 대비 약 1.25배의 연산 효율성을 달성했습니다. 이는 AttnRes를 적용한 모델이 동일한 성능을 내기 위해 기준선 모델보다 25% 적은 연산량을 사용했음을 의미합니다. 구체적으로, AttnRes를 도입했을 때 추가적인 훈련 비용은 4% 미만으로 증가했을 뿐이며, 추론 지연(Inference Latency) 또한 2% 미만으로만 증가했습니다. 이는 극히 미미한 오버헤드로 엄청난 성능 향상을 얻었음을 시사합니다. 특히, 기준선 대비 더 낮은 스케일링 손실(Scaling Loss)을 보였으며, 모델의 규모가 커질수록 이 장점이 더욱 두드러지는 것으로 나타났습니다. 이는 AttnRes가 단순한 미세 조정이 아닌, 모델 스케일링 법칙 자체를 개선하는 구조적 혁신임을 입증합니다.

기술적 관점에서 AttnRes는 Transformer의 잔차 연결을 '정적 채널'에서 '동적 라우팅'으로 전환시켰습니다. 기존 고정 잔차 연결은 모든 이전 레이어의 정보가 현재 레이어에 동등하게 중요하다고 가정하는 전역 통과 필터(Global Pass-through Filter)와 유사한 역할을 했습니다. 이는 긴 시퀀스 처리나 복잡한 논리적 추론 과정에서 불필요한 노이즈가 누적되거나, 정보 손실을 보완하기 위해 불필요하게 레이어 수를 늘리는 결과를 초래했습니다. 반면, AttnRes는 각 레이어가 자신의 계산에 필요한 이전 레이어의 특징만 선택적으로 필터링하므로, 정보 처리의 신호 대 잡음비(SNR)를 획기적으로 높였습니다. 이는 인간의 인지 과정에서 외부 자극 중 중요한 정보만 선택적으로 주의를 기울이는 '선택적 주의(Selective Attention)' 메커니즘과 유사합니다. 이러한 동적 정보 선별 능력은 키리니어 48B MoE 모델에서 추론, 코딩, 일반 평가 등 다양한 벤치마크에서 일관된 성능 향상으로 이어졌습니다.

산업 영향

이러한 아키텍처 혁신은 현재 치열한 AI 경쟁 구도에 중대한 영향을 미치고 있습니다. 우선, 엔비디아 등 고급 GPU 공급이 여전히 제한적이고 연산 비용이 높은 상황에서, AttnRes는 더 비싼 하드웨어에 의존하지 않고도 성능 병목을 돌파할 수 있는 실용적인 경로를 제시했습니다. 키미 팀의 성공적인 검증은 중국 AI 기업들이 기초 아키텍처 혁신 분야에서 메타(Meta), 구글(Google) 등 미국 거대 기업들과 어깨를 나란히 하거나 앞서나갈 수 있음을 입증했습니다. 이는 과거 Transformer 진화 경로가 미국 기업들에 의해 독점되었던 구도를 깨는 중요한 전환점이 되었습니다. 또한, AttnRes는 표준 Transformer 모듈에 대한 직접적인 대체재이므로, 기존 훈련 프레임워크와 호환됩니다. 이는 다른 연구자들과 기업들이 비교적 쉽게 AttnRes를 자신의 모델에 통합하여 이식 학습이나 성능 비교를 수행할 수 있음을 의미하며, 이는 곧 AttnRes 기반의 모델 미세 조정 및 최적화 열풍을 촉발할 것입니다.

특히, 장문 처리나 복잡한 논리적 추론과 같이 정보 선별 능력이 요구되는 시나리오에서 AttnRes 모델은 기존 모델 대비 현저한 우위를 점할 것으로 예상됩니다. 이는 기업들이 AI 도입 시 단순한 파라미터 수 증가뿐만 아니라, 실제 업무 처리 능력의 질적 향상을 기대할 수 있음을 의미합니다. 또한, AttnRes의 확산은 하드웨어厂商들에게도 새로운 기회를 제공합니다. 동적 어텐션 메커니즘에 특화된 가속화 최적화나 전용 AI 칩의 아키텍처 적응이 필요해지면서, 하드웨어-소프트웨어协同 최적화 시장이 확대될 가능성이 큽니다. 키미 팀이 논문과 코드를 오픈소스로 공개한 것은 이러한 생태계 확장을 가속화하는 중요한 동력이 되고 있습니다. 이는 중국 AI 기업들이 투명하고 개방적인 기술 공개를 통해 신뢰를 구축하고 표준을 선도하려는 최근 전략과도 부합합니다. 결과적으로 AttnRes는 단순한 알고리즘 개선을 넘어, AI 산업의 구조적 효율성을 재정의하는 계기가 되고 있습니다.

전망

AttnRes의 도입은 Transformer 아키텍처 진화의 시작점에 불과할 수 있으며, 향후 몇 가지 중요한 신호들이 주목될 것입니다. 현재 AttnRes는 주로 48B 규모의 MoE 모델에서 검증되었으므로, 향후 7B, 13B와 같은 소규모 모델이나 100B 이상의 초대규모 모델에서의 일반화 능력, 특히 극단적으로 긴 컨텍스트 윈도우에서의 안정성이 주요 관심사가 될 것입니다. 또한, AttnRes가 FlashAttention, Mamba 등 새로운 효율적 어텐션 메커니즘이나 상태 공간 모델(State Space Models)과 결합될 경우, 추가적인 효율성 비약이 기대됩니다. 이러한 하이브리드 아키텍처는 AttnRes 단독의 장점을 넘어선 시너지를 낼 수 있을 것입니다. 더 나아가, AttnRes를 채택하는 팀이 늘어남에 따라 해당 아키텍처에 특화된 추론 엔진 최적화가 이루어져 추론 지연이 더욱压缩될 것으로 보입니다. 이는 실시간성이 중요한 응용 분야에서 AttnRes 모델의 경쟁력을 한층 높일 것입니다.

2026년을 AI 기술이 연구실을 넘어 산업 현장으로 본격적으로 진입하는 분기점으로 보는 시각이 많습니다. AttnRes와 같은 아키텍처 효율성 향상은 대규모 모델의 추론 비용을 낮추고 배포 장벽을 낮추어, 중소기업도 고급 AI 기능을 활용할 수 있게 합니다. 이는 AI 투자 수익에 대한 기업들의 기대를 장기적 전략적 가치에서 단기적 정량적 성과로 전환시키는 데 기여할 것입니다. 키미 팀의 이번 도약은 단순한 파라미터 규모 확장을 추구하던 과거의 관행에서, 기초 아키텍처 혁신을 통한 정교하고 고효율적인 발전 단계로 넘어가는 AI 산업의 중요한 전환점을 알립니다. Transformer가 탄생한 지 10년 만에 가장 실질적인 구조적变革 중 하나로 평가받는 AttnRes는, 향후 AI 생태계의 효율성 기준을 재설정하고 더 포용적이고 지속 가능한 AI 발전 경로를 제시할 것으로 기대됩니다.