AXPO: 멀티모달 에이전트 추론에서 사고-행동 격차를 해소하는 탐색적 정책 최적화

본 논문은 멀티모달 에이전트 추론에 널리 존재하는 "사고-행동 격차" 문제를 해결하기 위해 AXPO(Agent eXplorative Policy Optimization)라는 새로운 정책 최적화 알고리즘을 제시합니다. 기존 강화학습 방식은 도구 활용률이 약 30%에 불과하고 실패율이 높아 학습 신호가 억제된다는 문제를 겪습니다. AXPO는 사고 접두사를 고정한 채 완전히 오류가 발생한 하위 그룹에 대해 도구 호출 및 후속 동작을 재표본추출하고, 불확실성 기반 접두사 선택 전략을 결합함으로써 모델의 탐색 능력을 효과적으로 향상시킵니다. 9개 멀티모달 벤치마크에서 SFT+AXPO는 평균 Pass@1 및 Pass@4 지표 모두에서 SFT+GRPO를 꾸준히 능가했습니다. 특히 8B 파라미터 규모에서 SFT+AXPO는 32B 기본 모델을 Pass@4에서 상회하면서도 파라미터 수는 4분의 1에 불과합니다.

배경

멀티모달 대규모 언어 모델의 발전은 단순한 지식 검색을 넘어선 확장적 추론(extended reasoning) 단계로 진입했습니다. 시각 언어 모델은 복잡한 추상 논리 처리에 탁월한 능력을 보였으나, 현실 세계의 많은 작업은 모델 내부의 지식만으로는 해결할 수 없으며 외부 도구와의 상호작용을 필수로 요구합니다. 이로 인해 에이전트 추론(Agentic Reasoning)의 핵심 과제가 대두되었는데, 이는 모델이 '사고'(Thinking, 내부적 자기 포함 추론)와 '행동'(Acting, 외부 도구 사용)이라는 두 가지 상이한 행동을 교차적으로 수행해야 한다는 점입니다. 연구진은 이 두 행동 간에 구조적 비대칭성이 존재하며, 이를 '사고-행동 격차'(Thinking-Acting Gap)로 정의합니다. 이 격차는 표준 강화학습 프레임워크, 특히 그룹 상대 정책 최적화(GRPO)와 같은 방법론을 적용할 때 심각한 진단 증상으로 나타납니다.

첫 번째 증상은 모델의 극도로 낮은 탐색 의지입니다. 모델은 롤아웃(rollout) 과정의 약 30%에서만 외부 도구 사용을 시도하며, 나머지 70% 이상은 안전한 내부 추론 경로만 고수합니다. 두 번째 증상은 도구 사용 시의 높은 실패율입니다. 모델이 도구 사용을 시도한 경우 중 약 40%에서 그룹 내 모든 도구 호출이 완전히 실패하는 '전체 오류' 상태가 발생합니다. 이러한 빈번한 전체 오류는 도구 호출 과정에서 본래 획득해야 할 학습 신호를 심각하게 억제합니다. 전체 궤적이 페널티를 받으면서도 어떤 부분이 구체적으로 실패했는지에 대한 미묘한 피드백이 제공되지 않기 때문에, 모델은 도구 사용 전략을 효과적으로 수정하거나 학습하지 못합니다. 이는 모델이 도구 사용을 회피하는 악순환을 초래하며, 현재 연구가 해결해야 할 가장 시급한 과제로 부상했습니다.

이러한 시스템적 문제를 해결하기 위해 연구진은 AXPO(Agent eXplorative Policy Optimization)라는 새로운 정책 최적화 알고리즘을 제안합니다. AXPO의 주요 목적은 학습 신호의 억제를 완화하고 모델이 외부 도구를 탐색하려는 의지를 높이는 것입니다. 표준 강화학습에서 식별된 특정 실패 모드에 타겟팅하여, AXPO는 도구 사용이 더 빈번하게 시도될 뿐만 아니라 더 효과적으로 학습되도록 보장함으로써 내부 추론과 외부 행동 간의 성능 격차를 줄이는 것을 목표로 합니다. 이는 멀티모달 에이전트의 진정한 잠재력을 해제하는 데 필수적인 단계로 평가됩니다.

심층 분석

AXPO는 전통적인 방법에서 학습 신호 억제의 주요 원인이 되는 '완전히 잘못된' 도구 사용 하위 그룹을 처리하기 위한 정교한 메커니즘을 도입합니다. 이 알고리즘의 핵심 혁신은 내부 추론 과정과 외부 실행 단계를 분리할 수 있는 능력에 있습니다. 알고리즘이 모든 도구 호출이 실패한 롤아웃 하위 그룹을 식별하면, 전체 궤적을 폐기하지 않습니다. 대신 '사고 접두사 고정 및 행동 재표본추출'(fixing the thinking prefix and resampling the action) 전략을 적용합니다. 이는 모델의 내부 추론 초기 단계, 즉 도구 사용 결정을 내리기까지의 논리를 보존한다는 의미입니다. 도구 호출 자체와 그 이후의 실행 단계만 재표본추출함으로써, 모델은 올바른 내부 논리에 대한 보상을 유지하면서 외부 상호작용에 대한 표적화된 피드백을 받게 됩니다. 이는 단순한 성공/실패 이분법보다 훨씬 정밀한 학습 신호를 제공합니다. 이 재표본추출 전략과 함께 AXPO는 불확실성 기반 접두사 선택 메커니즘을 도입합니다. AXPO는 사고 접두사 생성 동안 모델의 불확실성을 평가하여 최적화에 가장 가치 있는 궤적을 동적으로 선택합니다. 이 메커니즘은 올바른 추론 경로에서 너무 벗어나지 않으면서도 높은 탐색 가치를 제공하는 접두사를 우선시합니다. 이러한 불확실하면서도 유망한 접두사에 집중함으로써 AXPO는 통제된 방식으로 모델의 탐색 능력을 향상시킵니다. 이는 도구 사용의 고유한 높은 분산으로 인한 훈련 불안정성을 방지하고, 모델이 무작위 노이즈가 아닌 정보적인 오류로부터 학습하도록 보장합니다. 고정된 접두사와 선택적 재표본추출의 결합은 복잡한 도구 사용 행동을 학습하기 위한 안정적인 환경을 조성합니다. AXPO의 효용성은 널리 사용되는 9개의 멀티모달 벤치마크에서 포괄적인 실험을 통해 검증되었습니다. 연구는 Qwen3-VL-Thinking 모델의 다양한 파라미터 규모를 베이스라인으로 사용하여 발견의 견고성을 확보했습니다. 결과적으로 SFT+AXPO 파이프라인은 표준 SFT+GRPO 접근법을 꾸준히 상회하는 것을 보여주었습니다. 구체적으로 SFT+AXPO는 Pass@1 및 Pass@4 지표 모두에서 평균 1.8%p의 개선을 달성했습니다. 이 수치는 작아 보일 수 있으나, 특히 다양성과 최종 정확도를 측정하는 Pass@4 지표에서 멀티모달 추론의 맥락에서는 통계적으로 유의미합니다. 이 개선은 알고리즘이 에이전트 출력의 정확성과 다양성을 모두 정제할 수 있음을 강조합니다.

연구의 특히 주목할 만한 발견은 서로 다른 규모 모델 간의 성능 동등성입니다. 80억 파라미터 규모로 SFT+AXPO를 훈련한 모델은 Pass@4 지표에서 320억 파라미터 규모 베이스 모델을 능가했습니다. 8B 모델이 대형 모델의 4분의 1 파라미터만 사용한다는 점을 고려할 때 이는 주목할 만한 성과입니다. 이는 알고리즘 효율성이 모델 규모를 상쇄할 수 있음을 시사하며, 고성능 에이전트를 위한 비용 효율적인 경로를 제시합니다. 아블레이션 연구는 고정 사고 접두사 메커니즘과 불확실성 기반 선택이 이 성공에 결정적으로 기여했음을 확인하여 AXPO 설계의 과학적 엄격성을 검증했습니다.

산업 영향

AXPO의 도입은 산업 환경에서 멀티모달 에이전트의 개발 및 배포에 지대한 영향을 미칩니다. 사고-행동 격차에 대한 이론적이고 실용적인 솔루션을 제공함으로써, 이 알고리즘은 더 신뢰할 수 있고 효율적인 에이전트의 생성을 가능하게 합니다. 내부 추론과 외부 도구 호출을 구분하는 강조점은 강화학습 훈련 파이프라인 설계에 새로운 패러다임을 제시합니다. 이 구분은 향후 연구에 중요한 참고점이 되는데, 이는 에이전트 워크플로우의 고유한 도전을 고려한 특수화된 최적화 기술의 필요성을 부각시키기 때문입니다. AXPO의 성공은 현재 표준 방법이 복잡한 에이전트 작업에는 불충분할 수 있음을 시사하며, 더 미묘한 정책 최적화 전략으로의 전환을 필요로 합니다.

배포 관점에서 작은 모델이 큰 모델의 성능을 Matching할 수 있는 능력은 비용 및 지연 시간 관리에 게임 체인저입니다. 연구는 AXPO로 최적화된 8B 모델이 32B 베이스 모델보다 성능이 우수하여 계산 요구사항을 75% 절감할 수 있음을 입증했습니다. 이러한 효율성 향상은 자원이 제한된 엣지 디바이스나 대규모 동시 서비스에서 특히 가치 있습니다. 낮은 지연 시간과 절감된 계산 비용은 자율 로봇공학, 대화형 고객 서비스, 실시간 데이터 분석 등 실시간 애플리케이션에 정교한 멀티모달 에이전트를 배포하는 것을 실현 가능하게 만듭니다. 거대한 규모가 아닌 알고리즘 최적화를 통한 고성능 에이전트 능력의 민주화는 다양한 분야에서 AI 에이전트 채택을 가속화할 수 있습니다.

오픈소스 커뮤니티를 위해 AXPO는 기존 훈련 파이프라인에 통합할 수 있는 재현 가능하고 효율적인 최적화 프레임워크를 제공합니다. 이 접근성은 막대한 컴퓨팅 자원 없이도 고급 에이전트 훈련 기술을 실험할 수 있게 함으로써 혁신을 장려합니다. AXPO가 사용하는 로컬 재표본추출 및 불확실성 유도 전략은 멀티모달 작업으로 국한되지 않으며, 코드 생성 및 자동화된 워크플로우 오케스트레이션과 같은 시퀀스 결정 및 도구 사용이 관련된 다른 도메인에서도 잠재적 응용 가능성을 제시합니다. 이러한 작업에 견고한 기반을 제공함으로써 AXPO는 에이전트 AI 기술의 더 넓은 진전에 기여합니다.

전망

향후 AXPO 알고리즘은 멀티모달 에이전트의 평가 및 훈련을 위한 새로운 벤치마크를 설정합니다. 연구에서 관찰된 상당한 성능 향상은 향후 연구가 사고-행동 격차의 다른 측면을 해결하기 위해 정책 최적화 기술을 더욱 정제하는 데 초점을 맞출 것임을 시사합니다. 모델이 더 복잡해지고 외부 도구의 다양성이 확장됨에 따라 견고한 탐색 전략의 필요성은 더욱 증가할 것입니다. 특히 불확실성 기반 접두사 선택 메커니즘은 점점 더 동적인 환경에서 탐색과 활용 간의 균형을 관리하기 위한 유망한 방향을 제시합니다. 연구자들은 이 메커니즘을 확장하여 더 복잡한 다단계 도구 상호작용과 장기 계획 작업을 처리하는 방법을 모색할 수 있습니다. 연구가 지적하는 산업적 궤적은 모델 크기가 에이전트 성능의 주요 병목 현상이 되지 않는 미래를 향한 것입니다. 기업들이 대규모로 AI 에이전트를 배포하려는 노력을 기울일 때, AXPO와 같은 알고리즘이 제공하는 효율성 이득은 핵심적일 것입니다. 작은 모델로 고성능을 달성할 수 있는 능력은 하이브리드 클라우드-엣지 시스템과 같은 더 유연한 배포 아키텍처를 가능하게 합니다. 이 추세는 모놀리식 범용 모델에 의존하기보다 특정 작업에 맞게 조정된 전문적이고 경량화된 에이전트의 출현으로 이어질 수 있습니다. 초점은 파라미터 규모 확대에서 알고리즘 지능 및 훈련 효율성 확대로 전환될 가능성이 높습니다. 더욱이 사고-행동 격차를 해소한 AXPO의 성공은 인공지능의 다른 영역에서도 유사한 혁신을 영감시킬 수 있습니다. 올바른 추론 경로를 고정하고 오류가 있는 행동을 재표본추출하는 원칙은 복잡한 지시 따르기에 어려움을 겪는 자연어 처리 도메인에도 적용될 수 있습니다. 유사하게 불확실성 기반 선택 메커니즘은 불확실성 하에서 중요한 결정을 내려야 하는 자율 시스템의 신뢰성을 향상시킬 수 있습니다. 에이전트 AI 분야의 진화와 함께 AXPO가 제공하는 통찰력은 더 강력하고 효율적이며 신뢰할 수 있는 지능형 시스템 개발을 위한 기초 참조점이 될 것입니다. 완전 자율적 멀티모달 에이전트를 향한 여정은 이러한 알고리즘적 돌파구에 의해 개척되고 있으며, 이는 AI 에이전트가 인간과 유사한 추론 및 행동 능력으로 세계와 원활하게 상호작용하는 미래를 약속합니다.

AXPO의 장기적 영향은 에이전트 평가 지표의 표준화에서도 느껴질 것입니다. 연구가 Pass@1 및 Pass@4를 강조한 점은 단일 최고 성능뿐만 아니라 에이전트 출력의 다양성과 견고성을 측정하는 중요성을 부각시킵니다. 산업이 더 복잡한 에이전트 애플리케이션으로 이동함에 따라 이러한 지표는 AI 시스템의 실제 유용성을 평가하는 데 점점 더 중요해질 것입니다. AXPO 프레임워크는 이러한 평가가 엄격하게 수행될 수 있는 템플릿을 제공하며, 에이전트 개발의 진전이 정확하고 의미 있게 측정되도록 보장합니다. 이러한 견고한 평가에 대한 초점은 미래 알고리즘 및 모델의 개발을 안내하여, 이들이 강력할 뿐만 아니라 실제 배포에 대해 신뢰할 수 있고 안전함을 보장할 것입니다.