OmniAgent란 무엇인가요?

OmniAgent는 POMDP 기반 최초의 범용 멀티모달 에이전트로, "관찰-사고-행동" 반복 루프를 통해 동영상을 능동적으로 탐색하고 핵심 단서를 영구 텍스트 메모리에 저장합니다. 이를 통해 추론 복잡성을 원본 동영상 길이에서 분리합니다.

OmniAgent가 중요한 이유는?

70억 파라미터로 LVBench에서 50.5%의 성적을 기록하며, 720억 파라미터 Qwen2.5-VL-72B(47.3%)를 능가합니다. 능동 지각을 통한 알고리즘 혁신이 방대한 파라미터 규모를 초월할 수 있음을 입증했습니다.

어떤 점을 주목해야 하나요?

테스트 시간 확장 효과로 인해 더 많은 추론 단계가 심층 의미론을 해방시키며, 에지 디바이스 배포를 가능하게 합니다. 로보틱스와 자율주행의 지각 시스템에도 영감을 줄 수 있습니다.

OmniAgent: 네이티브 능동 지각 및 추론 기반 범용 멀티모달 이해 에이전트

수동 모델의 계산 비용이 동영상 길이에 선형적으로 증가하고 기존 상호작용 프레임워크가 글로벌 사전 스캔에 의존한다는 한계를 극복하기 위해, 본 논문은 부분 관측 마르코프 의사결정 과정(POMDP) 기반 최초의 네이티브 범용 멀티모달 에이전트 OmniAgent를 제시합니다. OmniAgent는 동영상 이해를 반복적 "관찰-사고-행동" 루프로 재구성하고, 요청 시 동작을 실행하여 시각·청각 단서를 선택적으로 추출해 영구 텍스트 메모리에 저장함으로써 추론 복잡성을 원본 동영상 길이에서 분리합니다. 훈련 전략으로는 에피소드 수준 엔트로피를 활용한 TAURA 메커니즘을 갖춘 에이전트형 강화학습과 에이전트형 지도 미세조정(Agentic SFT)을 혁신적으로 도입합니다. 실험 결과, OmniAgent는 10개 벤치마크에서 오픈소스 모델 최첨단을 달성했으며, LVBench에서 파라미터 수가 10배 큰 Qwen2.5-VL-72B를 7B 파라미터로 앞설 뿐 아니라 강력한 양의 테스트 시간 확장 효과를 보여줍니다.

배경

장기적인 비디오 이해 분야에서 전통적인 수동형 멀티모달 모델은 "전량 수신"이라는 패러다임에 갇혀 있었습니다. 이는 쿼리의 난이도와 상관없이 모델이 비디오의 모든 프레임을 균일하게 처리해야 함을 의미하며, 결과적으로 계산 비용이 비디오 길이에 선형적으로 비례하여 증가하는 심각한 병목 현상을 초래했습니다. 이러한 비효율성은 실제 환경에서 수시간에 달하는 긴 비디오를 분석해야 하는 시나리오에서 고성능 분석 시스템의 배포를 어렵게 만드는 주요 장애물이 되어 왔습니다. 최근 몇 년간 상호작용 프레임워크들이 등장하여 사용자 또는 모델 기반의 상호작용을 통해 이해 과정을 최적화하려는 시도가 있었으나, 이러한 기존 방법들은 여전히 비디오 전체에 대한 글로벌 사전 스캔(global pre-scanning)에 의존하고 있었습니다. 따라서 컨텍스트 윈도우의 요구 사항과 관련된 처리 비용이 원본 미디어의 길이와 여전히 긴밀하게 결합되어 있어, 분석의 정밀도와 운영 효율성 사이의 근본적인 긴장 관계를 해결하지 못했습니다.

이러한 구조적 한계를 극복하기 위해 연구진은 OmniAgent라는 새로운 프레임워크를 제시했습니다. OmniAgent는 비디오 이해를 네이티브 범용 멀티모달 에이전트의 관점에서 재정의한 혁신적인 접근법입니다. 기존 모델들과 달리 OmniAgent는 비디오 이해를 부분 관측 마르코프 의사결정 과정(POMDP)으로 공식화한 최초의 시스템입니다. 이러한 이론적 전환은 모델을 수동적인 데이터 소비에서 능동적인 인지 시뮬레이션으로 이동시킵니다. 반복적인 "관찰-사고-행동" 루프를 채택함으로써 OmniAgent는 인간의 지각 전략을 모방하여 비디오 콘텐츠를 필요에 따라 능동적으로 탐색할 수 있게 됩니다. 이 메커니즘은 중요한 오디오-비주얼 단서를 선택적으로 추출하고 이를 영구 텍스트 메모리에 저장하여, 추론의 복잡성을 비디오의 원본 길이와 효과적으로 분리합니다. 이를 통해 제한된 계산 환경 내에서도 효율적인 심층 이해가 가능해졌습니다.

심층 분석

OmniAgent의 기술적 효능은 지능적인 에이전트에게 능동적 지각 능력을 근본부터 심어주기 위해 설계된 정교한 훈련 체계에 기반을 두고 있습니다. 이 방법론의 핵심은 에이전트형 지도 미세조정(Agentic SFT)입니다. 이 전략은 N개 중 최상의 궤적 합성(best-of-N trajectory synthesis)과 엄격한 2단계 품질 관리 과정을 결합하여 모델에 고품질의 학습 신호를 제공합니다. 이를 통해 모델은 전역 컨텍스트에 의존하지 않고도 능동적 탐색에 필요한 미묘한 기술을 습득할 수 있습니다. 원본의 선별되지 않은 비디오 스트림 대신 최적화된 궤적에서 훈련함으로써, 모델은 시간적 완전성보다 정보 밀도를 우선시하는 방법을 배우게 되며, 이는 시각 및 청각 입력을 처리하는 방식을 근본적으로 변화시킵니다.

에이전트의 의사결정 능력을 더욱 강화하기 위해 에이전트형 강화학습에 TAURA(Turn-aware Adaptive Uncertainty Rescaled Advantage) 메커니즘이 통합되었습니다. TAURA는 장기적 작업 내에서의 신용 할당(credit assignment) 분야에서 중요한 진전을 의미합니다. 상호작용의 각 단계에서 모델의 불확실성을 정량화하기 위해 턴 레벨 엔트로피(turn-level entropy)를 활용함으로써, TAURA는 에이전트가 핵심 정보를 성공적으로 식별하고 추출하는 순간인 '핵심 발견 턴(pivotal discovery turns)'으로 보상을 정확하게 유도합니다. 이러한 세분화된 보상 구조는 모델이 비디오 내러티브나 기술적 세부 사항을 이해하는 데 실제로 기여하는 행동을 강화하도록 하여, 단순히 추론 단계를 증가시키는 것과는 구별됩니다. 이 메커니즘은 OmniAgent가 주의 집중 초점을 동적으로 조정하고, 정보 밀도가 높은 텍스트 표현을 선택적으로 추출하며 중복되거나 가치가 낮은 데이터 세그먼트를 무시할 수 있게 합니다.

산업 영향

OmniAgent의 영향력은 단순한 성능 지표를 넘어, 자원 제약이 있는 멀티모달 애플리케이션을 위한 새로운 패러다임을 제시합니다. 능동적 지각이 추론 복잡성을 비디오 길이와 분리할 수 있음을 입증함으로써, 이 프레임워크는 엣지 디바이스나 제한된 대역폭 및 저장 공간을 가진 환경에서 고성능 비디오 분석을 배포할 수 있는 실현 가능한 경로를 제공합니다. 이러한 효율성 향상은 수시간에 걸친 영상을 근실시간(near real-time)으로 처리해야 하는 감시, 아카이브 검색, 실시간 방송 모니터링과 같은 산업 분야에서 특히 중요합니다. 수동적 처리에서 능동적 탐색으로의 전환은 향후 멀티모달 시스템이 데이터 볼륨에 선형적으로 확장될 필요가 없음을 시사하며, 이는 대규모 비디오 분석과 관련된 탄소 발자국과 하드웨어 비용을 줄일 잠재력을 가지고 있습니다.

또한 OmniAgent의 성공은 더 큰 파라미터 수가 더 우수한 이해도와 동일시된다는 기존 산업의 교리에 도전합니다. 이 모델은 훨씬 더 큰 아키텍처를 능가하는 능력을 보여주었으며, 이는 순수한 규모(raw scale)보다 알고리즘 효율성과 훈련 방법론의 중요성을 강조합니다. 이러한 발견은 광범위한 AI 커뮤니티 전반에 걸쳐 에이전트 프레임워크와 메모리 증강 아키텍처에 대한 연구 관심을 자극할 것으로 예상됩니다. 이는 개발자들이 모델이 정적으로 얼마나 많은 데이터를 섭취할 수 있는지가 아니라, 모델이 데이터와 어떻게 동적으로 상호작용하는지에 초점을 맞추도록 장려합니다. 또한 영구 텍스트 메모리 메커니즘은 긴 비디오를 중요한 사실적 세부 사항을 잃지 않고 간결하고 의미론적으로 풍부한 요약으로 압축할 수 있는 효율적이고 검색 가능한 멀티모달 지식베이스를 구축하기 위한 새로운 길을 열어줍니다.

전망

OmniAgent에 대한 실증적 평가는 그것이 오픈소스 멀티모달 이해를 위한 최첨단 솔루션임을 확인시켜 줍니다. VideoMME와 까다로운 LVBench를 포함한 10개의 서로 다른 벤치마크에서 테스트된 OmniAgent는 일관되게 최상위 성능을 발휘했습니다. 특히 LVBench에서 70억 파라미터의 OmniAgent는 50.5%의 점수를 기록하여, 파라미터 수가 10배 더 많은 Qwen2.5-VL-72B 모델(47.3% 점수)을 크게 앞질렀습니다. 이 결과는 POMDP 기반 능동 지각 프레임워크의 효과를 입증할 뿐만 아니라 강력한 양의 테스트 시간 확장 효과(positive test-time scaling effect)를 보여줍니다. 추론 라운드가 증가함에 따라 OmniAgent의 성능은 지속적으로 향상되며, 이는 에이전트가 비디오 콘텐츠 내의 더 깊은 의미론적 계층을 발견하기 위해 추가적인 탐색 단계를 활용할 수 있음을 나타냅니다.

앞으로 TAURA와 Agentic SFT의 통합은 복잡하고 동적인 환경에서 자율 에이전트를 훈련하기 위한 새로운 기준을 설정합니다. 불확실성과 신용 할당을 적응적으로 관리하는 능력은 로봇 조작 및 자율 주행과 같은 순차적 의사결정이 필요한 다른 도메인의 에이전트 개발에 영향을 미칠 것입니다. 커뮤니티가 이러한 메커니즘을 계속 정교해짐에 따라, 우리는 인간 수준 또는 그 이상의 성능을 달성하기 위해 무차별적인 계산 대신 능동적 추론을 통해 더 작고 효율적인 모델의 proliferation(폭발적 증가)을 목격하게 될 것입니다. OmniAgent는 이러한 미래로 가는 중요한 단계로, 지능적이고 선택적인 주의 집중이 포괄적이고 수동적인 데이터 섭취보다 더 가치 있음을 증명하고 있습니다.

Sources

arXiv