OmniAgent是什么？

OmniAgent是全球首个将视频理解形式化为POMDP的原生通用多模态代理，通过迭代式"观察-思考-行动"循环主动探索视频内容，将关键线索存储于持久文本记忆，从而将推理复杂度与视频时长解耦。

为什么OmniAgent的意义重大？

仅7B参数在LVBench基准上以50.5%的成绩超越参数量大10倍的Qwen2.5-VL-72B模型（47.3%），打破大模型算力壁垒，证明算法创新比单纯参数扩张更有效。

未来应关注什么方向？

其正向测试时扩展效应表明更多推理轮次可挖掘深层语义，为边缘设备部署高性能视频理解提供可行路径，并可能启发机器人视觉、自动驾驶等感知系统的范式创新。

OmniAgent：基於原生主動感知與推理的通用多模態理解代理

針對長視頻理解中被動模型計算成本隨時間線性增長以及現有交互框架仍依賴全局預掃描的局限，本文提出了OmniAgent，首個基於部分可觀測馬可夫決策過程（POMDP）的原生通用多模態代理。該模型將視頻理解重构為迭代式的「觀察-思考-行動」循環，通過按需執行動作選擇性提取視聽線索並存儲至持久文本記憶，從而將推理複雜度與視頻原始時長解耦。在訓練策略上，創新性地引入了代理監督微調（Agentic SFT）和帶有TAURA機制的代理強化學習，利用回合級熵值優化信用分配。實驗顯示，OmniAgent在十個基準測試中達到開源模型最先進水平，且在LVBench上以7B參數量超越參數量大10倍的Qwen2.5-VL-72B，展現出顯著的正向測試時擴展效應。

在长视频理解领域，传统的被动多模态模型通常遵循"全盘接收"的范式，即无论查询难度如何，模型都会均匀处理每一帧画面。这种处理方式导致计算成本随着视频时长的增加而线性增长，极大地限制了其在实际场景中的部署效率。尽管近年来出现了一些交互式框架，试图通过用户或模型的主动交互来优化理解过程，但这些方法往往依赖于对视频的全局预扫描，其上下文成本依然与视频长度紧密相关，未能从根本上解决效率与精度的矛盾。针对这一核心痛点，本文提出了OmniAgent，这是首个将视频理解形式化为基于部分可观测马尔可夫决策过程（POMDP）的原生通用多模态代理。

OmniAgent的核心贡献在于它不再被动地消耗所有数据，而是模拟人类的认知过程，通过迭代式的"观察-思考-行动"循环，主动地、按需地探索视频内容。这种机制使得模型能够将提取到的关键视听线索蒸馏并存储到持久的文本记忆中，从而有效地将推理的复杂度与视频的原始时长解耦，实现了在有限计算资源下对长视频的高效深度理解。在技术实现层面，OmniAgent采用了一套精密的训练与推理策略以支撑其主动感知能力。首先，为了引导模型学会如何主动探索，作者引入了代理监督微调（Agentic Supervised Fine-Tuning）。

该策略通过合成最佳轨迹（best-of-N trajectory synthesis）并结合两阶段质量控制，为模型提供了高质量的学习信号，使其能够从零开始掌握主动感知的技能。其次，为了进一步优化模型的推理决策能力，本文提出了带有TAURA（Turn-aware Adaptive Uncertainty Rescaled Advantage）机制的代理强化学习。TAURA机制创新性地利用了回合级的熵值来衡量模型的不确定性，从而将信用分配（credit assignment）精准地导向那些发现关键信息的 pivotal discovery turns（关键发现回合）。这种细粒度的奖励机制确保了模型在漫长的推理过程中，能够识别并强化那些真正有助于理解视频内容的动作，而不是盲目地增加推理步骤。

通过这种"观察-思考-行动"的闭环，OmniAgent能够在推理过程中动态调整其注意力焦点， selectively distill（选择性蒸馏）出最具信息量的视听线索，形成紧凑且高信息密度的文本记忆表示。为了验证OmniAgent的有效性，研究团队在十个广泛使用的视频理解基准测试上进行了全面的实验评估，包括VideoMME、LVBench等主流数据集。实验结果令人瞩目，OmniAgent在所有测试基准上均取得了开源模型中的最先进（SOTA）性能。特别值得注意的是，在极具挑战性的LVBench基准上，参数量仅为7B的OmniAgent以50.5%的成绩，显著超越了参数量高达72B、体量大10倍的Qwen2.5-VL-72B模型（后者得分为47.3%）。

这一结果不仅证明了OmniAgent在理解能力上的优越性，更凸显了其通过主动感知机制带来的效率优势。此外，实验还揭示了OmniAgent具有正向的测试时扩展效应（positive test-time scaling），即随着推理回合数的增加，模型的性能会持续提升。这一发现有力地验证了主动感知机制的有效性，表明模型能够通过更多的主动探索步骤来挖掘视频中的深层语义信息，而非仅仅依赖静态的上下文窗口。OmniAgent的提出对多模态人工智能领域具有深远的行业意义与潜在影响。首先，它打破了传统长视频理解模型对计算资源的过度依赖，为在边缘设备或资源受限环境下部署高性能视频理解模型提供了可行的技术路径。其次，其提出的基于POMDP的主动感知框架，为后续研究提供了新的范式，即从"被动处理"转向"主动探索"，这可能启发更多领域如机器人视觉、自动驾驶等场景下的感知系统创新。对于开源社区而言，OmniAgent展示了小参数模型通过先进的训练策略和推理机制超越大参数模型的可能性，激励研究者更加关注算法效率与模型架构的创新，而非单纯追求参数规模的扩张。最后，其持久文本记忆的机制也为多模态数据的长期存储与检索提供了新的思路，有助于构建更高效、更智能的多模态知识库，推动通用人工智能在复杂动态环境中的实际应用落地。

Sources

arXiv