OmniAgent:以主动感知重构长视频理解,7B模型如何超越72B巨头

针对长视频理解中计算成本随时长线性增长的痛点,最新研究提出了OmniAgent。这是首个基于部分可观测马尔可夫决策过程(POMDP)的原生通用多模态代理,它将传统的被动接收模式重构为「观察-思考-行动」的迭代循环。通过按需提取视听线索并存储至持久文本记忆,OmniAgent成功将推理复杂度与视频原始时长解耦。在训练层面,其引入的代理监督微调与TAURA强化学习机制显著优化了信用分配。实验表明,仅70亿参数的OmniAgent在LVBench等十个基准测试中达到开源最先进水平,甚至超越了参数量大十倍的Qwen2.5-VL-72B,展现了极强的测试时扩展效应,为高效多模态智能体提供了全新范式。

在长视频理解领域,传统的被动多模态模型通常遵循"全盘接收"的范式,即无论查询难度如何,模型都会均匀处理每一帧画面。这种处理方式导致计算成本随着视频时长的增加而线性增长,极大地限制了其在实际场景中的部署效率。尽管近年来出现了一些交互式框架,试图通过用户或模型的主动交互来优化理解过程,但这些方法往往依赖于对视频的全局预扫描,其上下文成本依然与视频长度紧密相关,未能从根本上解决效率与精度的矛盾。针对这一核心痛点,本文提出了OmniAgent,这是首个将视频理解形式化为基于部分可观测马尔可夫决策过程(POMDP)的原生通用多模态代理。

OmniAgent的核心贡献在于它不再被动地消耗所有数据,而是模拟人类的认知过程,通过迭代式的"观察-思考-行动"循环,主动地、按需地探索视频内容。这种机制使得模型能够将提取到的关键视听线索蒸馏并存储到持久的文本记忆中,从而有效地将推理的复杂度与视频的原始时长解耦,实现了在有限计算资源下对长视频的高效深度理解。在技术实现层面,OmniAgent采用了一套精密的训练与推理策略以支撑其主动感知能力。首先,为了引导模型学会如何主动探索,作者引入了代理监督微调(Agentic Supervised Fine-Tuning)。

该策略通过合成最佳轨迹(best-of-N trajectory synthesis)并结合两阶段质量控制,为模型提供了高质量的学习信号,使其能够从零开始掌握主动感知的技能。其次,为了进一步优化模型的推理决策能力,本文提出了带有TAURA(Turn-aware Adaptive Uncertainty Rescaled Advantage)机制的代理强化学习。TAURA机制创新性地利用了回合级的熵值来衡量模型的不确定性,从而将信用分配(credit assignment)精准地导向那些发现关键信息的 pivotal discovery turns(关键发现回合)。这种细粒度的奖励机制确保了模型在漫长的推理过程中,能够识别并强化那些真正有助于理解视频内容的动作,而不是盲目地增加推理步骤。

通过这种"观察-思考-行动"的闭环,OmniAgent能够在推理过程中动态调整其注意力焦点, selectively distill(选择性蒸馏)出最具信息量的视听线索,形成紧凑且高信息密度的文本记忆表示。为了验证OmniAgent的有效性,研究团队在十个广泛使用的视频理解基准测试上进行了全面的实验评估,包括VideoMME、LVBench等主流数据集。实验结果令人瞩目,OmniAgent在所有测试基准上均取得了开源模型中的最先进(SOTA)性能。特别值得注意的是,在极具挑战性的LVBench基准上,参数量仅为7B的OmniAgent以50.5%的成绩,显著超越了参数量高达72B、体量大10倍的Qwen2.5-VL-72B模型(后者得分为47.3%)。

这一结果不仅证明了OmniAgent在理解能力上的优越性,更凸显了其通过主动感知机制带来的效率优势。此外,实验还揭示了OmniAgent具有正向的测试时扩展效应(positive test-time scaling),即随着推理回合数的增加,模型的性能会持续提升。这一发现有力地验证了主动感知机制的有效性,表明模型能够通过更多的主动探索步骤来挖掘视频中的深层语义信息,而非仅仅依赖静态的上下文窗口。OmniAgent的提出对多模态人工智能领域具有深远的行业意义与潜在影响。首先,它打破了传统长视频理解模型对计算资源的过度依赖,为在边缘设备或资源受限环境下部署高性能视频理解模型提供了可行的技术路径。其次,其提出的基于POMDP的主动感知框架,为后续研究提供了新的范式,即从"被动处理"转向"主动探索",这可能启发更多领域如机器人视觉、自动驾驶等场景下的感知系统创新。对于开源社区而言,OmniAgent展示了小参数模型通过先进的训练策略和推理机制超越大参数模型的可能性,激励研究者更加关注算法效率与模型架构的创新,而非单纯追求参数规模的扩张。最后,其持久文本记忆的机制也为多模态数据的长期存储与检索提供了新的思路,有助于构建更高效、更智能的多模态知识库,推动通用人工智能在复杂动态环境中的实际应用落地。

Sources