OmniAgent:基於原生主動感知與推理的通用多模態理解代理

針對長視頻理解中被動模型計算成本隨時間線性增長以及現有交互框架仍依賴全局預掃描的局限,本文提出了OmniAgent,首個基於部分可觀測馬可夫決策過程(POMDP)的原生通用多模態代理。該模型將視頻理解重构為迭代式的「觀察-思考-行動」循環,通過按需執行動作選擇性提取視聽線索並存儲至持久文本記憶,從而將推理複雜度與視頻原始時長解耦。在訓練策略上,創新性地引入了代理監督微調(Agentic SFT)和帶有TAURA機制的代理強化學習,利用回合級熵值優化信用分配。實驗顯示,OmniAgent在十個基準測試中達到開源模型最先進水平,且在LVBench上以7B參數量超越參數量大10倍的Qwen2.5-VL-72B,展現出顯著的正向測試時擴展效應。

Sources