OmniAgent:ネイティブな能動知覚と推論に基づく汎用マルチモーダル理解エージェント
受動モデルの計算コストが動画長に線形に比例して増加するという課題、および既存のインタラクティブフレームワークがグローバル事前スキャンに依存しているという限界に対処するため、本論文ではPOMDP(部分観測マルコフ意思決定過程)に基づく初のネイティブ汎用マルチモーダルエージェントOmniAgentを提案する。OmniAgentは動画理解を反復型の「観察−思考−行動」ループとして再構築し、オンデマンドで行動を実行して視覚・聴覚の手がかりを選択的に抽出し、永続的なテキストメモリへ格納することで、推論の複雑さを動画の生时长から切り離す。訓練手法としては、エージェント型監督微細調整(Agentic SFT)とTAURAメカニズムを備えたエージェント型強化学習を革新的に導入し、ターンレベルのエントロピーを活用して信用配分を最適化する。実験により、OmniAgentは10件のベンチマークでオープンソースモデルの最先进水平を達成し、LVBenchではパラメータ数が10倍大きいQwen2.5-VL-72Bを7Bパラメータで上回り、顕著な正のテスト時拡張効果を示した。
背景と概要
長尺動画の理解分野において、従来の受動的なマルチモーダルモデルは「全フレーム受信」というパラダイムに囚われていました。これは、クエリの難易度や関連性にかかわらず、モデルが動画の全フレームを均一に処理することを意味し、計算コストが動画の長さに線形比例して増加するという構造的な非効率性を生み出していました。この課題は、数時間に及ぶ動画の分析を必要とする実世界でのデプロイにおいて、大きなボトルネックとなっています。既存のインタラクティブフレームワークも試みられてきましたが、これらは依然として動画全体に対するグローバルな事前スキャンに依存しており、コンテキストウィンドウの要件と処理コストが動画の生时长と切り離せないままでした。
こうした限界を打破するため、本研究ではOmniAgentが提案されました。これは、動画理解を部分観測マルコフ意思決定過程(POMDP)として形式化した、初のネイティブ汎用マルチモーダルエージェントです。OmniAgentは受動的なデータ消費から脱却し、人間の認知過程を模倣する反復型の「観察−思考−行動」ループを採用しています。この機構により、モデルはオンデマンドで行動を実行し、重要な視覚・聴覚の手がかりを選択的に抽出して永続的なテキストメモリへ格納します。その結果、推論の複雑さが動画の原始时长から解耦され、限られた計算リソース下でも長尺動画に対する効率的かつ深い理解が可能となりました。
深掘り分析
OmniAgentの技術的優位性は、能動知覚能力を根底から育むために設計された精密なトレーニング戦略に支えられています。まず導入されたのは、エージェント型監督微細調整(Agentic SFT)です。これは、Best-of-N軌道合成と厳格な2段階品質管理プロセスを組み合わせた手法で、モデルに高忠実度の学習信号を提供します。これにより、モデルは事前のグローバルコンテキストに頼らずとも、能動的な探索に必要な微細なスキルを習得することができます。生データストリームではなく最適化された軌道で訓練されることで、モデルは時間的な完全性よりも情報の密度を優先するよう学習し、視覚・聴覚入力の処理方法を根本的に変えました。
さらに、エージェントの意思決定能力を高めるために、TAURA(Turn-aware Adaptive Uncertainty Rescaled Advantage)メカニズムを備えたエージェント型強化学習が導入されました。TAURAは、ターンレベルのエントロピーを活用して各ステップでのモデルの不確実性を定量化し、信用配分を「重要な発見のターン」へ正確に導きます。これは、エージェントがキー情報を特定・抽出した瞬間を指します。この微細な報酬構造により、モデルは単に推論ステップ数を増やすのではなく、動画のナラティブや技術的詳細の理解に真に貢献する行動を強化します。これにより、OmniAgentは動的に注意の焦点を調整し、冗長なデータセグメントを無視しながら、高情報密度のテキスト表現を選択的に蒸留します。
業界への影響
OmniAgentの提唱は、単なる性能指標の向上を超え、リソース制約のあるマルチモーダルアプリケーションにとって新たなパラダイムを示しています。推論の複雑さを動画の長さから切り離すことを実証した同フレームワークは、エッジデバイスや帯域幅・ストレージが限られた環境において、高性能な動画分析をデプロイするための現実的な技術パスを提供します。これは、監視、アーカイブ検索、リアルタイム放送モニタリングといった業界において、数時間のフッテージをニアリアルタイムで処理する必要がある場面で特に重要です。受動的処理から能動的探索への移行は、将来のマルチモーダルシステムがデータ量に対して線形にスケールする必要がないことを示唆し、大規模動画分析に伴うカーボンフットプリントとハードウェアコストの削減を可能にします。
また、OmniAgentの成功は、パラメータ数の増加が必ずしも優れた理解能力を意味するという業界の常識に挑戦しています。はるかに大きなアーキテクチャを上回る能力は、アルゴリズムの効率性とトレーニング手法が、純粋なスケールよりも重要であることを浮き彫りにしました。この発見は、エージェント型フレームワークやメモリ拡張アーキテクチャへの関心を高め、開発者に静的なデータ摂取量ではなく、データとの動的な相互作用の在り方に注力するよう促します。永続テキストメモリ機構は、長尺動画を重要な事実情報を失うことなく、意味的に豊かで簡潔な要約へと圧縮する、効率的かつ検索可能なマルチモーダル知識ベースの構築にも新機軸をもたらします。
今後の展望
実証的な評価により、OmniAgentがオープンソースのマルチモーダル理解における最先端のソリューションであることが確認されました。VideoMMEや難易度の高いLVBenchを含む10の異なるベンチマークでテストされた結果、OmniAgentは一貫してトップクラスの性能を発揮しました。特筆すべきは、LVBenchにおいて、70億パラメータのOmniAgentが50.5%のスコアを記録し、パラメータ数が10倍多いQwen2.5-VL-72B(47.3%)を大幅に上回った点です。この結果は、POMDPベースの能動知覚フレームワークの有効性を検証するだけでなく、強い正のテスト時拡張効果を示しています。推論ラウンド数が増加するにつれてOmniAgentの性能が向上し続けることは、エージェントが追加の探索ステップを活用して動画コンテンツ内のより深い意味的層を発見できることを示唆しています。
今後、TAURAとAgentic SFTの統合は、複雑で動的な環境における自律型エージェントのトレーニングにおける新たな基準を設定します。不確実性と信用配分を適応的に管理する能力は、ロボット操作や自動運転など、逐次意思決定を必要とする他の領域のエージェント開発に影響を与えるでしょう。コミュニティがこれらのメカニズムを洗練させていくにつれ、 brute-forceな計算ではなく能動的推論を通じて人間レベル、あるいはそれ以上の性能を達成する、より小型で効率的なモデルの普及が見込まれます。OmniAgentは、包括的な受動的データ摂取よりも、知的かつ選択的な注意の方が価値があることを証明し、この未来への重要な一歩となっています。