OmniAgent ist der erste universelle multimodale Agent auf POMDP-Basis, der Video-Verständnis als iterative "Beobachten-Denken-Handeln"-Schleife neu definiert. Er extrahiert aktiv Schlüsselhinweise und speichert sie in einem persistenten Textgedächtnis, wodurch die推理komplexität von der Rohvideodauer entkoppelt wird.

Warum ist OmniAgent wichtig?

Mit nur 7 Milliarden Parametern erreicht er 50,5 % auf LVBench und übertrifft Qwen2.5-VL-72B (47,3 %). Dies zeigt, dass algorithmische Innovation durch aktive Wahrnehmung die massive Parameterskalierung übertreffen kann.

Was sollten wir beobachten?

Der positive Testzeit-Skalierungseffekt bedeutet, dass mehr Inferenrrunden tiefere Semantik erschließen. Dies ermöglicht Edge-Geräte-Deployments und könnte Wahrnehmungssysteme in Robotik und autonomem Fahren inspirieren.

OmniAgent: Ein universeller multimodaler Agent mit nativer aktiver Wahrnehmung und Schlussfolgerung

Um den Nachteil passiver Modelle zu überwinden, deren Rechenkosten linear mit der Videolänge skalieren, und die Abhängigkeit bestehender interaktiver Frameworks von globaler Vorscannung, stellt diese Arbeit OmniAgent vor — den ersten nativen universellen multimodalen Agenten auf Basis partiell beobachtbarer Markutscher Entscheidungsprozesse (POMDP). OmniAgent reformuliert das Video-Verständnis als iterative "Beobachten-Denken-Handeln"-Schleife, extrahiert selektiv audiovisuelle Hinweise durch bedarfsgesteuerte Aktionen und speichert diese in einem persistenten Textgedächtnis, wodurch die推理komplexität von der Rohvideodauer entkoppelt wird. Für das Training führen wir agentenbasiertes beaufsichtigtes Feinabstimmen (Agentic SFT) sowie agentenbasiertes Bestärkungslernen mit TAURA-Mechanismus ein, das Entropie auf Episoden-Ebene für die Credit-Zuweisung nutzt. Experimente zeigen, dass OmniAgent in zehn Benchmarks den Stand der Offenquelloperation erreicht und Qwen2.5-VL-72B (10× größere Parameteranzahl) auf LVBench mit nur 7 Milliarden Parametern übertrifft, was eine starke positive Skalierung zur Testzeit demonstriert.

Hintergrund

Die Analyse langer Videosequenzen steht seit Jahren vor einem fundamentalen strukturellen Problem: Die Rechenkosten herkömmlicher passiver Multimodalmodelle skalieren linear mit der Dauer des Videos. In diesem traditionellen Paradigma verarbeitet das System jeden einzelnen Frame uniform, unabhängig davon, ob die Inhalte für die spezifische Anfrage relevant sind oder nicht. Diese ineffiziente "Receive-All"-Strategie führt dazu, dass die Komplexität der Inferenz direkt von der Rohlänge des Mediums abhängt, was die部署 von hochpräziser Analyse in Echtzeit-Szenarien stark einschränkt. Selbst neuere interaktive Frameworks, die versuchen, durch aktive Nutzer- oder Modellinteraktion Effizienz zu gewinnen, scheitern oft daran, dass sie weiterhin auf eine globale Vorschau des gesamten Inhalts angewiesen sind. Dadurch bleibt der Kontextfensterbedarf proportional zur Videolänge, und der Zielkonflikt zwischen analytischer Präzision und operativer Effizienz bleibt ungelöst.

Um diese Engpässe zu überwinden, wurde OmniAgent entwickelt, ein neuartiger Rahmen, der das Video-Verständnis aus der Perspektive eines nativen universellen multimodalen Agenten neu definiert. OmniAgent ist das erste System, das das Video-Verständnis formal als einen partiell beobachtbaren Markov-Entscheidungsprozess (POMDP) formuliert. Dieser theoretische Paradigmenwechsel verschiebt den Fokus weg von der passiven Datenkonsumtion hin zu einer aktiven kognitiven Simulation. Durch die Adoption einer iterativen Schleife aus "Beobachten-Denken-Handeln" imitiert OmniAgent menschliche Wahrnehmungsstrategien und ermöglicht es dem Modell, den Videoinhalt bedarfsgesteuert und proaktiv zu erkunden. Diese Architekturinnovation entkoppelt die Komplexität der Schlussfolgerung von der rohen Videodauer und ermöglicht so eine effiziente tiefe Analyse auch unter restriktiven Rechenbedingungen.

Tiefenanalyse

Die technische Wirksamkeit von OmniAgent wird durch ein ausgeklügeltes Trainingsregime untermauert, das darauf ausgelegt ist, aktive Wahrnehmungsfähigkeiten von Grund auf zu etablieren. Ein Kernstück dieser Methodik ist das Agentic Supervised Fine-Tuning (Agentic SFT). Dieses Verfahren nutzt die Synthese optimaler Trajektorien (best-of-N trajectory synthesis) in Kombination mit einem rigorosen Zwei-Stufen-Qualitätskontrollprozess. Durch das Training auf optimierten Pfaden statt auf rohen, unkontrollierten Videostreams lernt das Modell, die Informationsdichte über die zeitliche Vollständigkeit zu stellen. Es erhält hochwertige Lernsignale, die es befähigen, die subtilen Fähigkeiten zur proaktiven Exploration zu erwerben, ohne auf vorbestehende globale Kontexte angewiesen zu sein.

Zur weiteren Optimierung der Entscheidungsfindung des Agenten wurde das Agentic Reinforcement Learning eingeführt, das mit dem TAURA-Mechanismus (Turn-aware Adaptive Uncertainty Rescaled Advantage) integriert ist. TAURA stellt einen bedeutenden Fortschritt bei der Credit-Zuweisung in langfristigen Aufgaben dar. Indem die Entropie auf Episoden-Ebene genutzt wird, um die Unsicherheit des Modells bei jedem Interaktionsschritt zu quantifizieren, lenkt TAURA Belohnungen präzise auf sogenannte "pivotal discovery turns" – Momente, in denen der Agent Schlüsselinformationen erfolgreich identifiziert und extrahiert. Diese feinkörnige Belohnungsstruktur stellt sicher, dass das Modell Aktionen verstärkt, die tatsächlich zum Verständnis der Video-Narrative beitragen, anstatt lediglich die Anzahl der Inferenzschritte zu erhöhen. Dies erlaubt es OmniAgent, den Aufmerksamkeitsfokus dynamisch anzupassen und hochinformative Textrepräsentationen selektiv zu verdichten, während redundante Daten ignoriert werden.

Branchenwirkung

Die Implikationen von OmniAgent gehen weit über reine Leistungsmetriken hinaus und bieten ein neues Paradigma für ressourcenbeschränkte multimodale Anwendungen. Indem gezeigt wird, dass aktive Wahrnehmung die Schlussfolgerungskomplexität von der Videolänge entkoppeln kann, eröffnet der Rahmen einen gangbaren Weg für die Bereitstellung leistungsstarker Videoanalyse auf Edge-Geräten oder in Umgebungen mit begrenzter Bandbreite. Diese Effizienzgewinne sind insbesondere für Branchen wie Überwachung, Archivierung und Echtzeit-Broadcast-Monitoring kritisch, wo die Verarbeitung von Stunden an Filmmaterial in nahezu Echtzeit unerlässlich ist. Der Wandel von der passiven Verarbeitung zur aktiven Exploration deutet darauf hin, dass zukünftige multimodale Systeme nicht linear mit dem Datenvolumen skalieren müssen, was potenziell den CO2-Fußabdruck und die Hardwarekosten bei der großflächigen Videoanalyse reduziert.

Darüber hinaus herausfordert OmniAgents Erfolg die vorherrschende Branchendogma, dass größere Parameteranzahlen automatisch mit überlegenem Verständnis gleichzusetzen sind. Die Fähigkeit des Modells, deutlich größere Architekturen zu übertreffen, unterstreicht die Bedeutung algorithmischer Effizienz und Trainingsmethodik gegenüber roher Skalierung. Diese Erkenntnis dürfte das Forschungsinteresse an agentic Frameworks und speichererweiterten Architekturen in der breiteren KI-Community stimulieren. Sie ermutigt Entwickler, sich darauf zu konzentrieren, wie Modelle dynamisch mit Daten interagieren, statt darauf, wie viel Daten sie statisch aufnehmen können. Der Mechanismus des persistenten Textgedächtnisses eröffnet zudem neue Wege für den Aufbau effizienter, durchsuchbarer multimodaler Wissensdatenbanken, in denen lange Videos in prägnante, semantisch reiche Zusammenfassungen komprimiert werden können, ohne kritische Fakten zu verlieren.

Ausblick

Empirische Bewertungen bestätigen OmniAgent als eine State-of-the-Art-Lösung für offenes multimodales Verständnis. Getestet über zehn verschiedene Benchmarks hinweg, darunter VideoMME und das anspruchsvolle LVBench, lieferte OmniAgent konsistent Leistungen an der Spitze. Besonders bemerkenswert ist das Ergebnis auf LVBench, wo das 7-Milliarden-Parameter-Modell OmniAgent mit 50,5 % signifikant die 47,3 % des Qwen2.5-VL-72B übertraf, eines Modells mit zehnfach höherer Parameteranzahl. Dieses Ergebnis validiert nicht nur die Wirksamkeit des POMDP-basierten aktiven Wahrnehmungsrahmens, sondern demonstriert auch einen starken positiven Test-Time-Scaling-Effekt. Mit zunehmender Anzahl der Inferenzrunden verbessert sich die Leistung von OmniAgent weiter, was darauf hindeutet, dass der Agent zusätzliche Explorationsschritte nutzen kann, um tiefere semantische Schichten im Videoinhalt aufzudecken.

In Zukunft wird die Integration von TAURA und Agentic SFT einen neuen Standard für das Training autonomer Agenten in komplexen, dynamischen Umgebungen setzen. Die Fähigkeit, Unsicherheit und Credit-Zuweisung adaptiv zu verwalten, wird wahrscheinlich die Entwicklung von Agenten in anderen Domänen beeinflussen, die sequenzielle Entscheidungsfindung erfordern, wie etwa Robotermanipulation oder autonomes Fahren. Während die Community diese Mechanismen weiter verfeinert, ist mit einer Verbreitung kleinerer, effizienterer Modelle zu rechnen, die durch aktives reasoning menschliche oder sogar übermenschliche Leistungen erbringen, anstatt auf brute-force computation zu vertrauen. OmniAgent markiert damit einen entscheidenden Schritt in Richtung einer Zukunft, in der intelligente, selektive Aufmerksamkeit wertvoller ist als der umfassende, passive Datenkonsum.

Sources

arXiv