像人一樣看視頻:基於MLLM的觀看、記憶與推理新範式
隨著多模態大型語言模型(MLLMs)的快速發展,影片理解正從短片段處理邁向長時序、多模態及知識密集型場景。本文提出了一種「人類視角」的影片理解新範式,將複雜任務解構為「觀看(Watch)」、「記憶(Remember)」和「推理(Reason)」三大核心能力。該框架不僅統一了影片MLLM獲取證據、保持上下文及生成具依據輸出的過程,還系統性梳理了時空感知、高效長影片處理、記憶建模及串流理解等關鍵挑戰。文章詳細分類了細粒度感知、視聽對齊、離線與串流記憶機制以及文字與影片協同推理等方法,並涵蓋了第一人稱、體育、醫療等應用領域及相關數據集與基準測試,為建構可擴展、具備記憶意識且基於證據的影片智慧系統指明瞭未來方向。