規模無法克服語用學:為什麼VLM在海量數據下仍無法掌握空間推理
VLM在空間推理、計數、時間關係和否定判斷上表現持續低迷,通常歸因於模型或數據規模不夠。這篇多模態 AI 研究提出了更根本的原因:報告偏差。人類描述視覺內容時天然省略「顯而易見」的信息,導致 AI 訓練數據中這四類信息嚴重不足。
研究團隊分析了 OpenCLIP、LLaVA-1.5 和 Molmo 的訓練數據,即使規模達到數十億級,這四類推理信號仍然稀缺。實驗進一步證實:擴大模型規模、數據規模、甚至多語言訓練都無法讓這些能力「湧現」。唯一有效的方法是專門收集包含隱含信息的標註數據。結論明確:訓練數據的刻意策展比盲目追求規模更重要。這對所有依賴互聯網文本訓練的多模態 AI 系統都是重要警示。
視覺語言模型(VLM)爲什麼在空間推理、計數、時間關係、否定判斷上表現這麼差?通常的解釋是"模型還不夠大"或"數據還不夠多"。這篇論文提出了一個更根本的原因:**報告偏差**。
什麼是報告偏差
人類在描述視覺內容時,會自動省略"顯而易見"的信息。拍一張體育場照片,我們會發"今天看比賽!"而不是"37個人站在綠色草坪後面的看臺上"。這種省略是語言的基本特徵,但對 VLM 訓練來說是致命的——模型永遠學不到沒被標註的東西。
數據分析
研究團隊分析了 OpenCLIP、LLaVA-1.5 和 Molmo 的訓練數據,發現:
- **空間關係**(上下左右):在標註中出現頻率極低
- **計數信息**:精確數字幾乎從不出現
- **時間關係**(之前/之後):嚴重不足
- **否定表達**:幾乎不存在
即使數據規模達到數十億級、使用合成數據生成,這四類信息仍然稀缺。
關鍵實驗發現
1. VLM 在這四類推理上確實表現差,而且差得很穩定
2. **擴大模型規模沒用** — 從小到大,這些能力不會"湧現"
3. **擴大數據規模沒用** — web-scale 數據中這類信息本身就稀缺
4. **多語言也沒用** — 報告偏差是跨語言的普遍現象
5. **專門收集標註有效** — 當刻意標註空間/計數信息時,模型表現顯著提升
啓示
不要指望 scale 解決一切。VLM 的下一步突破可能不在更大的模型或更多的數據,而在更聰明的數據策展方法。
多模態 AI 的警示
這篇論文對整個多模態 AI(multimodal AI)領域都有警示意義。當前多模態大模型的訓練數據(AI training data)主要來自互聯網圖文對,而報告偏差是互聯網內容的固有特徵。這意味着僅僅擴大網絡爬取規模無法解決問題——需要專門設計的數據採集策略。對於正在開發視覺語言模型的團隊,這是必須考慮的 AI 訓練數據質量問題。