規模無法克服語用學：為什麼VLM在海量數據下仍無法掌握空間推理

VLM在空間推理、計數、時間關係和否定判斷上表現持續低迷，通常歸因於模型或數據規模不夠。這篇多模態 AI 研究提出了更根本的原因：報告偏差。人類描述視覺內容時天然省略「顯而易見」的信息，導致 AI 訓練數據中這四類信息嚴重不足。

研究團隊分析了 OpenCLIP、LLaVA-1.5 和 Molmo 的訓練數據，即使規模達到數十億級，這四類推理信號仍然稀缺。實驗進一步證實：擴大模型規模、數據規模、甚至多語言訓練都無法讓這些能力「湧現」。唯一有效的方法是專門收集包含隱含信息的標註數據。結論明確：訓練數據的刻意策展比盲目追求規模更重要。這對所有依賴互聯網文本訓練的多模態 AI 系統都是重要警示。

視覺語言模型（VLM）爲什麼在空間推理、計數、時間關係、否定判斷上表現這麼差？通常的解釋是"模型還不夠大"或"數據還不夠多"。這篇論文提出了一個更根本的原因：**報告偏差**。

什麼是報告偏差

人類在描述視覺內容時，會自動省略"顯而易見"的信息。拍一張體育場照片，我們會發"今天看比賽！"而不是"37個人站在綠色草坪後面的看臺上"。這種省略是語言的基本特徵，但對 VLM 訓練來說是致命的——模型永遠學不到沒被標註的東西。

數據分析

研究團隊分析了 OpenCLIP、LLaVA-1.5 和 Molmo 的訓練數據，發現：

**空間關係**（上下左右）：在標註中出現頻率極低
**計數信息**：精確數字幾乎從不出現
**時間關係**（之前/之後）：嚴重不足
**否定表達**：幾乎不存在

即使數據規模達到數十億級、使用合成數據生成，這四類信息仍然稀缺。

關鍵實驗發現

1. VLM 在這四類推理上確實表現差，而且差得很穩定

2. **擴大模型規模沒用** — 從小到大，這些能力不會"湧現"

3. **擴大數據規模沒用** — web-scale 數據中這類信息本身就稀缺

4. **多語言也沒用** — 報告偏差是跨語言的普遍現象

5. **專門收集標註有效** — 當刻意標註空間/計數信息時，模型表現顯著提升

啓示

不要指望 scale 解決一切。VLM 的下一步突破可能不在更大的模型或更多的數據，而在更聰明的數據策展方法。

多模態 AI 的警示

這篇論文對整個多模態 AI（multimodal AI）領域都有警示意義。當前多模態大模型的訓練數據（AI training data）主要來自互聯網圖文對，而報告偏差是互聯網內容的固有特徵。這意味着僅僅擴大網絡爬取規模無法解決問題——需要專門設計的數據採集策略。對於正在開發視覺語言模型的團隊，這是必須考慮的 AI 訓練數據質量問題。