规模无法克服语用学：为什么VLM在海量数据下仍无法掌握空间推理

VLM在空间推理、计数、时间关系和否定判断上表现持续低迷，通常归因于模型或数据规模不够。这篇多模态 AI 研究提出了更根本的原因：报告偏差。人类描述视觉内容时天然省略「显而易见」的信息，导致 AI 训练数据中这四类信息严重不足。

研究团队分析了 OpenCLIP、LLaVA-1.5 和 Molmo 的训练数据，即使规模达到数十亿级，这四类推理信号仍然稀缺。实验进一步证实：扩大模型规模、数据规模、甚至多语言训练都无法让这些能力「涌现」。唯一有效的方法是专门收集包含隐含信息的标注数据。结论明确：训练数据的刻意策展比盲目追求规模更重要。这对所有依赖互联网文本训练的多模态 AI 系统都是重要警示。

视觉语言模型（VLM）为什么在空间推理、计数、时间关系、否定判断上表现这么差？通常的解释是"模型还不够大"或"数据还不够多"。这篇论文提出了一个更根本的原因：**报告偏差**。

什么是报告偏差

人类在描述视觉内容时，会自动省略"显而易见"的信息。拍一张体育场照片，我们会发"今天看比赛！"而不是"37个人站在绿色草坪后面的看台上"。这种省略是语言的基本特征，但对 VLM 训练来说是致命的——模型永远学不到没被标注的东西。

数据分析

研究团队分析了 OpenCLIP、LLaVA-1.5 和 Molmo 的训练数据，发现：

**空间关系**（上下左右）：在标注中出现频率极低
**计数信息**：精确数字几乎从不出现
**时间关系**（之前/之后）：严重不足
**否定表达**：几乎不存在

即使数据规模达到数十亿级、使用合成数据生成，这四类信息仍然稀缺。

关键实验发现

1. VLM 在这四类推理上确实表现差，而且差得很稳定

2. **扩大模型规模没用** — 从小到大，这些能力不会"涌现"

3. **扩大数据规模没用** — web-scale 数据中这类信息本身就稀缺

4. **多语言也没用** — 报告偏差是跨语言的普遍现象

5. **专门收集标注有效** — 当刻意标注空间/计数信息时，模型表现显著提升

启示

不要指望 scale 解决一切。VLM 的下一步突破可能不在更大的模型或更多的数据，而在更聪明的数据策展方法。

多模态 AI 的警示

这篇论文对整个多模态 AI（multimodal AI）领域都有警示意义。当前多模态大模型的训练数据（AI training data）主要来自互联网图文对，而报告偏差是互联网内容的固有特征。这意味着仅仅扩大网络爬取规模无法解决问题——需要专门设计的数据采集策略。对于正在开发视觉语言模型的团队，这是必须考虑的 AI 训练数据质量问题。

深度分析与行业展望

从更宏观的视角来看，这一发展体现了AI技术从实验室走向产业化应用的加速趋势。行业分析师普遍认为，2026年将是AI商业化的关键转折年。在技术层面，大模型的推理效率持续提升，部署成本不断下降，使得更多中小企业能够接入先进的AI能力。在市场层面，企业对AI投资的回报预期正在从长期战略转向短期可量化收益。

然而，AI的快速普及也带来了新的挑战：数据隐私保护的复杂化、AI决策透明度的需求增加、以及跨境AI治理协调的困难。多国监管机构正在密切关注相关动态，试图在促进创新与防范风险之间寻找平衡。对于投资者而言，识别真正具有可持续竞争优势的AI企业变得越来越重要。

从产业链角度分析，上游基础设施层正在经历整合与重构，头部企业通过垂直整合不断扩大竞争壁垒。中游平台层的开源生态日益繁荣，降低了AI应用的开发门槛。下游应用层则呈现百花齐放的态势，金融、医疗、教育、制造等传统行业的AI渗透率正在加速提升。

此外，人才竞争已成为AI产业发展的关键瓶颈。全球顶尖AI研究人员的争夺战日趋激烈，各国政府纷纷出台吸引AI人才的优惠政策。产学研协同创新模式正在全球范围内推广，有望加速AI技术的产业化转化。