S-Agent:以时空证据累积重构视觉语言模型的空间推理能力

针对现有视觉语言模型在处理动态三维世界时存在的静态与无状态局限,研究提出S-Agent新范式。该框架将空间推理重构为时空证据累积过程,通过语义规划器与分层空间工具,将2D对象转化为3D几何证据并聚合为高层知识。引入场景与智能体记忆机制整合跨帧信息,无需训练即可显著提升各类VLM性能。基于其生成的S-300K轨迹微调出的S-Agent-8B小模型,在小型模型中大幅超越基线,性能媲美GPT-5.4等先进闭源模型,为具身智能与3D理解开辟新路径。

现实世界中的空间智能要求模型能够对连续且不断演变的三维世界进行推理,然而现有的视觉语言模型(VLMs)以及增强型智能体大多仍局限于从孤立的视觉观察中进行静态、无状态的推断。针对这一核心痛点,本研究引入了S-Agent,这是一种专为理解连续多视图图像和视频而设计的空间工具使用智能体范式。S-Agent的核心贡献在于其范式转变:它将空间推理形式化为时空证据累积,而非传统的孤立帧级预测。这种转变使得空间感知超越了以帧为中心的识别,转向以场景为中心的理解。在这一框架下,VLM被重新定义为语义规划器,负责决定需要收集哪些证据;同时,通过分层空间工具和专家系统,模型能够将对象锚定在2D平面,将其提升为3D几何证据,并最终聚合为高层空间知识,如计数、测量、方向和相对位置。此外,该架构还引入了时间记忆机制,包括用于维护演变场景状态的场景记忆和用于累积推理上下文的智能体记忆,从而实现了跨帧和推理步骤的证据整合,显著提升了模型对复杂动态场景的推理能力。

在技术方法层面,S-Agent构建了一个高度模块化的推理闭环。首先,VLM作为顶层控制器,根据当前任务动态生成规划指令,决定下一步需要观察的场景区域或视角。随后,这些指令被传递给一系列专门设计的空间工具。这些工具不仅包括基础的2D目标检测与分割模块,还集成了3D几何重建专家,能够将2D观测数据映射到统一的3D坐标系中。这一过程并非简单的堆叠,而是通过证据聚合模块,将不同时间步、不同视角的几何信息融合,形成连贯的3D场景表示。为了处理连续视频流中的动态变化,S-Agent设计了双轨记忆系统:场景记忆(Scene Memory)负责实时更新和存储当前场景的3D结构状态,确保对物体位置变化的追踪;智能体记忆(Agent Memory)则记录推理过程中的历史决策与中间结果,为后续步骤提供上下文支持。

这种设计使得模型能够在推理过程中不断修正和细化对场景的理解,避免了因单帧信息缺失或噪声导致的错误推断,从而在复杂的长程依赖任务中展现出更强的鲁棒性。实验部分在多个多视图和视频空间推理基准上进行了全面评估。结果表明,S-Agent能够在无需任何额外训练的情况下,作为一种即插即用的推理增强模块,显著提升包括开源和闭源在内的多种VLMs的空间推理性能。在关键指标上,S-Agent在空间定位、相对关系判断及动态场景理解等任务中均取得了显著增益。消融实验进一步验证了各组件的有效性:移除场景记忆会导致模型在处理长视频时性能大幅下降,证明了对演变状态追踪的重要性;而移除智能体记忆则影响了多步推理的连贯性。此外,研究还探索了基于S-Agent生成数据的监督微调(SFT)路径。

利用S-Agent生成的包含高质量空间推理轨迹的S-300K数据集,训练得到的小型模型S-Agent-8B,在参数量相近的情况下,显著超越了Qwen3-VL-8B等同类基线模型。更令人瞩目的是,S-Agent-8B的性能甚至与GPT-5.4和Gemini 3等先进的闭源大模型相当,证明了该方法在提升模型空间智能方面的巨大潜力和高效性。S-Agent的提出对开源社区和工业落地具有深远意义。首先,它提供了一种无需重新训练基础模型即可提升空间智能的通用框架,降低了开发者和研究者部署高级空间推理能力的门槛。其次,S-Agent生成的S-300K数据集和推理轨迹为后续研究提供了宝贵的资源,有助于推动空间智能领域的数据驱动发展。在工业应用方面,该范式可广泛应用于自动驾驶、机器人导航、增强现实(AR)及虚拟现实(VR)等领域,帮助系统更准确地理解复杂动态环境。此外,S-Agent-8B在小型模型上实现的卓越性能,表明空间智能的进步不再完全依赖超大参数模型,这为在资源受限的边缘设备上部署高精度空间推理应用提供了可行路径,有望加速空间智能技术从实验室走向实际场景的进程。

Sources