S-Agent:突破静态视觉局限,以空间工具链重构3D连续世界推理范式

针对现有视觉语言模型(VLM)在处理静态、孤立图像时缺乏状态感知的根本缺陷,研究提出S-Agent智能体范式。该方法将空间推理重新定义为时空证据累积过程,通过分层空间工具链实现从2D定位到3D几何证据提升的层级跃迁,并引入场景与智能体双重记忆机制以支持跨帧持续更新。实验显示,S-Agent无需额外训练即可显著提升各类VLM的空间推理能力;基于其生成的S-300K轨迹数据微调出的S-Agent-8B模型,在多项基准测试中超越同规模开源基线,性能媲美GPT-5.4等顶尖闭源模型,确立了空间工具使用在通用人工智能中的核心地位。

现实世界中的空间智能要求模型能够对连续演化的三维世界进行推理,然而现有的视觉语言模型以及工具增强型智能体大多仍局限于从孤立的视觉观察中进行静态、无状态的推理。这种局限性使得它们难以处理动态且复杂的真实场景。针对这一核心痛点,本研究引入了S-Agent,这是一种专为理解连续多视角图像和视频而设计的空间工具使用智能体范式。S-Agent的核心贡献在于重新定义了空间推理的本质,将其从传统的孤立帧级预测转化为时空证据的累积过程。通过这种范式转变,S-Agent打破了以帧为中心的识别局限,实现了以场景为中心的深度理解。它不再仅仅关注单帧图像中的物体识别,而是致力于构建一个连贯的、随时间演化的空间认知框架,从而为机器提供更接近人类的空间感知能力。这一创新不仅提升了模型对复杂空间关系的理解深度,也为后续的多模态推理任务奠定了坚实的理论基础。

在技术方法层面,S-Agent构建了一个高度模块化的智能体架构。具体而言,它将视觉语言模型(VLM)定位为语义规划器,负责根据当前任务需求决策需要收集哪些证据。为了将这些语义决策转化为具体的空间感知,S-Agent设计了一个分层的空间工具与专家系统。这一系统首先在地面2D层面精确定位物体,随后利用几何投影关系将这些2D信息提升为3D几何证据。接着,系统将这些低层几何证据聚合为高层空间知识,包括计数、测量、方向判断以及相对位置关系等。为了处理视频或连续多视角数据中的时间维度,S-Agent引入了双重记忆机制:场景记忆(Scene Memory)用于维护不断演化的场景状态,确保模型对当前环境有持续且一致的理解;智能体记忆(Agent Memory)则用于累积推理过程中的上下文信息,支持跨帧和跨推理步骤的证据整合。这种设计使得模型能够在长序列数据中保持逻辑的一致性,有效避免了信息丢失或矛盾。

实验设置涵盖了多个多视角和视频空间推理基准测试,以全面评估S-Agent的性能。结果表明,S-Agent能够以无训练(training-free)的方式显著提升开源和闭源视觉语言模型的空间推理能力。在关键指标上,S-Agent在计数、测量和相对位置判断等任务中均取得了显著的性能提升。消融实验进一步揭示了各组件的贡献:移除记忆机制会导致长序列推理能力大幅下降,而移除分层工具模块则削弱了3D几何理解的准确性。此外,研究还探索了基于S-Agent生成数据的监督微调(SFT)策略。通过利用S-Agent生成的空间推理轨迹构建S-300K数据集,研究人员训练出了紧凑型空间智能体S-Agent-8B。该模型在性能上显著超越了同规模的基线模型(如Qwen3-VL-8B),并且在多项基准测试中与GPT-5.4和Gemini 3等先进的闭源模型表现相当。

这一结果证明了S-Agent不仅是一个推理增强框架,更是一个高效的知识蒸馏源。从行业意义与潜在影响来看,S-Agent为开源社区提供了一条提升多模态模型空间智能的有效路径。其无训练推理增强的特性使得开发者可以低成本地提升现有VLM的性能,而无需重新训练庞大的基础模型。S-300K数据集的开源将进一步促进空间智能领域的研究,为后续模型提供高质量的训练数据。在工业落地方面,S-Agent的技术架构适用于机器人导航、自动驾驶、增强现实等需要精确空间理解的场景。其分层工具设计和记忆机制为构建更鲁棒的智能体系统提供了参考。此外,S-Agent-8B在保持较小参数量下达到顶级性能,表明空间智能可以通过高效的推理增强和数据优化来实现,而非单纯依赖模型规模的扩大。这为未来开发轻量级、高能力的空间智能应用指明了方向,具有重要的学术价值和商业潜力。

Sources