Astra：以世界模拟器重构具身智能的视觉空间推理范式

针对现有视觉语言模型在复杂空间推理中因依赖单一视角而导致的布局推断困难与跨视图不一致问题，最新研究提出了Astra框架。该创新方案引入"代理式空间推理"概念，由强化学习训练的策略模型Astra-VL与基于Bagel架构的世界模拟器Astra-WM协同工作。Astra-WM能根据自然语言指令生成新颖视角的想象图像，并通过视图一致性调优确保几何语义连贯。实验显示，Astra在MMSI-Bench和MindCube等基准测试中显著提升了性能，证明了可控的视觉想象能力能有效弥补静态观测的局限，为具身智能在未知环境中的导航与交互提供了新的技术路径。

当前视觉语言模型（VLMs）虽然在图像识别和基础推理方面取得了长足进步，但其空间推理能力依然受限于静态的输入图像和基于文本的思维链。在面对需要构建三维心理地图、推断遮挡区域或从不同视角审视场景的任务时，现有模型往往显得力不从心。它们难以仅凭有限的自我中心视角（egocentric observations）去准确推断未直接观测到的空间布局，更无法保证在多视角切换时的逻辑一致性。针对这一核心痛点，本研究提出了"带着想象思考"（Thinking with Imagination）的全新范式，并构建了Astra框架。Astra不再被动地接受输入，而是赋予VLM主动与环境交互的能力，使其能够在推理过程中调用世界模拟器，生成假设性的视觉证据。这种机制模仿了人类在解决空间难题时会在脑海中旋转物体或模拟行走路径的认知过程，从根本上改变了VLM处理空间信息的方式，使其从单纯的像素识别者转变为具备空间想象力的智能体。 Astra框架的技术实现主要依赖于两个紧密耦合的核心组件：Astra-VL和Astra-WM。Astra-WM是一个基于Bagel架构构建的世界模拟器，其关键创新在于引入了视图一致性调优（view consistency tuning）。这一训练策略专门用于提升生成视图在姿态和内容上的连贯性，确保当模型根据自然语言指令移动"相机"时，生成的新视角图像在几何结构和物体属性上与原始上下文保持高度一致，从而提供可靠的"想象"依据。另一方面，Astra-VL是一个经过强化学习（RL）训练的VLM策略模型。为了稳定工具使用的探索过程并优化计算效率，研究团队设计了一种"世界模拟器内循环"的两阶段RL课程学习策略。第一阶段侧重于让模型学会如何正确调用模拟器，第二阶段则进一步细化决策逻辑，使模型能够判断何时、何地以及是否需要生成想象视图。只有当想象中的观测结果能比直接回答提供更多信息增益时，模型才会触发模拟器，这种条件化的调用机制有效避免了不必要的计算开销，提升了推理的精准度。为了验证Astra框架的有效性，研究团队在多个具有挑战性的空间推理基准上进行了广泛实验，包括MMSI-Bench和MindCube。实验结果有力地证明了世界模拟器与代理策略协同工作的必要性。具体而言，当将Astra-WM应用于Gemini-3-Flash模型时，其在MMSI-Bench上的得分从45.1显著提升至49.5，这表明高质量的想象视图能够直接弥补原始模型在空间感知上的不足。而在端到端的Astra框架测试中，基于Qwen3-VL骨干网络的Astra-VL表现更为惊人，其在MMSI-Bench上的成绩从29.8跃升至38.8，在MindCube上也从36.8提升至42.7。消融实验进一步揭示，单纯增加视觉数据并不足以带来性能提升，关键在于模型是否学会了"如何想象"。只有通过RL训练让模型掌握调用模拟器的时机和方式，才能真正释放出世界模拟器的潜力。这些数据不仅展示了Astra在特定基准上的优势，更证实了动态生成视觉证据对于解决复杂空间推理问题的核心价值。 Astra的提出对计算机视觉和人工智能领域具有深远的行业意义。首先，它为克服VLM在三维空间理解上的固有缺陷提供了一条可行的技术路径，即通过引入可微分或生成式的世界模型来扩展模型的认知边界。这对于机器人导航、自动驾驶以及增强现实（AR）等需要精确空间感知的应用场景至关重要。其次，Astra所采用的"代理+模拟器"架构为开源社区提供了一个新的研究范式，鼓励研究者探索更多形式的内部模拟机制，而不仅仅依赖于外部数据的堆砌。最后，该方法强调了推理过程中"元认知"能力的重要性，即模型需要知道自己在什么时候不知道，并主动寻求信息补充。这种能力是通往更高阶通用人工智能（AGI）的关键一步，未来有望扩展到更复杂的物理推理和社会互动场景中，推动AI从被动感知向主动认知的深刻转变。

Sources

arXiv