Astra:基於世界模擬器的具身視覺空間推理新範式
儘管視覺語言模型在通用視覺理解上表現優異,但在處理複雜空間推理任務時仍面臨挑戰,尤其是僅依賴自我中心視角時難以推斷未觀察到的佈局或保持跨視圖一致性。本文提出Astra,一種創新的代理式空間推理框架,讓模型透過與世界模擬器互動主動獲取想像中的視覺證據。該框架由強化學習訓練的VLM策略Astra-VL和基於Bagel架構的世界模擬器Astra-WM組成,後者能根據上下文圖像和自然語言描述的相機運動生成新穎視角觀測數據,並透過視圖一致性調優確保幾何與語義連貫性。實驗表明Astra顯著提升了MMSI-Bench和MindCube等基準上的表現,證明可控視覺想像能有效增強空間推理能力。