Skill-3D：透過場景感知技能進化提升3D空間推理能力

本文針對多模態大型語言模型（MLLM）在3D空間推理中存在的工具誤用及偏好偏差問題，提出了Skill-3D框架。現有方法往往對所有場景採用統一的工具使用策略，忽略了任務場景的異質性，導致智能體性能提升有限。Skill-3D透過建構「場景記憶」記錄智能體的工具使用軌跡，將相似場景中的成功軌跡蒸餾為可複用的場景感知技能，並將失敗案例作為教訓附加其中。在訓練過程中，當類似場景重現時，系統注入相應技能以引導智能體，形成記憶與技能庫協同進化的閉環。實驗表明，該方法顯著優化了工具利用率，在VSI-Bench上從39%提升至78%，並在MMSI-Bench上使Gemini-3-Flash性能提升67%。此外，基於技能引導軌跡的智能體後訓練使Qwen3-VL-8B在VSI-Bench上的表現提升了43%，證明了該框架在增強3D空間理解方面的有效性。

随着多模态大语言模型在视觉任务中的广泛应用，如何使其具备真正的3D空间理解能力成为研究热点。然而，现有的智能体方法在处理3D空间推理任务时，普遍存在工具使用不当和严重的工具偏好偏差问题。尽管引入了智能体范式，但其相对于非智能体策略的性能增益微乎其微。深入分析发现，3D空间推理任务具有高度的场景异质性，不同场景对工具的需求截然不同，而现有方法却僵化地对所有场景应用统一的工具使用策略，未能根据具体场景和任务动态选择最合适的工具。为了解这一核心痛点，本文提出了Skill-3D框架，旨在让智能体学会自我进化的场景感知技能。该框架的核心贡献在于打破了单一策略的限制，通过识别任务场景并记录智能体的工具使用轨迹，建立了一个动态更新的场景记忆系统，从而实现了从"通用策略"到"场景专属技能"的范式转变，为提升MLLM在复杂3D环境中的推理能力提供了新的思路。在技术实现层面，Skill-3D构建了一套精密的自我进化机制。具体而言，系统首先识别当前任务所属的场景类型，并将智能体在执行过程中的工具使用轨迹完整记录到"场景记忆"中。随后，算法会对这些轨迹进行聚合与蒸馏：来自相似场景的成功轨迹被提炼为可复用的"场景感知技能"，而失败的轨迹则作为宝贵的"教训"附加在该技能之上，形成正反两方面的经验储备。在后续的训练阶段，一旦遇到相似场景，系统便会自动注入对应的场景感知技能，以此引导智能体生成新的执行轨迹。这些新轨迹无论成功与否，都会再次反馈至记忆系统中，进一步 refine 既有技能。这种设计构建了一个记忆库与技能库协同进化的闭环 loop，使得智能体能够在不断的交互中积累经验，逐步掌握针对特定3D场景的最优工具组合与推理路径，从而有效克服了传统方法中工具选择的盲目性与僵化性。为了验证Skill-3D的有效性，研究团队在多个权威基准上进行了详尽的实验评估。实验结果令人瞩目，Skill-3D显著改善了智能体在3D空间推理中的工具利用效率。在VSI-Bench基准测试中，工具利用率从基线的39%大幅跃升至78%，这一数据有力地证明了该框架能够驱动智能体进行更正确、更充分的工具使用。此外，在MMSI-Bench上，该方法使Gemini-3-Flash模型的性能提升了67%，展现了极强的泛化能力与兼容性。更值得注意的是，研究人员还进行了基于技能引导轨迹的智能体后训练（agentic post-training）。实验显示，经过这种针对性训练，Qwen3-VL-8B模型在VSI-Bench上的表现进一步提升了43%。消融实验也证实，场景记忆的引入以及成功与失败轨迹的共同作用，是性能提升的关键因素，缺一不可。这些数据充分表明，Skill-3D不仅提升了单次推理的准确率，更通过持续学习增强了模型的长期适应能力。 Skill-3D的提出对开源社区及工业界落地具有深远意义。首先，它揭示了在3D空间推理中"场景感知"的重要性，为后续研究提供了新的视角，即不再单纯依赖模型规模的扩大，而是通过优化智能体的交互策略与记忆机制来提升性能。其次，该框架生成的场景感知技能具有高度的可复用性，这意味着在工业应用中，可以针对特定的3D应用场景（如机器人导航、虚拟现实交互等）快速定制高效的智能体策略，降低部署成本。最后，通过将失败案例转化为教训并纳入技能库，Skill-3D提供了一种高效的数据利用方式，减少了对大规模标注数据的依赖。这种自我进化的范式有望推动多模态大语言模型从简单的视觉识别向更深层次的逻辑推理与空间认知迈进，为构建真正具备自主决策能力的3D智能体奠定了坚实基础。

Sources

arXiv