Skill-3D：打破3D空间推理瓶颈，以场景感知技能进化重塑多模态智能体

针对多模态大语言模型在3D空间推理中普遍存在的工具误用与偏好偏差难题，最新研究提出了Skill-3D框架。该框架摒弃了传统方法中"一刀切"的工具使用策略，转而构建"场景记忆"系统，通过记录智能体的交互轨迹，将相似场景下的成功经验蒸馏为可复用的场景感知技能，并将失败案例转化为避坑指南。这种记忆与技能库协同进化的闭环机制，显著提升了模型对复杂3D环境的理解能力。实验数据显示，Skill-3D使VSI-Bench基准测试性能从39%跃升至78%，并助力Gemini-3-Flash在MMSI-Bench上实现67%的性能增长，证明了其在增强3D空间智能方面的巨大潜力。

随着多模态大语言模型在视觉任务中的广泛应用，如何使其具备真正的3D空间理解能力成为研究热点。然而，现有的智能体方法在处理3D空间推理任务时，普遍存在工具使用不当和严重的工具偏好偏差问题。尽管引入了智能体范式，但其相对于非智能体策略的性能增益微乎其微。深入分析发现，3D空间推理任务具有高度的场景异质性，不同场景对工具的需求截然不同，而现有方法却僵化地对所有场景应用统一的工具使用策略，未能根据具体场景和任务动态选择最合适的工具。为了解这一核心痛点，本文提出了Skill-3D框架，旨在让智能体学会自我进化的场景感知技能。该框架的核心贡献在于打破了单一策略的限制，通过识别任务场景并记录智能体的工具使用轨迹，建立了一个动态更新的场景记忆系统，从而实现了从"通用策略"到"场景专属技能"的范式转变，为提升MLLM在复杂3D环境中的推理能力提供了新的思路。在技术实现层面，Skill-3D构建了一套精密的自我进化机制。具体而言，系统首先识别当前任务所属的场景类型，并将智能体在执行过程中的工具使用轨迹完整记录到"场景记忆"中。随后，算法会对这些轨迹进行聚合与蒸馏：来自相似场景的成功轨迹被提炼为可复用的"场景感知技能"，而失败的轨迹则作为宝贵的"教训"附加在该技能之上，形成正反两方面的经验储备。在后续的训练阶段，一旦遇到相似场景，系统便会自动注入对应的场景感知技能，以此引导智能体生成新的执行轨迹。这些新轨迹无论成功与否，都会再次反馈至记忆系统中，进一步 refine 既有技能。这种设计构建了一个记忆库与技能库协同进化的闭环 loop，使得智能体能够在不断的交互中积累经验，逐步掌握针对特定3D场景的最优工具组合与推理路径，从而有效克服了传统方法中工具选择的盲目性与僵化性。为了验证Skill-3D的有效性，研究团队在多个权威基准上进行了详尽的实验评估。实验结果令人瞩目，Skill-3D显著改善了智能体在3D空间推理中的工具利用效率。在VSI-Bench基准测试中，工具利用率从基线的39%大幅跃升至78%，这一数据有力地证明了该框架能够驱动智能体进行更正确、更充分的工具使用。此外，在MMSI-Bench上，该方法使Gemini-3-Flash模型的性能提升了67%，展现了极强的泛化能力与兼容性。更值得注意的是，研究人员还进行了基于技能引导轨迹的智能体后训练（agentic post-training）。实验显示，经过这种针对性训练，Qwen3-VL-8B模型在VSI-Bench上的表现进一步提升了43%。消融实验也证实，场景记忆的引入以及成功与失败轨迹的共同作用，是性能提升的关键因素，缺一不可。这些数据充分表明，Skill-3D不仅提升了单次推理的准确率，更通过持续学习增强了模型的长期适应能力。 Skill-3D的提出对开源社区及工业界落地具有深远意义。首先，它揭示了在3D空间推理中"场景感知"的重要性，为后续研究提供了新的视角，即不再单纯依赖模型规模的扩大，而是通过优化智能体的交互策略与记忆机制来提升性能。其次，该框架生成的场景感知技能具有高度的可复用性，这意味着在工业应用中，可以针对特定的3D应用场景（如机器人导航、虚拟现实交互等）快速定制高效的智能体策略，降低部署成本。最后，通过将失败案例转化为教训并纳入技能库，Skill-3D提供了一种高效的数据利用方式，减少了对大规模标注数据的依赖。这种自我进化的范式有望推动多模态大语言模型从简单的视觉识别向更深层次的逻辑推理与空间认知迈进，为构建真正具备自主决策能力的3D智能体奠定了坚实基础。

Sources

arXiv