Skill-3D:透過場景感知技能進化提升3D空間推理能力
本文針對多模態大型語言模型(MLLM)在3D空間推理中存在的工具誤用及偏好偏差問題,提出了Skill-3D框架。現有方法往往對所有場景採用統一的工具使用策略,忽略了任務場景的異質性,導致智能體性能提升有限。Skill-3D透過建構「場景記憶」記錄智能體的工具使用軌跡,將相似場景中的成功軌跡蒸餾為可複用的場景感知技能,並將失敗案例作為教訓附加其中。在訓練過程中,當類似場景重現時,系統注入相應技能以引導智能體,形成記憶與技能庫協同進化的閉環。實驗表明,該方法顯著優化了工具利用率,在VSI-Bench上從39%提升至78%,並在MMSI-Bench上使Gemini-3-Flash性能提升67%。此外,基於技能引導軌跡的智能體後訓練使Qwen3-VL-8B在VSI-Bench上的表現提升了43%,證明了該框架在增強3D空間理解方面的有效性。