EAGLE-360:基於全局先驗的360度全景主動探索與視覺搜尋框架
針對多模態大語言模型在360度全景環境中主動視覺搜尋面臨的極座標畸變建模困難及局部搜尋效率低下問題,本文提出EAGLE-360框架。該方法利用全局先驗建立整體視角,透過迭代推理逐步縮小搜尋空間,避免了對碎片化局部視角的依賴。技術上,透過適配RoPE Rolling位置編碼機制以無縫處理全景圖的連續圓柱拓撲結構,並結合監督微調與組相對策略優化訓練管線,激發模型的空間推理與工具呼叫能力。此外,構建了包含1.4萬張4K全景圖和7萬輪高品質VQA對話的大規模數據集。實驗表明,EAGLE-360在360度視覺搜尋任務上達到最新水準,目標檢測準確率較基線模型提升近8倍,顯著增強了探索效率與錯誤恢復能力,為具身智能在複雜全景環境中的感知決策提供了新範式。