MAgSeg:利用多模態大模型實現高解析度衛星影像中的農業景觀分割
針對全球南方小農戶農業景觀碎片化嚴重、類內差異大及標註數據稀缺等挑戰,本研究提出了一種名為 MAgSeg 的新型無解碼器多模態大語言模型(MLLM)分割方法。現有 MLLM 在理解衛星特徵時面臨上下文長度瓶頸和領域對齊差距,MAgSeg 透過架構創新,無需輔助視覺解碼器即可直接利用標準 MLLM 進行複雜場景分割。該方法引入了一種新颖的指令微調數據格式,使模型能在生成單一圖像圖塊的文本標記時,學習圖像的全局上下文。在涵蓋全球南方三個國家的數據集上的廣泛評估表明,MAgSeg 顯著優於當前的 SOTA MLLM 基線模型,為映射小農戶農業環境提供了一種可擴展的解決方案。