MAgSeg:利用多模態大語言模型實現高解析度衛星影像中的農業景觀分割
針對全球南方農業景觀分割中圖塊破碎、類內方差高及標註數據稀缺等挑戰,本文提出MAgSeg——一種無需解碼器的新型多模態大語言模型(MLLM)分割方法。現有MLLM在理解衛星特徵時面臨上下文長度瓶頸和領域對齊差距,MAgSeg通過架構創新使標準MLLM無需輔助視覺解碼器即可直接輸出複雜小農農業景觀的分割結果。該方法引入了一種新颖的指令微調數據格式,使模型在生成圖像局部圖塊文字標記時同步學習全局上下文。在涵蓋三個全球南方國家的數據集上的評估表明,MAgSeg顯著優於當前最先進的MLLM基線,為映射小農農業環境提供了可擴展方案。