MAgSeg：利用多模態大語言模型實現高解析度衛星影像中的農業景觀分割

針對全球南方農業景觀分割中圖塊破碎、類內方差高及標註數據稀缺等挑戰，本文提出MAgSeg——一種無需解碼器的新型多模態大語言模型（MLLM）分割方法。現有MLLM在理解衛星特徵時面臨上下文長度瓶頸和領域對齊差距，MAgSeg通過架構創新使標準MLLM無需輔助視覺解碼器即可直接輸出複雜小農農業景觀的分割結果。該方法引入了一種新颖的指令微調數據格式，使模型在生成圖像局部圖塊文字標記時同步學習全局上下文。在涵蓋三個全球南方國家的數據集上的評估表明，MAgSeg顯著優於當前最先進的MLLM基線，為映射小農農業環境提供了可擴展方案。