Mobile-Agent:阿里達摩院開源的強力 GUI 智能體家族

X-PLUG/MobileAgent 是阿里達摩院(DAMO Academy)推出的 GUI 智能體系列研究項目,致力於讓 AI 自主操控手機、PC 等圖形界面設備,無需人工干預即可完成複雜的多步驟任務。從最初的 Mobile-Agent(多模態視覺感知)演進至 Mobile-Agent-v3.5(Multi-platform Fundamental GUI Agents,2026年2月arxiv),該項目持續引領 GUI Agent 的學術與工程前沿,當前 Stars 達 7,779,日增 190 顆。

項目家族涵蓋多個系列:Mobile-Agent-v2 引入多智能體協作導航機制;Mobile-Agent-v3/v3.5 專注於跨平臺基礎 GUI Agent;Mobile-Agent-E 實現自進化式移動助手,能從任務經驗中持續學習;UI-S1 基於半在線強化學習推進 GUI 自動化;PC-Agent 則構建了面向 PC 端複雜任務的層次化多智能體協作框架。技術棧涵蓋多模態大模型(VLM)、強化學習、層次化規劃。

適合從事移動/桌面自動化、RPA 替代方案研究,以及多模態 Agent 工程的開發者與研究者。隨着手機端 AI 應用的普及,Mobile-Agent 系列代表了讓 AI 真正成爲數字手的重要技術方向。

Mobile-Agent:讓 AI 成爲你手機的"數字手"

項目概述

X-PLUG/MobileAgent 是阿里巴巴達摩院推出的 GUI 智能體系列研究項目,目標是讓 AI 能夠像人類一樣自主操控手機、PC 等圖形界面設備,完成複雜的多步驟任務。該項目自 2024 年起持續迭代,現已發展爲覆蓋從手機端到 PC 端的全平臺 GUI Agent 家族,當前 GitHub Stars 達 7,779,日均增長 190 顆。

項目家族譜系

Mobile-Agent v1

最初版本,以多模態視覺感知爲核心,實現對手機屏幕的自主理解與操控(arXiv:2401.16158)。

Mobile-Agent-v2

引入多智能體協作導航機制(arXiv:2406.01014),通過多個 Agent 分工協作提升導航效率。

Mobile-Agent-v3 / v3.5

專注於構建跨平臺基礎 GUI Agent(arXiv:2508.15144),Mobile-Agent-v3.5(arXiv:2602.16855,2026年2月)是當前最新版本。

Mobile-Agent-E

實現自進化式移動助手(arXiv:2501.11733),Agent 從過去的任務執行經驗中持續學習,隨時間自主進化。

UI-S1

基於半在線強化學習推進 GUI 自動化(arXiv:2509.11543),減少對大量標註數據的依賴。

PC-Agent

面向 PC 端複雜任務的層次化多智能體協作框架(arXiv:2502.14282)。

核心技術棧

  • 多模態視覺語言模型(VLM):理解屏幕截圖中的 GUI 元素
  • 層次化規劃:將複雜任務分解爲可執行的原子操作序列
  • 強化學習:從交互反饋中持續優化操控策略
  • 跨平臺 GUI 理解:統一建模 Android、iOS、Windows、Web 等平臺

行業趨勢關聯

Mobile-Agent 的發展軌跡折射出 AI Agent 領域兩大重要趨勢:

1. 從文本到行動:第一代 LLM 只能輸出文本建議,GUI Agent 讓 AI 真正動手執行,大幅拓展 AI 的實際效用邊界

2. RPA 的智能化替代:傳統 RPA 需要硬編碼腳本,Mobile-Agent 代表的 AI-native 方案通過視覺理解實現對任意界面的泛化操控

隨着 Anthropic Claude 的 Computer Use、OpenAI 的 Operator 等產品落地,GUI Agent 賽道已成爲 2025-2026 年 AI 應用落地的核心戰場。Mobile-Agent 系列的持續學術產出與工程實踐,爲這一賽道提供了寶貴的開源基準與技術參考。