Mobile-Agent：阿里達摩院開源的強力 GUI 智能體家族

X-PLUG/MobileAgent 是阿里達摩院（DAMO Academy）推出的 GUI 智能體系列研究項目，致力於讓 AI 自主操控手機、PC 等圖形界面設備，無需人工干預即可完成複雜的多步驟任務。從最初的 Mobile-Agent（多模態視覺感知）演進至 Mobile-Agent-v3.5（Multi-platform Fundamental GUI Agents，2026年2月arxiv），該項目持續引領 GUI Agent 的學術與工程前沿，當前 Stars 達 7,779，日增 190 顆。

項目家族涵蓋多個系列：Mobile-Agent-v2 引入多智能體協作導航機制；Mobile-Agent-v3/v3.5 專注於跨平臺基礎 GUI Agent；Mobile-Agent-E 實現自進化式移動助手，能從任務經驗中持續學習；UI-S1 基於半在線強化學習推進 GUI 自動化；PC-Agent 則構建了面向 PC 端複雜任務的層次化多智能體協作框架。技術棧涵蓋多模態大模型（VLM）、強化學習、層次化規劃。

適合從事移動/桌面自動化、RPA 替代方案研究，以及多模態 Agent 工程的開發者與研究者。隨着手機端 AI 應用的普及，Mobile-Agent 系列代表了讓 AI 真正成爲數字手的重要技術方向。

Mobile-Agent：讓 AI 成爲你手機的"數字手"

項目概述

X-PLUG/MobileAgent 是阿里巴巴達摩院推出的 GUI 智能體系列研究項目，目標是讓 AI 能夠像人類一樣自主操控手機、PC 等圖形界面設備，完成複雜的多步驟任務。該項目自 2024 年起持續迭代，現已發展爲覆蓋從手機端到 PC 端的全平臺 GUI Agent 家族，當前 GitHub Stars 達 7,779，日均增長 190 顆。

項目家族譜系

Mobile-Agent v1

最初版本，以多模態視覺感知爲核心，實現對手機屏幕的自主理解與操控（arXiv:2401.16158）。

Mobile-Agent-v2

引入多智能體協作導航機制（arXiv:2406.01014），通過多個 Agent 分工協作提升導航效率。

Mobile-Agent-v3 / v3.5

專注於構建跨平臺基礎 GUI Agent（arXiv:2508.15144），Mobile-Agent-v3.5（arXiv:2602.16855，2026年2月）是當前最新版本。

Mobile-Agent-E

實現自進化式移動助手（arXiv:2501.11733），Agent 從過去的任務執行經驗中持續學習，隨時間自主進化。

UI-S1

基於半在線強化學習推進 GUI 自動化（arXiv:2509.11543），減少對大量標註數據的依賴。

PC-Agent

面向 PC 端複雜任務的層次化多智能體協作框架（arXiv:2502.14282）。

核心技術棧

多模態視覺語言模型（VLM）：理解屏幕截圖中的 GUI 元素
層次化規劃：將複雜任務分解爲可執行的原子操作序列
強化學習：從交互反饋中持續優化操控策略
跨平臺 GUI 理解：統一建模 Android、iOS、Windows、Web 等平臺

行業趨勢關聯

Mobile-Agent 的發展軌跡折射出 AI Agent 領域兩大重要趨勢：

1. 從文本到行動：第一代 LLM 只能輸出文本建議，GUI Agent 讓 AI 真正動手執行，大幅拓展 AI 的實際效用邊界

2. RPA 的智能化替代：傳統 RPA 需要硬編碼腳本，Mobile-Agent 代表的 AI-native 方案通過視覺理解實現對任意界面的泛化操控

隨着 Anthropic Claude 的 Computer Use、OpenAI 的 Operator 等產品落地，GUI Agent 賽道已成爲 2025-2026 年 AI 應用落地的核心戰場。Mobile-Agent 系列的持續學術產出與工程實踐，爲這一賽道提供了寶貴的開源基準與技術參考。