PhoneDriver:用Qwen3-VL視覺模型自動操控Android手機

PhoneDriver是一個開源的Android手機自動化Agent,通過Qwen3-VL視覺語言模型讀取手機屏幕截圖,理解UI元素後自動執行點擊、滑動、輸入等操作。用戶只需用自然語言描述任務(如"打開Chrome搜索天氣"),Agent就會自動截屏→視覺分析→規劃動作→通過ADB執行,循環直到任務完成。支持4B和8B兩種模型規格,內置Gradio Web界面,24GB顯存即可本地運行。項目在推特引發熱議,被認爲是移動端AI Agent的重要突破。

工作原理

PhoneDriver採用"截屏→理解→行動"的循環架構,讓AI模型像人類一樣"看着屏幕操作手機":

執行流程

| 步驟 | 操作 | 技術實現 |

|------|------|----------|

| 1. 截屏 | 通過ADB獲取手機屏幕截圖 | `adb shell screencap` |

| 2. 理解 | Qwen3-VL分析截圖中的UI元素 | 視覺語言模型推理 |

| 3. 規劃 | 確定最佳操作(點擊/滑動/輸入) | LLM決策 |

| 4. 執行 | 發送ADB命令到手機 | `adb shell input tap x y` |

| 5. 循環 | 重複直到任務完成或達到最大循環次數 | 狀態機控制 |

模型配置

支持Qwen3-VL的4B(輕量)和8B(高精度)Dense模型,以及MoE變體。默認使用4B模型,在24GB顯存的GPU上即可流暢運行。內置Gradio Web界面和命令行兩種交互方式。

行業趨勢關聯

PhoneDriver展示了Agentic AI從桌面走向移動端的趨勢。結合Edge AI推理能力和視覺語言模型的進步,本地化的手機AI Agent正在成爲現實。這與Open Source AI降低AI應用門檻的趨勢一脈相承,也爲AI Coding開闢了移動自動化的新領域。