Anthropic 收购 Vercept,强化 Claude 的计算机操控能力

Anthropic 宣布收购 AI 初创公司 Vercept,以增强 Claude 的计算机操控(Computer Use)能力。Vercept 专注于构建能够理解和操作图形用户界面的 AI 系统,这与 Anthropic 正在大力发展的 Claude Computer Use 功能高度互补。

此次收购表明 Anthropic 正在加速推进 Agentic AI 战略——让 Claude 不仅能回答问题,还能像人类一样操作电脑完成实际工作。这一能力对企业级 AI Agent 部署至关重要。

即便在与五角大楼的对峙期间,Anthropic 仍在积极扩展技术能力,展示了公司在伦理争议中保持技术发展势头的决心。

2 月 25 日,Anthropic 正式宣布收购 AI 初创公司 Vercept。这是 Anthropic 在 Agentic AI 领域迄今最具分量的战略并购,也是 2025 年以来整个大模型行业围绕"AI Agent 能力边界"展开军备竞赛的一个缩影。

Vercept 是谁

Vercept 是一家专注于 GUI(图形用户界面)理解与自动化操作的 AI 公司,创立于旧金山湾区,核心团队来自 Google DeepMind、CMU 和斯坦福的计算机视觉实验室。公司的核心技术可以用一句话概括:**让 AI 像人类一样"看懂"并"操控"屏幕**。

具体而言,Vercept 的模型能够实时识别任意分辨率的屏幕截图,精准定位按钮、输入框、下拉菜单、弹窗等 UI 控件,并以极低延迟生成对应的鼠标/键盘动作序列。即使面对动态渲染、复杂嵌套布局或非标准控件,其识别精度也能保持在可商用水准。这一能力与 Anthropic 的 Claude Computer Use 功能高度互补——前者解决"看清楚"的问题,后者解决"想清楚"的问题。

Claude Computer Use 的进化路径

Claude Computer Use(简称 CCU)最早随 Claude 3.5 Sonnet 在 2024 年 10 月进入公测。彼时,它已能完成浏览网页、填写表单、拖拽文件等基础桌面任务,但在以下场景仍频繁失误:

企业级遗留系统

SAP、Oracle EBS、用友等老牌 ERP 系统普遍使用非标准控件,CCU 的 DOM 解析和截图理解均存在盲区,动作失败率高达 30%-40%。

高密度复杂界面

金融交易终端(Bloomberg Terminal、Wind 等)、医疗影像工作站、工业 SCADA 系统——这些界面信息密度极高,现有视觉模型容易"抓错"目标控件。

多步骤跨窗口任务

涉及反复切换应用窗口、等待异步加载、处理意外弹窗的长流程任务,成功率随步骤数指数衰减。

引入 Vercept 的 GUI 专用视觉模型后,Anthropic 预计可将上述场景的任务成功率提升 40%-60%,同时显著降低每次操作的推理 Token 消耗。

战略意义:从"聪明"到"能干"

当前 AI 竞赛的核心叙事正在发生转变:单纯的"更聪明"(提升 Benchmark 分数)已不足以构筑护城河,"更能干"(能完成真实世界的复杂工作流)才是下一阶段的关键竞争力。

在 AI Agent 路线图上,各家巨头选择了不同的技术栈:

  • **OpenAI**:以 Function Calling + Code Interpreter + Operator 为核心,依赖 API 生态整合外部系统
  • **Google**:借助 Android 操控能力和 Workspace API 深度整合自有产品线
  • **Anthropic**:押注 MCP(Model Context Protocol)+ Computer Use 的双轨策略——前者标准化 API 调用,后者覆盖没有 API 的图形界面

这一差异化路线的战略逻辑在于:全球数亿个企业应用中,仅有极小部分提供了完整的 API 接口;绝大多数关键业务系统(政府平台、工业软件、老旧 ERP)至今只有 GUI 这一交互入口。谁能稳定操控任意图形界面,谁就能把 Agent 的覆盖面扩展到几乎所有有价值的企业场景。

技术生态影响

收购完成后,Vercept 团队将并入 Anthropic 的 Model Capabilities 部门。市场关注以下几个落地节点:

短期(3-6 个月)

Vercept 的 GUI 视觉模型将作为独立工具模块集成到 Claude API 的 Computer Use Beta 中,开发者可通过 `computer_tool` 直接调用,无需自行处理截图解析逻辑。

中期(6-12 个月)

预计推出面向企业客户的 **Claude Autopilot** 产品形态:为特定业务流程(如合同审批、数据录入、报表生成)预置端到端 Agent 工作流,支持私有化部署到企业内网。

长期(1 年以上)

随着 Computer Use 精度逼近人类操作水准,"雇一个 AI 员工处理重复性桌面工作"将从概念变为可规模化落地的商业模式。

行业信号:Agentic AI 军备赛进入硬件化阶段

这次收购有一个更大的背景:Agentic AI 的竞争正在从"模型能力"向"执行层基础设施"延伸。

MCP 协议的推出标准化了 Agent 与外部工具的 API 交互;Computer Use 补全了 GUI 这一最后一公里;而 Vercept 的加入则为 GUI 操作提供了专用的"感知层"。三者叠加,构成了一个完整的 Agent 执行技术栈。

值得注意的是,Vibe Coding 浪潮正在让越来越多的非技术用户接触 AI 辅助开发——而 Computer Use 的下一个自然延伸,正是让 AI Agent 直接在 IDE、设计工具、数据库客户端中替人类完成那些繁琐但高频的操作。Anthropic 提前布局这一能力,意味着它在争夺下一代"AI 原生工作流"标准的战役中抢得了先手。