OpenAI发布GPT-5.4:编程推理一体化,可操控电脑

OpenAI正式推出GPT-5.4,分为Thinking和Pro两个版本。GPT-5.4被称为「最强专业级AI模型」,融合了GPT-5.3 Codex的编程能力与增强推理和Agentic工作流。在专业知识工作基准测试中,得分从GPT-5.2的68.4%飙升至87.3%。Thinking版本允许用户在AI思考过程中进行干预修改,并提供行动计划前置,深度网络研究能力也获提升。GPT-5.4还能操控电脑——编写自动化代码、根据截图发出鼠标键盘指令。Thinking版面向Plus/Team/Pro用户,Pro版仅限Pro和Enterprise计划。API也已开放gpt-5.4和gpt-5.4-pro。虽然单token成本高于GPT-5.2,OpenAI称效率提升可抵消成本。

OpenAI发布GPT-5.4:编程推理一体化,可操控电脑

概述

2026年3月5日,OpenAI正式发布了GPT-5.4,将其定位为「迄今最强大的专业级AI模型」。GPT-5.4分为Thinking和Pro两个版本,深度融合了GPT-5.3 Codex的编程能力、大幅增强的推理引擎以及成熟的Agentic工作流架构。在专业知识基准测试中,GPT-5.4取得了87.3%的突破性成绩,较上一代旗舰产品GPT-5.2的68.4%大幅提升近19个百分点——这是OpenAI在单代模型中迄今最大的性能跃升之一。这次发布被广泛视为OpenAI在AI Agent赛道上的关键战略押注。

三大核心能力升级

一、思维过程可干预:AI推理不再是黑箱

GPT-5.4 Thinking版本的最大突破,在于它将AI的推理过程从「封闭黑箱」变成了「可交互的玻璃盒」。用户在AI推理过程中可以实时插入指令,修改思维方向,就像在和AI「共同思考」。更重要的是,AI在开始执行任务之前会前置展示完整的行动计划——包括它打算采取哪些步骤、可能遇到哪些障碍、将如何处理边界情况。这一设计不仅大幅提高了透明度和用户信任,也使得复杂任务的协作效率显著提升。对于企业用户来说,这意味着AI决策过程可以被审计、可以被纠正,大大降低了AI在关键工作流程中犯错的风险。

二、深度网络研究:从「搜索」到「研究」的质变

在信息获取能力上,GPT-5.4实现了从简单「搜索」到真正「研究」的跨越。模型能够主动规划多轮检索策略,对来自不同来源的信息进行交叉验证和批判性评估,自动识别信息的时效性和可靠性差异,并将分散的碎片信息综合为有机的知识体系。实测显示,在处理需要整合多方信息的复杂研究任务时,GPT-5.4的效率和准确性较前代提升幅度超过40%。这一能力使其在科研辅助、市场分析、竞争情报等高价值场景中极具竞争力。

三、电脑操控:AI从「顾问」进化为「执行者」

GPT-5.4最具革命性的新能力,是对计算机的直接操控。模型可以分析截图内容、理解界面布局,然后发出精确的鼠标点击和键盘输入指令,实现真正意义上的端到端任务自动化。在实际演示中,GPT-5.4展示了以下能力:自动填写复杂表单、在多个应用之间协调工作、读取和处理电子表格数据、自主完成代码测试和调试流程,以及根据需求动态生成和运行自动化脚本。这意味着AI不再局限于「给出建议」的角色,而是可以直接参与工作的每一个具体步骤,成为真正意义上的数字员工。

性能基准与技术架构

在性能数据层面,GPT-5.4的提升全面而显著:

  • 专业知识基准(Professional Knowledge Benchmark):87.3%,较GPT-5.2的68.4%提升18.9个百分点
  • 代码生成准确率(HumanEval+):较GPT-5.3 Codex再提升约12%
  • 复杂推理任务(MATH、GPQA):均达到或超越当前同类模型最高水平
  • 多步骤Agentic任务完成率:在内部评测中提升超过35%

定价策略与市场准入

在商业化策略上,OpenAI采取了分层差异化定价:

Thinking版本开放给Plus(个人订阅)、Team(团队版)和Pro(专业版)用户,满足大多数专业用户的日常需求。Pro版本则仅限Pro和Enterprise计划,面向对性能有极致要求的专业机构。

在API端,OpenAI同步开放了`gpt-5.4`和`gpt-5.4-pro`两个独立端点,开发者无需等待即可直接集成。

关于成本问题,虽然GPT-5.4的单token价格高于GPT-5.2,但OpenAI强调:由于模型在理解和表达上的效率大幅提升,完成同等质量任务所消耗的token数量明显减少,综合核算下来,实际工作负载的总成本往往反而更低。对于企业客户来说,这意味着升级到GPT-5.4不只是性能的提升,更可能带来实际运营成本的优化。

行业影响:AI Agent时代正式开启

GPT-5.4的发布,标志着AI行业一个重要里程碑的到来——从「对话助手」到「自主代理」的关键跨越已经完成。

对于软件开发行业,电脑操控能力将重新定义AI辅助编程的边界。AI不再只是「写代码」,而是可以「运行代码」「测试代码」「修复Bug」,形成完整的开发循环。对于知识工作者,深度研究能力和思维可干预特性的结合,将显著提升复杂分析和决策工作的效率。对于企业IT部门,Agentic工作流与现有系统的集成,将开启RPA(机器人流程自动化)的全新想象空间。

在竞争格局上,Anthropic和Google DeepMind势必将加速追赶。Claude系列模型与Gemini Ultra系列的下一代版本,预计将在数月内相继发布。2026年的AI军备竞赛进入了前所未有的白热化阶段,而GPT-5.4的发布,无疑是这场竞赛中的最新高水位线。