OpenAI发布GPT-5.4:原生电脑操控、百万Token上下文、编程能力全面升级
OpenAI于2026年3月5日正式发布GPT-5.4,称其为「最强大且最高效的专业级前沿模型」。该模型推出三个变体:标准版GPT-5.4、推理增强版GPT-5.4 Thinking和旗舰版GPT-5.4 Pro,均不向免费用户开放。GPT-5.4整合了前代GPT-5.3-Codex的编程能力,同时在推理、工具调用和专业工作流方面实现全面升级。
核心技术突破包括:原生电脑操控能力(Computer Use),模型可通过编写代码或执行鼠标键盘命令来操作网站和软件系统,在OSWorld-Verified基准测试中以75.0%的成功率超越人类基线的72.4%;百万级Token上下文窗口(1.05M tokens),显著提升长文档处理和复杂多步骤任务的连贯性;全新的Tool Search功能可在API中按需搜索特定工具,Token消耗降低47%。在GDPval基准测试中,GPT-5.4在44个职业的专业工作能力评估中达到83.0%匹配或超越行业专家水平。
API定价方面,GPT-5.4标准版输入$2.50/百万Token、输出$15.00/百万Token,Pro版输入$30.00、输出$180.00/百万Token。与竞品对比,标准版价格介于Google Gemini和Anthropic Claude之间,但Pro版是目前市场上最昂贵的大模型API。该模型已在ChatGPT、Codex及OpenAI API全面上线,并同步登陆Microsoft 365 Copilot和Copilot Studio。
OpenAI发布GPT-5.4:AI Agent实用化的关键里程碑
2026年3月5日,OpenAI正式推出GPT-5.4,这是继GPT-5.1(2025年11月)、GPT-5.2(2025年12月)、GPT-5.3-Codex(2026年2月)之后,不到五个月内发布的第四个重大模型版本。激进的迭代节奏背后,是当前AI竞赛进入白热化阶段的真实写照——Anthropic的Claude Opus 4.6、Google的Gemini 3 Pro都在同期展开正面竞争。
OpenAI将GPT-5.4定位为「面向专业工作的最强大且最高效的前沿模型」,三个变体(标准版、Thinking版、Pro版)均不对免费用户开放,标志着其商业策略进一步向高端市场倾斜。
核心技术突破
原生电脑操控能力(Native Computer Use)
GPT-5.4是OpenAI首个具备原生电脑操控能力的通用模型。它能够通过编写代码或发出键盘鼠标命令,直接与软件环境、应用程序和网站交互,自主执行跨平台的多步骤任务。
在OSWorld-Verified基准测试中,GPT-5.4以75.0%的成功率超越了72.4%的人类基线水平。这一能力直接对标Anthropic此前推出的Claude Computer Use功能,但OpenAI选择将其深度整合进通用模型而非作为独立功能,路径有所不同。这一策略意味着所有GPT-5.4用户都能无缝使用电脑操控能力,而无需单独开通或切换模式。
百万级Token上下文窗口
GPT-5.4支持最高1.05M tokens的上下文窗口,在Codex中实验性开放。这使模型能够在超长推理链中保持连贯性,有效处理文档密集型和分析型工作场景——例如一次性输入整本技术手册进行分析,或在数十万字的代码库中追踪逻辑链条。
需要注意的是,超过272K tokens的请求在API中会以双倍速率计费,企业用户需要在场景价值与成本之间做好评估。
全新Tool Search机制
传统方式需要在提示词中预先包含所有工具定义,GPT-5.4引入的Tool Search允许模型按需搜索特定工具。在MCP Atlas基准测试的250个任务中,Tool Search在保持准确率的同时将Token消耗降低了47%,这对大规模API应用的成本控制意义重大。
对于构建AI Agent应用的开发者而言,这一功能意味着可以维护一个庞大的工具库,而无需每次都将所有工具塞入上下文,大幅降低了复杂Agent系统的运行成本。
Thinking模式:可调整的推理过程
GPT-5.4 Thinking版本在复杂问题求解时投入更多计算资源。创新之处在于它可以预先展示思考计划,用户可以在模型工作过程中调整方向,无需额外对话轮次即可获得更贴合需求的输出。这种「思考可见、可干预」的设计是对传统黑盒推理模式的重大改进。
性能基准
在关键指标上,GPT-5.4较GPT-5.2实现了显著提升:虚假声明概率降低33%,回答错误率降低18%,GDPval专业工作评测从70.9%提升至83.0%(+12.1个百分点)。
编程能力方面,GPT-5.4整合了GPT-5.3-Codex的能力,在SWE-Bench Pro上达到57.7%,Codex中的/fast模式提供1.5倍加速,视觉理解MMMU-Pro得分81.2%,表格任务(投行分析师级)得分87.3%。
定价策略与竞争对比
| 模型 | 输入($/百万Token) | 输出($/百万Token) |
|------|---------------------|---------------------|
| GPT-5.4 标准版 | $2.50 | $15.00 |
| GPT-5.4 Pro | $30.00 | $180.00 |
| Claude Opus 4.6 | $5.00 | $25.00 |
| Gemini 3 Pro | $2.00 | $12.00 |
GPT-5.4标准版相比GPT-5.2涨价约43%(输入端),但OpenAI强调更高的Token效率可在许多任务中降低总体成本。批处理和弹性定价可享半价,优先处理则加倍收费。
与竞争对手相比,GPT-5.4的定价处于中间区间:比Claude Opus 4.6便宜(输入端),但比Gemini 3 Pro贵。考虑到其在专业工作场景的性能优势,这一定价策略主要面向对成本不太敏感、但对性能要求较高的企业用户和专业开发者。
行业影响分析
AI Agent实用化拐点
原生电脑操控能力超越人类基线,意味着AI Agent不再是实验室概念,而是具备实际部署条件的技术。这将推动RPA(机器人流程自动化)行业的根本性变革——不再需要为每个应用程序单独开发连接器,而是可以直接让AI操作任意软件界面。
知识工作自动化加速
GDPval测试覆盖44个职业,83%的匹配/超越率意味着AI在知识工作领域的渗透将进一步深化。ChatGPT for Excel插件的同步推出,更是直接瞄准企业办公场景,将AI能力嵌入数亿用户每天使用的工具之中。
开发者生态强化
整合Codex编程能力+Tool Search降低成本+百万级上下文,构成对开发者极具吸引力的完整生态。对于构建复杂AI应用的团队来说,GPT-5.4的综合能力使其成为目前市场上最全面的选择之一。
竞争格局
当前AI前沿模型竞争呈三足鼎立态势:OpenAI GPT-5.4强调专业工作流、电脑操控、编程整合;Anthropic Claude Opus 4.6以Claude Code和Claude Cowork主打协作编程和工作流;Google Gemini 3 Pro以多模态和价格竞争力见长。
GPT-5.4的发布明确将矛头指向Anthropic的Claude系列,特别是在编程和专业工作领域。微软方面,GPT-5.4 Thinking已同步登陆Microsoft 365 Copilot和Copilot Studio,进一步巩固了OpenAI-微软联盟在企业AI市场的领先地位。
安全措施
OpenAI将GPT-5.4在网络安全领域归类为「高能力」等级,实施了增强的安全系统、访问控制和异步阻断机制。随着AI系统能力持续提升,如何平衡能力与安全将成为行业持续面临的核心挑战。
---
参考信源:
1. [Wikipedia - GPT-5.4](https://en.wikipedia.org/wiki/GPT-5.4)
2. [Mashable - GPT 5.4 arrives](https://mashable.com/article/gpt-5-4-release-improvements-changes)
3. [Tom's Guide - GPT-5.4 is here](https://www.tomsguide.com/ai/gpt-5-4-is-here)
4. [TechCrunch - OpenAI launches GPT-5.4](https://techcrunch.com/2026/03/05/openai-launches-gpt-5-4/)