一、总体定位:迈向自主智能体的里程碑
OpenAI 于 2026 年 3 月 6 日正式发布 GPT-5.4 系列模型,官方将其定义为 “迄今能力最强、效率最高的专业工作前沿模型”。这是 OpenAI 首次将前沿推理、编码与智能体能力整合至单一模型,深度融合了 GPT-5.3-Codex 的编码能力,并首次引入原生电脑操控能力,标志着 AI 从”被动响应”正式迈向”主动执行”的智能体新时代。
四大核心数字:
| 75.0% | ||
| 83.0% | ||
| 33% | ||
| 100 万 Token |
二、产品版本矩阵
GPT-5.4 发布两个版本,定位清晰,覆盖不同用户群体。
GPT-5.4 Thinking
- 定位:
面向 ChatGPT、API 及 Codex,强化推理与对话 - 核心特性:
思考过程前置展示,用户可在模型响应过程中实时调整方向 - 开放对象:
Plus、Team、Pro 订阅用户 - 上线状态:
网页版与 Android 已上线,iOS 即将推出
GPT-5.4 Pro
- 定位:
面向复杂任务最高性能需求,专为企业级高端工作负载设计 - 核心优势:
FrontierMath 高难数学题得分 38%(Thinking 版仅 27.1%) - 开放对象:
API 企业版、Edu 用户、ChatGPT Pro 订阅($200/月) - 注意:
不在 Codex 中提供,仅限 ChatGPT 与 API
⚠️ 下线提醒: GPT-5.2 Thinking 将于 2026 年 6 月 5 日正式下线,由 GPT-5.4 Thinking 全面接替。
三、核心基准测试数据
专业知识工作能力(GDPval)
GDPval 基准覆盖 44 个职业的真实工作任务,测试模型匹配或超越行业专家的比率:
| GPT-5.4 Pro | 83.0% |

图1:GDPval 专业知识工作能力对比
GPT-5.4 Pro 以 83.0% 的得分大幅领先竞品,展现出在专业工作任务中匹配或超越行业专家的卓越能力,这一突破意味着 AI 在专业服务领域的实用价值显著提升。
电脑操控能力(OSWorld-Verified)
测试通过截图 + 键鼠指令完成桌面任务的成功率,人类均值为 72.4%:
| GPT-5.4 | 75.0% |

图2:OSWorld 电脑操控能力对比
GPT-5.4 首次超越人类均值 72.4%,达到 75.0%,这标志着 AI 从”有趣的演示”跨越到”实际比你更擅长操作电脑”的质变,十年来”AI 无法使用真实软件”的论点正式开始失效。
软件工程任务(SWE-Bench Pro Public)
| GPT-5.4 | 57.7% |
智能体网页浏览(BrowseComp)
| GPT-5.4 Pro | 82.7% |
多步骤工具调用(Toolathlon)
| GPT-5.4 | 54.6% |
内部专项基准
- 投行电子表格建模:
GPT-5.4 得分 87.3%,GPT-5.2 仅 68.4%,提升 +18.9pp - 演示文稿生成:
人类评测者 68% 的情况下更偏好 GPT-5.4 的输出(美观度、视觉多样性、图像生成)
四、五大核心能力升级
原生电脑操控(最大突破)
GPT-5.4 是 OpenAI 首款原生具备 Computer-Use 能力的通用大模型,能力包括:
根据屏幕截图自主发出键盘与鼠标指令 跨应用程序、跨设备完成复杂工作流 深度整合电子表格、金融分析工具等企业应用 在网页浏览器中自主调用工具与 API
关键数据: OSWorld-Verified 75.0% 超越人类均值 72.4%,较 GPT-5.2(47.3%)提升 +27.7pp。
思考过程可视化
GPT-5.4 Thinking 新增”思考过程预览”功能:
处理复杂查询时预先展示推理思路大纲 用户可在模型响应过程中实时调整方向,无需重新开始对话 对长链路任务维持对前序步骤的强意识,确保答案全程连贯
编码能力全面提升
深度融合 GPT-5.3-Codex 编码能力 Codex 快速模式下 token 生成速度提升约 1.5 倍 SWE-Bench Pro 得分 57.7%,超越 GPT-5.3-Codex(56.8%)与 Google Gemini 3.1 Pro 代码编写、调试与工具调用效率全面提升
100 万 Token 超长上下文
API 及 Codex 支持最高 100 万 token 上下文窗口 正式移除 Beta 标签,成为稳定功能 适合跨步骤长链路任务的规划、执行与全流程验证 - 注意:
超过 272K token 的请求按 2× 费率计费
事实准确性大幅提升
OpenAI 称 GPT-5.4 为”迄今事实性最强模型”:
单个陈述失实概率较 GPT-5.2 降低 33% 整体响应含错误概率降低 18% 多源信息整合与”大海捞针”检索能力显著增强 能进行多轮持续搜索,将结果整合为清晰、条理分明的答案
Tool Search 工具检索系统
全新工具调用架构,从”每次调用携带全量工具定义”改为”按需检索工具定义”:
在 250 个任务 × 36 个 MCP 服务器的内部测试中,总 token 用量减少 47% 在大型智能体系统中显著降低调用成本 工具调用精准度与效率同步提升
五、真实应用案例与行业数据
Box 企业文档独立评测
Box 对 GPT-5.4 进行了独立第三方评测(非 OpenAI 自测),结果如下:
| 78% | |||
| 70% | +10pp | ||
| 85% | |||
| 79% |

图3:Box 企业文档独立评测结果
政府统计出版物提升幅度最大,达到 +10pp,表明 GPT-5.4 在处理结构化数据和复杂表格方面取得了显著进步,这对于需要频繁处理政府公开数据的行业尤为重要。
金融与专业服务
- 投行电子表格建模:
模拟初级投行分析师工作,得分 87.3%(vs GPT-5.2 的 68.4%) - Mercor APEX-Agents 排行榜:
在投行、咨询、企业法律等专业服务场景登顶榜首 - FrontierMath 高难数学:
GPT-5.4 Pro 得分 38%,Thinking 版 27.1%

图4:金融与专业服务能力对比
投行电子表格建模得分从 68.4% 提升至 87.3%,提升幅度高达 +18.9pp,这意味着 GPT-5.4 已经能够胜任初级投行分析师的核心工作;而 Pro 版在 FrontierMath 高难度数学题上的得分几乎是 Thinking 版的 1.4 倍,显示出企业级版本在复杂推理方面的显著优势。
内容创作与办公
- 演示文稿生成:
人类评测者 68% 更偏好 GPT-5.4 的输出,原因包括更强的美观度、视觉多样性和图像生成效果 - 电子表格、文档、PPT:
专业办公任务处理能力全面提升,交互次数大幅减少
六、定价体系详解
GPT-5.4 Thinking(标准版)
| $2.50 | ||
| $15.00 | ||
GPT-5.4 Pro(企业高性能版)
| $30.00 | ||
| $180.00 | ||

图5:GPT-5.4 定价体系对比
尽管单 token 定价上涨,但 Pro 版的输出价格相比输入价格的溢价更高,反映出其在复杂推理任务上的高成本;值得注意的是,OpenAI 强调 GPT-5.4 是”最 token 高效的推理模型”,实际总成本对许多任务反而降低。
? 成本说明: 尽管单 token 定价上涨,但 GPT-5.4 是 OpenAI 最 token 高效的推理模型,解决同等问题所需 token 数量显著减少。Tool Search 系统在大型智能体场景中可节省 47% token 用量,许多实际任务的总成本反而降低。
七、竞品横向对比
| 83.0% ? | |||
| 75.0% ? | |||
| 57.7% ? | |||
| 200 万 Token ? | |||
| 更低 ? | |||
| 榜首 ? |

图6:竞品核心能力横向对比
GPT-5.4 在专业知识工作、电脑操控和专业服务应用三个维度全面领先,Gemini 3.1 Pro 仅在上下文长度和成本效率方面保持优势,这反映出各厂商不同的技术路线和市场定位。
八、深度洞察
「选哪个 OpenAI 模型」的时代终结
此前用户需要在 GPT-5.3-Codex(编码)、GPT-5.2(推理)、专用 Computer-Use 工具之间反复权衡。GPT-5.4 将编码、推理、电脑操控、100 万 Token 上下文、Tool Search 全部集成于单一模型,模型选择的认知负担大幅降低。
电脑操控:「AI 不能做我工作」的论点开始失效
OSWorld 75% 超越人类均值 72.4%,这不是渐进式改进,而是从”有趣的演示”跨越到”实际比你更擅长操作电脑”的质变。十年来以”AI 无法使用真实软件”为由的论点,正式开始过期。
基准数据需保持审慎
APEX-Agents 榜首背后有重要背景:该榜单推出时,最好的模型首次尝试专业任务成功率不足 25%,8 次尝试上限约 40%。GPT-5.4 登顶意味着它是最好的,但整个行业距离专业级可靠性仍有差距。此外,OpenAI 的对比基准选择了 GPT-5.2 而非更近的 GPT-5.3,值得注意。
Token 效率提升:涨价不等于成本上涨
GPT-5.4 单 token 定价高于 GPT-5.2,但 OpenAI 强调其是”最 token 高效的推理模型”,解决同等问题所需 token 数量显著减少。Tool Search 系统在大型智能体系统中可节省 47% token 用量,实际总成本对许多任务反而降低。

图7:Token效率与事实准确性提升
Tool Search 系统在大型智能体场景中可节省 47% 的 token 用量,这是显著的成本优化;而事实准确性方面,单条陈述失实概率降低 33% 更为关键,表明 GPT-5.4 在信息可靠性方面取得了实质性突破。
安全性:思维链监控仍然有效
OpenAI 新增了对模型思维链(Chain-of-Thought)的安全评估。测试显示 GPT-5.4 Thinking 版本中,模型欺骗性推理的发生概率更低,“表明模型缺乏隐藏推理的能力,思维链监控仍是有效的安全工具”。
九、总结
GPT-5.4 是 OpenAI 在 “从工具到智能体” 这条路上迈出的最关键一步。其核心价值不在于某一项能力的提升,而在于将所有关键能力整合为一个统一的、可自主执行任务的系统。

图8:GPT-5.4 六大维度综合评分
五大核心能力均获得满分,事实准确性和成本效率略低但仍保持优秀水平,这种全面均衡的能力分布正是 GPT-5.4 作为”一体化智能体”的核心竞争力所在。
GPT-5.4 不再是一个”回答问题的 AI”,而是一个能真正替你操作电脑、处理复杂工作流的 AI 同事。随着智能体网络在后台自主运行成为现实,办公、开发、内容生产等全场景 AI 应用生态将迎来范式级变革。
参考来源
OpenAI 官方发布页 — Introducing GPT-5.4: https://openai.com/index/introducing-gpt-5-4/ The New Stack — OpenAI launches GPT-5.4 Thinking and Pro: https://thenewstack.io/openai-launches-gpt-54/ 17173 · 快科技 — GPT-5.4 重磅发布: http://news.17173.com/content/03062026/080839371.shtml TechCrunch — OpenAI launches GPT-5.4: https://techcrunch.com/2026/03/05/openai-launches-gpt-5-4-with-pro-and-thinking-versions/ IT之家 — GPT-5.4 正式登场: https://www.ithome.com/0/926/344.htm Limited Edition Jonathan (Substack) — GPT-5.4 Just Dropped: https://limitededitionjonathan.substack.com/p/gpt-54-just-dropped-paste-this-prompt
关于 AI 智能体研究
欢迎关注“AI 智能体研究”!这里聚焦 AI 智能体前沿成果,解析技术原理,探讨应用场景。无论是技术爱好者还是行业探索者,都能获取最新资讯与深度见解。一起探索 AI 智能体的无限可能,共赴科技未来!
如果这篇文章对您有帮助,欢迎:
? 点赞收藏:方便日后查阅参考? 转发分享:让更多同行获得有价值的信息? 关注我们:每日获取最新资讯,不错过关键动态
您的每一次互动,都是我们持续输出优质内容的动力。


