更快更有判断力的 GPT-5 系列模型 GPT-5.3 Instant 问世才一天,美东时间 5 日周四,OpenAI 就发布了全新的旗舰基础模型 GPT-5.4,在 ChatGPT、API 以及开发工具 Codex 中同步上线。
OpenAI 称 GPT-5.4 是 " 迄今能力最强、最高效的专业工作前沿模型 ",重点面向企业办公与复杂知识工作场景。相比此前版本,GPT-5.4 的最大变化在于强化 AI 智能体(Agent)的能力。在 API 和 Codex 中,GPT-5.4 首次实现了原生级 " 电脑操作 " 功能,支持智能体跨软件执行复杂工作流。
GPT-5.4 不仅能生成文本或代码,还首次将原生电脑操控能力引入通用模型,能直接操作电脑软件、浏览网页、控制鼠标和键盘完成任务,并可与电子表格、金融分析工具等企业应用深度整合,深度嵌入微软 Excel 和谷歌表格。
在 ChatGPT 中,GPT-5.4 支持 " 提前展示思维过程 ",允许用户在模型响应过程中调整任务方向,并提升了深度网页搜索与长逻辑语境下的上下文保持能力。
业内认为,GPT-5.4 的一系列升级标志着 AI 模型正从 " 对话工具 " 走向自动化执行任务的数字代理系统,进一步渗透企业生产力软件与专业知识工作。
OpenAI 本周四同时推出两个版本,包括更擅长复杂推理的 GPT-5.4 Thinking 以及高性能的 GPT-5.4 Pro,分别面向付费用户和高端企业用户。
在计算机操控基准测试 OSWorld-Verified 中,GPT-5.4 以 75.0% 的成功率超越人类平均水平 72.4%,较前代 GPT-5.2 的 47.3% 大幅跃升。同期发布的财务服务套件显示,GPT-5.4 在 OpenAI 内部投行基准测试中的得分从 GPT-5 的 43.7% 跃升至 88.0%。

早期测试机构给出积极反馈。投资公司 Walleye Capital 的 AI 解决方案主管 Daniel Swiecki 表示,GPT-5.4 在内部财务和 Excel 评估中准确率提升了 30 个百分点。AI 人才平台 Mercor 的 CEO Brendan Foody 称其为该公司 " 迄今尝试过的最佳模型 ",并表示 GPT-5.4 已在 Mercor 面向专业服务工作的 APEX-Agents 基准测试中排名第一。
通用模型中首次内置原生电脑操控功能 突破单轮问答边界
GPT-5.4 最具突破性的能力在于其原生电脑操控功能,这也是 OpenAI 首次在通用模型中内置该能力。通过 API 和 Codex,该模型可像人类一样操控计算机,跨应用完成多步骤工作流程。
具体而言,GPT-5.4 既可通过 Playwright 等库编写代码来操控计算机,也可直接响应截图发出鼠标和键盘指令,开发者还可配置自定义确认策略以适配不同风险容忍度场景。
基准测试数据支撑了这一能力的实质性进步:在测试桌面导航能力的 OSWorld-Verified 中,GPT-5.4 成功率达 75.0%,不仅超过 GPT-5.2 的 47.3%,也超越了人类基准水平 72.4%;在浏览器操控测试 WebArena-Verified 中,成功率为 67.3%,高于 GPT-5.2 的 65.4%;在 Online-Mind2Web 中,仅凭截图即实现 92.8% 的成功率。
在网络搜索能力方面,BrowseComp 测试显示 GPT-5.4 较 GPT-5.2 提升 17 个百分点,GPT-5.4 Pro 更以 89.3% 的成绩创下该基准测试的最高评分纪录。

地产科技公司 Mainstay 的 CEO Dod Fraser 表示,在覆盖约 3 万个房产税门户的测试中,GPT-5.4 首次尝试成功率达 95%,三次内成功率达 100%,相比此前的计算机操控模型(成功率约 73% 至 79%)大幅提升,同时完成速度加快约 3 倍,tokens 消耗减少约 70%。
工具搜索机制重构 大幅降低 token 消耗
随着工具生态规模扩大,如何高效管理工具调用成为制约代理系统落地的瓶颈。GPT-5.4 在 API 中引入 " 工具搜索 "(Tool Search)机制,从根本上改变了工具定义的传递方式。
此前,模型在每次请求时均需在提示词中预加载全部工具定义,在工具数量庞大的系统中,这会在每次请求中额外消耗数千乃至数万 tokens,推高成本、增加延迟并稀释上下文。新机制下,模型仅接收工具的轻量化列表,仅在实际需要使用某工具时才按需检索其完整定义。
OpenAI 以具体数据佐证效果:在使用 Scale 的 MCP Atlas 基准测试的 250 项任务中,启用全部 36 个 MCP 服务器的配置下,工具搜索模式相较将全部 MCP 功能直接暴露于上下文的模式,在保持相同准确率的前提下,总 token 用量减少 47%。

Zapier 的 CEO Wade 表示,GPT-5.4 在该公司横跨数百个高级真实工作流的工具使用基准测试中表现优异," 是迄今为止最具持续性的模型 "。
金融与企业场景:Excel 深度集成,投行任务成绩翻倍
与 GPT-5.4 同步发布的还有面向企业和金融机构的 "OpenAI 金融服务 " 套件,核心产品是 ChatGPT for Excel 和 Google Sheets(测试版)—— ChatGPT 将直接嵌入电子表格单元格,支持构建、分析和更新复杂财务模型。
该套件还整合了 FactSet、MSCI、Third Bridge 和 Moody's 等数据合作伙伴,并推出可复用的 Skills 功能,覆盖盈利预览、可比公司分析、DCF 估值分析及投资备忘录撰写等高频金融工作场景。
在内部投行基准测试中,GPT-5.4 Thinking 的得分从 GPT-5 的 43.7% 跃升至 88.0%;在模拟初级投行分析师电子表格建模任务的测试中,GPT-5.4 平均得分 87.3%,远高于 GPT-5.2 的 68.4%。

法律 AI 平台 Harvey 的应用研究主管 Niko Grupen 表示,GPT-5.4 在该公司 BigLaw Bench 评估中得分 91%," 在结构化复杂交易分析、跨长篇合同保持准确性以及提供法律从业者所需的高度细节方面,目前优于其他模型 "。
知识工作与幻觉抑制:全面对标专业人士
OpenAI 在多个衡量真实职场输出的基准测试上展示了 GPT-5.4 的能力边界。在 GDPval 测试中——该测试涵盖 44 个职业的知识工作任务,包括销售演示、会计表格、制造业图表等真实工作产出—— GPT-5.4 在 83.0% 的比较中达到或超越行业专业人士水平,高于 GPT-5.2 的 71.0%。

在演示文稿质量评估中,人类评审在 68.0% 的情况下更偏好 GPT-5.4 的输出,原因包括更强的视觉美感、更丰富的视觉多样性以及更有效的图像生成应用。
在幻觉和事实错误控制方面,OpenAI 表示 GPT-5.4 是其 " 迄今最具事实准确性的模型 ":在用户此前标记过事实错误的去标识化提示词测试集上,GPT-5.4 的单项陈述错误率较 GPT-5.2 降低 33%,完整回应中出现任意错误的概率降低 18%。
在编程能力方面,GPT-5.4 在 SWE-Bench Pro 上的表现与 GPT-5.3-Codex 持平或更优,且在各推理强度设置下延迟更低。Codex 的 /fast 模式可为 GPT-5.4 带来最高 1.5 倍的 token 生成速度提升,该模式使用相同模型与相同智能,仅在速度层面进行优化。GitHub 首席产品官 Mario Rodriguez 表示,GPT-5.4 在逻辑推理及执行复杂多步骤工具依赖工作流方面表现突出," 是企业第一天就应该采用的模型 "。
两个版本分层覆盖不同用户需求 上下文窗口最高 100 万 token
GPT-5.4 Thinking 面向需要深度推理的通用专业场景,GPT-5.4 Pro 则专为最复杂任务设计,追求性能上限。
在 ChatGPT 端,GPT-5.4 Thinking 从本周四起向 Plus(月费 20 美元)、Team 及 Pro 用户开放,取代此前的 GPT-5.2 Thinking,GPT-5.2 Thinking 将在三个月后于 2026 年 6 月 5 日正式退役。
GPT-5.4 Pro 仅限 Pro(月费 200 美元)及 Enterprise 计划用户使用。免费用户亦可在系统自动路由时有限接触 GPT-5.4。企业和教育计划用户可通过管理员设置提前开启访问权限。
在 API 端,GPT-5.4 以 gpt-5.4 标识符提供,GPT-5.4 Pro 以 gpt-5.4-pro 提供,两者均可在 Codex 开发平台使用。API 最大输出为 12.8 万 token,与此前模型保持一致。API 及 Codex 同时支持最高 100 万 token 的上下文窗口,是 OpenAI 迄今提供的最大上下文容量,适合跨步骤长链路任务的规划、执行与验证。
定价高于前代,效率提升部分抵消成本增加
在 API 定价上,GPT-5.4 的价格相较 GPT-5.2 有所上调。具体如下:
GPT-5.4:输入 2.50 美元 / 百万 token,输出 15 美元 / 百万 token(GPT5.2 的定价为输入 1.75 美元 / 百万 token、输出 14 美元 / 百万 token)
GPT-5.4 Pro:输入 30 美元 / 百万 token,输出 180 美元 / 百万 token(GPT5.2 Pro 为输入 21 美元 / 百万 token、输出 168 美元 / 百万 token)
Batch 及 Flex 定价享半价优惠,Priority(优先)处理则按标准价格的两倍计费

值得注意的是,当单次输入超过 27.2 万 token 时,超出部分将按两倍标准费率计费。在 Codex 中,默认压缩上限为 27.2 万 token,开发者可手动上调上限以处理更大提示词,超出部分方触发较高计费。
OpenAI 对较高定价给出三点解释:一是在编程、计算机操控、深度研究、高级文档生成及工具调用等复杂任务上能力更强;二是来自研究路线图的重大技术进步;三是更高效的推理机制在相同任务上消耗更少推理 tokens,一定程度上抵消了单价上升的影响。OpenAI 同时表示,即便提价,GPT-5.4 的定价仍低于同等能力的竞品前沿模型。


登录后才可以发布评论哦
打开小程序可以发布评论哦