刚刚,奥特曼砸场发布 GPT-5.4,网友:一句 Hi 烧掉 80 美元

爱范儿·2026年03月06日 08:54
一个模型,活全包了

每次打开 AI 工具,你大概都要先想一秒钟:这个任务,该用哪个模型?写代码是一个,查资料是另一个,让 AI 帮你操作电脑,还得再开一个窗口。

今天过后, 这种分裂感终于有了一个答案。

就在刚刚,OpenAI 正式发布 GPT-5.4,把编程、推理、计算机操控、网页搜索和百万 Token 上下文全部整合进同一个模型,且没有为了整合而牺牲任何一项的能力。

OpenAI CEO 山姆·奥特曼也在 X 平台发了一条简短推文,点出了五个方向:知识工作更强、网页搜索更出色、原生计算机操控、支持百万 Token 上下文、响应过程中随时可介入。

寥寥数语,对应的恰好是过去两年 AI 应用落地中最集中的五个痛点。

知识工作:十次有八次,AI 赢了专业人士

理解 GPT-5.4 在知识工作上的进步,需要先了解 GDPval 这个基准的设计逻辑。

它横跨美国 GDP 贡献最大的 9 个行业、44 种职业。任务是那些职场里每天真实发生的工作:给投资银行写财务模型、给医院排急诊班次、给销售团队做演示文稿。

任务完成后,把输出结果交给行业内的真实从业者盲测打分,看 AI 的产出能赢过多少比例的人类同行。

GPT-5.4 的答案是 83.0%,意味着十次对比中有八次以上,行业专业人士认为 AI 的产出达到或超过了人类同行水准。上代 GPT-5.2 是 70.9%,差距将近 13 个百分点。

进步在电子表格建模上表现得最为具体。GPT-5.4 模拟初级投行分析师完成建模任务,平均得分 87.3%,GPT-5.2 是 68.4%,GPT-5.3-Codex 是 79.3%,差距将近 20 个百分点。

法律平台 Harvey 的 BigLaw Bench 测试结果同样亮眼,GPT-5.4 得分 91%,专业服务评测平台 Mercor 的 APEX-Agents 基准中也拿下了第一。

准确性方面同样值得关注。 幻觉问题一直是 AI 进入专业场景最大的拦路虎,每降低一个百分点,都意味着更多场景可以放心用它。

数据显示,与 GPT-5.2 相比,GPT-5.4 单条陈述出错的概率低了 33%,完整回复含有错误的概率低了 18%。

编程:一个模型,写代码测代码全包了

GPT-5.4 把 GPT-5.3-Codex 的编程能力整合进主线,对开发者来说,这意味着你不再需要为了写代码单独开一个模型,而且编程能力本身也没有因此打任何折扣。

SWE-Bench Pro 专门测试真实软件工程任务,GPT-5.4 得分 57.7%,GPT-5.3-Codex 是 56.8%,GPT-5.2 是 55.6%。整合之后,编程分数不降反升,同时还顺带获得了计算机操控等一整套通用能力,几乎找不到明显的弱点。

知名 AI 评测博主 Dan Shipper 试用后写道:「这是我们最近一段时间里见过 OpenAI 最出色的规划能力,代码审查也很强,而且成本大约只有 Opus 的一半。」

他点出了两个具体维度。其一,规划能力是长任务成败的关键,GPT-5.4 在任务拆解和持续推进上明显更有条理。其二,与 Claude Opus 相比约一半的成本,对需要大规模 API 调用的开发者来说,这个差距在账单上会非常直观。

开启 Codex 中的 /fast 模式后,可使 GPT‑5.4 的 token 生成速度提升最高 1.5 倍,使得用户可以在编码、迭代和调试过程中保持流畅的工作状态。

与此同时,新推出的实验性功能 Playwright Interactive 把 GPT-5.4 的编程体验又推进了一步。

GPT-5.4 在构建 Web 或 Electron 应用时,能够通过可视化浏览器进行实时调试,模型可以边写代码、边测试自己正在构建的应用,同时承担开发者和测试员两个角色。

OpenAI 展示了一个典型案例:仅凭一条轻量提示词,GPT-5.4 生成了一个完整的等距视角主题公园模拟游戏,涵盖基于瓦片的路径铺设与景点建设系统、游客 AI 寻路与排队行为,以及资金、游客数、满意度、清洁度四项指标全部实时动态更新的综合评分。

Playwright Interactive 在整个过程中承担了多轮自动化测试,验证路径铺设、摄像机导航、游客响应及 UI 指标的正确性。从写代码到测试验收,模型全程自己完成。

博主 Angel 同样用 GPT-5.4 写了一个 Minecraft 克隆版,模型花了约 24 分钟,运行流畅,过程中没有卡住。他在推文里写道「Minecraft 基本上被攻克了,我现在得找个新测试了」。

沃顿商学院教授 Ethan Mollick 同样获得了早期访问权限。他用同一条提示词,让 GPT-5.4 Pro 生成了一个受《皮拉内西》启发的三维空间场景,全程没有报错,只额外追加了一句「把它做得更好」的指令。他随后把结果和两年前 GPT-4 生成的版本并排放在一起,差距一眼可见。

操控电脑这件事,它现在比你做得好

这是 GPT-5.4 这次发布里最值得单独说一说的变化。此前 OpenAI 的计算机操控能力是一个独立模块,跟模型的语言理解、代码生成之间有一道明显的分隔。

两套系统各管各的,信息要来回传递,效率自然打折。现在这道分隔没了,GPT-5.4 操控电脑时,用的就是模型本身的推理能力,不需要再绕一圈。

这也是 OpenAI 第一款将计算机使用(computer use)能力原生内置进通用模型的产品,以后谈 AI Agent,相信这会是一个新的起点。

基准测试结果显示,OSWorld-Verified 基准测试桌面导航能力,用截图加鼠标键盘交互完成真实操作系统任务。GPT-5.4 达到 75.0% 的成功率,人类基线是 72.4%,GPT-5.2 是 47.3%。

简言之,它不仅追上了人类,还超过了人类。

在只用截图模式测试浏览器操控的 Online-Mind2Web 基准中,GPT-5.4 达到 92.8%,对比对象 ChatGPT Atlas 的 Agent Mode 是 70.9%,

真实部署案例更能说明问题。Mainstay 将 GPT-5.4 用于约三万个物业税务门户网站的自动表单填写,首次成功率达 95%,三次以内成功率 100%,而此前同类模型仅在 73% 至 79% 之间。会话完成速度提升约三倍,Token 消耗降低约 70%。

这背后绕不开视觉感知能力的改进。操控电脑说到底是一件需要「看清楚」的事——看清楚界面上有什么、按钮在哪里、点击是否准确。

GPT-5.4 在这一层做了专项加强,引入了原始图像(original)输入模式,支持最高 1024 万像素或 6000 像素最大边长的高保真图像输入;原有的高清(high)模式上限也从此前的标准提升至 256 万像素或 2048 像素最大边长。

工具调用与网页搜索:持续性是核心竞争力

一个复杂的 AI Agent 系统,背后可能挂着几十个 MCP 工具。过去的做法是每次对话开始前,把所有工具的说明一股脑塞进去,不管这次用不用得上,Token 先花了再说。

GPT-5.4 换了个思路:先给模型一份简单的工具清单(即引入工具搜索机制),真正需要用哪个,再去把那个工具的详细说明取过来,用过一次的还能直接缓存,下次不用重新拿。

在 250 项任务的测试中,启用 36 个 MCP 服务器的完整配置下,工具搜索模式在保持准确率完全不变的前提下,将总 Token 消耗降低了 47%。将近一半的成本节省,精度一点没少。

网页搜索方面,GPT-5.4 在 BrowseComp 基准上得分 82.7%,比 GPT-5.2 的 65.8% 高出 17 个百分点,Pro 版更达到 89.3%,创下业界最高分。Zapier CEO 评价说,GPT-5.4 会在其他模型放弃的地方继续搜索下去,是他们测试过持续性最强的模型。

百万 Token 上下文:长长长长长长

GPT-5.4 在 API 中支持最高 100 万 Token 的上下文窗口,相当于可以把一个完整项目的所有相关文档一次性塞进同一次对话。

但从测试结果来看,128K 至 272K 是表现最稳定的区间,适合日常使用。

256K 以上准确率开始下滑,需要针对具体任务验证后再用。512K 至 1M 区间的得分降至 36.6%,目前更接近实验性质,不适合直接用于对精度要求高的生产任务。

还有一个实际的成本问题需要注意:超过 272K 的请求会按两倍用量计入配额。也就是说,发一次超长上下文的请求,额度消耗等于两次普通请求,用之前值得想清楚是否真的需要这么长。

至于在视觉抽象推理基准 ARC-AGI-2 上,GPT-5.4 Pro 得分 83.3%,而上代 GPT-5.2 Pro 仅为 54.2%。

再比如 FrontierMath Tier 4 是目前公认最难的数学基准之一,包含 50 道研究级别的数学题,人类数学家可能需要数周才能解出。GPT-5.4 Pro 在这个基准上得分 38.0%,上代为 31.3%。

这个数字的参照系是:一年前,最好的成绩是 o3 的 2%,目前最好的开源模型是 4.2%。

博主 Deedy 在推文中写道,从 2% 到 38%,「简直令人震惊」。Humanity's Last Exam 有工具辅助时,GPT-5.4 Pro 得分 58.7%,GPT-5.2 Pro 是 50.0%,差距接近 9 个百分点。

执行中调整,不是完成后返工

用过 AI 处理长任务的人大概都有过这种体验:等模型跑完一大段,发现方向不对,只能从头再来,时间全浪费了。

GPT-5.4 Thinking 在 ChatGPT 中新增了一项「中途打断」功能:在处理复杂任务之前,模型会先呈现工作计划概要,再开始执行。用户可以在执行过程中随时介入调整方向,不必等到结果出来再从头重来。

这个功能把纠偏这件事从「完成后」提前到了「执行中」,对需要多轮协作的任务来说,体验差别会比较明显。功能目前已在 chatgpt.com 和 Android 应用上线,iOS 版本即将跟进。

即日起,GPT-5.4 向 ChatGPT Plus、Team 和 Pro 用户开放,替代 GPT-5.2 Thinking 成为默认思考模型。

GPT-5.2 Thinking 将保留至今年 6 月 5 日后正式退役。Enterprise 和 Edu 用户可由管理员在后台开启早期访问,GPT-5.4 Pro 仅对 Pro 和 Enterprise 计划开放。

API 标准版定价为输入 2.50 美元/百万 Token,缓存输入 0.25 美元/百万 Token,输出 15 美元/百万 Token。Pro 版为输入 30 美元/百万 Token,输出 180 美元/百万 Token。Batch 和 Flex 处理享标准价格五折,Priority Processing 为两倍标准价格。

当然,强大的推理能力也有它的另一面。Hyperbolic 联合创始人金宇晨在 X 平台吐槽,GPT-5.4 Pro 是他用过最爱「过度思考」的模型——仅仅发了一句简单的「Hi」,模型就开始认真推理,直接烧掉了 80 美元。

这并非个例。推理模型的特性决定了它在处理任何输入时都倾向于深度思考,哪怕问题本身根本不需要。对于日常轻量任务,标准版或许是更合适的选择;Pro 版的推理火力,还是留给真正值得的场合更划算。

过去两年,AI 能力的讨论主要集中在基准测试成绩上的「聪明」,但 GPT-5.4 的聪明指向的是能够在真实工作流中,足够可靠地承担责任。

过去 AI 只能输出文字,人还需要亲自操作才能让事情发生。现在模型可以自己打开浏览器、填写表单、点击按钮、记录结果,独立完成一个有头有尾的任务闭环。

AI 正在从一个擅长回答问题的系统,变成一个擅长完成任务的系统。而这个转变的速度,显然比大多数人预期的更快。

附上参考地址:

https://openai.com/index/introducing-gpt-5-4/

本文来自微信公众号“APPSO”,作者:发现明日产品的APPSO,36氪经授权发布。

+1
16

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

何以解忧?

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业