OpenAI掀桌子,新模型力压谷歌,o3降到地板价
北京时间6月11日凌晨1点,拥有数十亿用户的ChatGPT连续宕机了9个小时后,OpenAI在社交媒体平台X上宣布将在今天发布o3-pro,即OpenAI最强推理大模型的加强版。
注:OpenAI 官方X账号。
两个小时后,OpenAI宣布o3-pro已经向所有ChatGPT和API的Pro用户开放。为了满足Plus用户的需求,OpenAI决定将Plus用户的使用限制从一周100次提升至一周200次。
o3-pro的上线毫无预兆,OpenAI的CEO奥特曼称,当第一次看到它相对o3的胜率时,自己完全惊呆。官方发文称,o3-pro旨在延长思考时间并提供最可靠的响应。专家评估中,评审者一致认为o3-pro在所有测试类别中都优于o3版本,尤其是在科学、教育、编程、商业和写作帮助等关键领域。
注:图片来源OpenAI官网。
OpenAI每一次发布都足够引起业内关注,尤其当谷歌凭借Gemini 2.5 Pro一雪前耻,跟上行业步伐后,OpenAI的表现更令人关注。这次,它的表现又如何?
更强大但更慢
OpenAI 官方发文称,o3-pro在数学、科学和编程等领域和o1-pro一样表现出色。与o3 一样,o3-pro 使用工具的能力出色,它可以使用 ChatGPT 所需的工具,比如搜索网页、分析文件、推理视觉输入、使用 Python、利用记忆个性化响应等等。
注:图片来源OpenAI官网。
在更严格的“4/4 可靠性”评估(即只有在四次尝试中正确回答问题,模型才被视为成功中)测试表明,在数学基准测试AIME2024 、博士级别科学测试 GPQA Diamond和编程竞赛中,o3-pro都优于o1-pro和o3(Medium)。
注:图片来源OpenAI官网。
Artificial Analysis的报告指出,在智力水平上, o3-pro以微弱优势领先Gemini 2.5 pro。
注:图片来源于Artificial Analysis官网。
根据模型文档,o3-pro支持文本和图像两种输入模态,上下文窗口大小为200k,最大输出token数为100k。o3-pro在上下文窗口上并不占优势,甚至比不过Gemini 2.0 Pro Experimental和Gemini 1.5 Pro。
o3-Pro的知识截至时间为 2024 年 6 月 1 日,它本身并不具备近一年内的信息,但用户可以通过搜索和知识库等工具为其提供更多上下文。
注:图片来源OpenAI官网。
目前,o3-pro还存在一些限制,临时聊天功能已被禁用;o3-pro 不支持图像生成,用户可以选择GPT-4o、OpenAI o3 或 OpenAI o4-mini 来生成图像;目前也并不支持Canvas。
在ARC-AGI(通用人工智能能力基准测试)半封闭评估中,o3-pro完成ARC-AGI-1高难度任务通过率59.3%;在ARC-AGI-2中,其在所有推理任务仅有4.9%通过率,从推理通过率来看,它的表现略均低于o3(High)。这表明,即便上最强的推理大模型,依然和人类能力有较大差距。
注:图片来源于ARC PRIZE官网。
网友实测,两极分化
在用户感知上,o3-pro最明显的特点就是慢。一位用户在X发布消息称,o3-Pro只是需要回复一个“HI”,就话了将近4分钟。而在其他的模型中,这种回复往往几秒钟就可以实现。
注:YuchenJinX账号截图。
而当他第二次测试时,竟然花了13分28秒。o3-pro较慢的反应速度让不少网友质疑,不过这点,OpenAI在模型发布时就有解释,他们称由于 o3-pro 可以使用工具,因此响应通常比 o1-pro 需要更长的时间才能完成。官方建议将其用于可靠性高于速度的棘手问题。
注:YuchenJinX账号截图。
换句话说,o3-pro可能更适合处理复杂问题,比如项目方案,多文件整合等。如果只是日常提问、闲聊或快速生成内容,可以选择更便宜且更快的o3。
在数学问题上,o3-pro确实如官方所言。HyperWrite AICEO Matt Shummer在X上展示了他使用o3-pro做一道具有逻辑能力的数学题。他用英语问到“你的回答中有多少个单词”,这是一道很容易让大模型逻辑混乱的题,大模型需要数清楚答案中的单词个数,一些模型可能会回答提示词中的单词个数,但o3-pro却给出了正确的答案。
注:Matt Shummer X账号截图。
在编程能力上,X用户Flowers输入同样的提示词给Claude 4 和o3-pro,希望他们生成弹跳小游戏,结果前者虽然界面美观,但完全无法运行。后者则可以正确运行。
注:视频来源于 Flowers X账号。
o3-pro全球首位测评者Bilglin Ibryam称,o3-pro非常擅长分析,擅长使用工具做事,但不太擅长直接做事。在他眼中,o3-pro会是一个很棒的协调工具。
他拆解了o1和o3-pro提示词的组成要素和设计原理,显示后者需要足够多的背景信息来说明诉求,否则模型确实容易想得太多。
注:图片来源于Latent.Space。
Youtube博主Bijan Bowen进行了实操体验,他希望ChatGPT使用HTML、JAVA、CSS按照复古操作系统风格来构建一个基于浏览器的操作系统模拟器,但5分钟后,ChatGPT只给出了以下信息,即仍在思考中。
注:Bijan Bowen Youtube视频截图。
14分钟13秒过后,ChatGPT生成了一个可以移动的,带有日期、对话栏,并可以打开应用程序的浏览器,整体非常符合作者预期。除去等待时间过长之外,Bijan Bowen对o3-pro的结果相当满意。
注:Bijan Bowen Youtube视频截图。
更频繁的更新,更便宜的大模型
进入2025年,大模型领域的竞争越来越激烈。一个明显的表现是,OpenAI 的模型更新频次明显高于2024年,涉及核心模型优化(o3-Pro、GPT-4.1)、语音交互增强、多模态扩展等多个方面,同时采取更激进的淘汰策略,比如 GPT-4.5 的快速弃用。
另一方面,今年3月,一直在大模型领域落后的谷歌发布了Gemini 2.5 Pro大语言模型,以八分之一的价格提供了几乎相同于OpenAI最强推理大模型o3的性能,并且该模型上线以来几乎每月都在更新。
为应对竞争,OpenAI必须快速反应。o3-pro的一个大杀器便是价格,o3-pro 输入为 20美元/百万 token,输出80美元/百万 token。相比o1-pro,价格大幅度下降。这也意味着o1-pro很可能会被快速淘汰。
注:图片来源于OpenAI 官网。
在内部测试中,o3-pro在数学基准测试AIME 2024中超越了谷歌的Gemini 2.5 Pro,在博士级科学测试GPQA Diamond中则击败了Anthropic的Claude 4 Opus。
作为OpenAI最强大的推理大模型,受限于价格,o3并未被开发者广泛使用,给了后来的Gemini 2.5 pro的空间。因此,o3-pro发布的当天,OpenAI的CEO奥特曼宣布,o3降价 80%:输出2美元/百万 token、输入8美元/ 百万 token。
Artificial Analysis显示,降价后的o3每输入100个token所支付的金额已经略低于Gemini 2.5 pro,不过后者的智力水平略高于前者。
注:图片来源于OpenAI 官网。
不少用户表示,伴随着AI技术的革新,未来用户调用模型的成本必然会越来越低。不出意外,接下来,会有越来越多能力更出众、价格更优惠的模型上线。
本文来自微信公众号“新言财经”(ID:tech621),作者:王琳,36氪经授权发布。