OpenAI高管自爆:Scaling不死,GPT-5「双轴训练」撕开智能天花板

新智元·2025年08月20日 11:05
奥特曼称GPT-5「比人聪明」,但OpenAI首席运营官Lightcap澄清:这不是AGI。这只是能力过剩的冰山一角——我们仍有十年产品可建,模型越智能,融合越要精妙。GPT-5标志着从纯智商到反思能力的全面跃进。

GPT-5的能力到底有什么提升与意义?人工智能未来走向何处?这款惊艳亮相的OpenAI新模型,如何揭示智能的多种形态?

OpenAI的首席运营官Brad Lightcap在深度对话中揭开了这些问题的答案。

GPT-5为何如此特殊?

GPT-5实现了一个非常有趣的突破:可自主判断是否先进行深度推理再回答。

过去用户必须通过ChatGPT的模型选择器,手动为不同任务挑选模型。提问后,有时你会选思考模式,有时则不会。OpenAI认为这种体验说实话容易让人困惑。

GPT-5彻底简化了这个流程。它不仅自动替你决策,本质上也更聪明。在写作、编程、健康等领域,它准确性更高、响应更快,整体体验全面升级。

大家本以为GPT-5的智能将爆炸式增长,为何OpenAI选择以可用性而非智能提升作为主要卖点?

Brad Lightcap解释道,这是因为智能本质上取决于模型投入的思考时间。

分配越多的思考时长,答案质量就越高——这是基本规律。当在特定基准测试中允许模型思考时,AI的表现远超现有所有模型。

即便不启用思考时间,它给出的答案依然普遍优于GPT-4.1这类非思考型模型。

因此,这是一次全维度的智能飞跃。但关键在于动态分配思考时间的能力——OpenAI认为这才是提升用户体验的核心。

这种进步很难用简单的「指数级」或「渐进式」来界定。

现在人类已经进入需要从多维度评估智能的阶段——OpenAI不是在回避问题,而是为了说明GPT-5为何如此特殊。

在核心能力上,它的提升显而易见:SWEBench测试得分更高,各类学术评估表现更优。OpenAI还特别强化了GPT-5在健康领域的基准表现。

但如今衡量模型优劣的标准已经变得非常多元。

根据训练方式和问题处理机制的不同,我们可以从多个角度进行评估:

-速度本身即质量:单位思考时间内能给出更优答案,这本身就是重要的进步指标

-隐形能力升级:结构化思考、问题分解、工具调用等底层能力全面提升

所有这些维度,GPT-5都超越了前代模型。

Scaling Law未死

从GPT-1到GPT-2、GPT-3,再到GPT-4的每次跃进,能力都是全面提升的。

那时候,「更大的模型=全面更好的模型」。而GPT-5似乎并非如此。所以,情况变了吗?

Brad Lightcap表示:「从技术角度看,情况确实变了。」

从GPT-2到GPT-3,再到GPT-3到GPT-4,主要是利用了当时的Scaling范式。训练规模越大的模型,结果就得到更好的模型。

这个规律依然成立,但现在有了另一类训练方式,即后训练(post-training)。用更有趣的方式使用测试时计算(test-time compute),几乎像是训练的第二阶段。

这提供了一种推动力,让OpenAI能将模型推向新的智能水平,同时还能训练「智多星」。

比如,使用工具对整体智能非常重要。GPT-2和GPT-3在这方面做得不太好。GPT-4在这方面很初级。而现在GPT-5内置了这些能力,结合了多步骤和更长远的推理过程。

既然训练方式开始变化,那OpenAI现在是否认为预训练(pre-training)的回报在递减?

Brad Lightcap强调他们并不认为预训练(pre-training)的回报在递减。

Scaling Law依然成立。从经验上看,没有理由认为预训练的回报会递减。

而在后训练方面,大家才刚开始触及这个新范式的表面。o系列模型,即之前的推理模型,只是OpenAI开始探索后训练的起点。

Brad Lightcap认为未来一两年,主要方向是继续在后训练维度上Scaling,继续看到显著的收益。因为这些收益太明显了。所以现在从两个轴向上改进模型:预训练和后训练。这会加速创新。

从现在起,大多数改进会来自Scaling,还是算法?

Brad Lightcap表示总是组合拳。

算法、规模、计算力和数据,这些都缺一不可。展望未来,OpenAI它们都超级重要,需要全方位发力。

最难的部分当然是让它们完美融合。训练更大的模型,通常意味着你得用更多数据和计算力。这是个微妙的平衡,因为单纯放大规模,不一定总能带来同等的进步。你得把其他元素也带上。

OpenAI不是只按一个按钮,而是真的很用心,把所有这些拉到一起。

GPT-5能力过剩

但不叫「AGI」

在Theo Von的播客节目中,奥特曼说:「GPT-5在几乎所有方面都比人聪明。」

这听起来就像他想象中的AGI。他似乎想叫它 AGI,但OpenAI又没有明确这样说。所以,为什么GPT-5不是AGI?

Brad Lightcap解释道:「AGI确实难以定义」。

有个笑话说,你问五个人AGI是什么,会得到七种答案。

OpenAI看待AGI的方式是,AGI是个积累过程,是个系统。你得定义这个系统是什么,你期待它能做什么。

对Brad来说,至少,AGI是一个能稳定学习新事物(哪怕超出其训练分布)的系统,这种能力源自它的推理、思考、解决问题、使用工具以及提出新想法的能力。但他不认为GPT-5就是AGI:GPT-5以及后续模型中,开始看到的是这种「通用化学习系统」的部分雏形和模块。

而且很难确定AGI和非AGI的分界点。即便真有这个时刻,也不确定大家会在第一时间意识到。因为在和这些模型共事中,「能力储备过剩」很显著。奥特曼说的「口袋里的博士」这种智能水平,其实大家还没有真正完全利用好。

从某种意义上说,即使现在AI的发展暂停十年,大家依然会有大约十年的新产品可以构建,依然会有新方法来把GPT-5这种水平的模型融入有趣的产品和流程中。

一个有趣的现象是,模型越聪明,反而越要求产品设计方在如何将它融入系统方面投入更多。

Brad Lightcap常打个比方:

实习生非常聪明,但他们最终做的事情有限:记会议笔记、写摘要、做基础分析。

但如果你带来的是一位博士,他们的能力范围就很广了,只是第一天上班时可能并不立即高效。你要做的就是给他们足够的背景、信息和工具,让他们在后续发挥最大价值。而这个过程比让实习生上手所需的时间更长。

他认为AI模型也类似,这是一个持续的过程,并不会是线性的。

这引出个超级有趣的问题:从现在起,继续让模型更聪明有意义吗?还是该建哪些辅助能力?那么对于OpenAI来说,接下来的目标是继续增强智能,还是专注于那些「非智力」能力?

Brad Lightcap表示全都要。

一部分就是纯IQ:对事物运作的知识信息回忆的能力。

但还有推理能力:

怎么用其他工具解决问题;

反思能力:回顾自己的思路链,当你觉得走错路、没想对策略时,及时修正。

在这些问题上,GPT-5比之前系统好。

对OpenAI来说,现实世界基准作为智能标志,越来越重要,比学术基准更关键。

而「持续学习」(continual learning)这绝对是OpenAI优先事项之一。

首次用上推理AI

震撼免费用户

沃顿商学院的Ethan Mollick提前测试了GPT-5,他提出了一个有趣的观点:

如果你一直在关注这条发展曲线,那么GPT-5的进步可以说是一个巨大的飞跃,但也是一个出乎意料的飞跃。

他还提到:「这些模型在数学奥林匹克竞赛中获得了金牌。我越来越难以理解这些巨大的进步到底意味着什么。」

现在的所有模型都在快速改进。那么问题来了,如果你有一个大学水平生物学的模型,然后它达到了研究生水平的生物学,普通聊天机器人的用户可能不会感受到这种变化,尽管它变得更聪明了。

有人说,对于ChatGPT重度用户来说,这次提升会被感知到,但可能是比较细微的提升。

但对于普通用户,尤其是免费用户来说,这将是一种巨大的飞跃。大多数免费用户从未体验过推理模型的威力。他们大多用的是GPT-4.0,而且主要是进行类似搜索的简短、回合式对话,这种方式并不能体现模型的全部能力。

所以,对很多人来说,这将是他们第一次使用具备推理能力的模型。而且不仅如此,这也是他们第一次体验到「自我反思」的模型:根据问题的难度,GPT-5模型会自行决定花多少时间思考、给出多高质量的答案。

这其实是一件好事——如果一直紧追最强AI,那么你会感到目眩神迷,但进步也会显得更连续。而如果你一直用的是一两年前的最佳模型,那么这次的跃迁会让你非常震撼。

每个人的切入点都不一样,这也是有趣之处——它对每个人来说都是很个人化的体验。

GPT-5特别关注了健康领域,因为这是用户使用AI最常见的起点之一,尤其是有健康问题时。这是OpenAI的重要目标。

两大落地场景

健康与企业

Brad Lightcap认为AI不会取代医生:

人们依然需要与全科医生或专科医生合作进行治疗。

但有一个可以陪伴左右、在整个过程中提供指导的工具,对很多人来说是很有安慰感的,并且在很多情况下确实能发挥作用。

OpenAI推动模型在健康领域的能力提升,一直是他们重点关注的方向。

从GPT-5开始,未来的模型,准确率持续上升,幻觉率持续下降。

具体来说,GPT-5的准确率大约是前代模型的4到5倍(取决于测量方式)

在很多方面,还没有看到企业界人工智能的「ChatGPT时刻」。

相对于消费者,AI对企业是另一类难度。

企业流程复杂,多用户依赖很常见,必须处理大量的上下文,必须使用许多工具。这些工具必须以某种方式、在某些限制下依次使用。当它们不起作用时,容错率没有那么高。

只有能力基线的提升,AI在企业领域才能有所作用,包括使用工具、有条理思考、解决问题、递归纠正自身错误、进行长上下文检索等能力。

这些能力在边缘确实很重要。

OpenAI与多家企业合作测试这些模型,特别是GPT-5。从像Uber、Amgen、Harvey、Cursor、Lovable、JetBrains等公司那里,OpenAI得到了很多反馈。

如Cursor、JetBrains、Windsurf、Cognition等,都反馈说GPT-5现在感觉是最强大的编码模型,无论是在交互式编码环境中还是在更具代理性的编码环境中。

此外,GPT-5在其他领域中的推理和解决问题的能力有了显著提高。

Harvey就是一个很好的例子,Harvey AI与律师事务所合作,非常依赖其可靠、准确和一致地分析案例的能力,提供法律分析时所需的那种结构化思维水平。

GPT-5已经非常强大,未来肯定会有更优秀的模型,这一点毋庸置疑。

但目前OpenAI只专注于两件事:如何让更多人用上GPT-5,以及如何支持合作伙伴基于它开发生态。

我们仍处于科学探索阶段——这才是最令人兴奋的地方,就像比赛才刚开局,OpenAI自己也还在理解当前的范式。

GPT-5是重要的第一步,只有认清现状,才能看清未来。

参考资料:

https://www.bigtechnology.com/p/799049c8-5054-45c0-8ee7-9de1f2191759

本文来自微信公众号“新智元”,作者:新智元,编辑:KingHZ,36氪经授权发布。

+1
6

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

新开业项目仅个位数,量少质优。

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业