万亿级 AI 赌注之后,Ilya Sutskever:只堆算力和肯做研究,结果会差多远?

AI深度研究员·2025年11月26日 08:58
Ilya:AI从堆算力转向研究时代

万亿级赌注,已经押下去了。

Gartner 预计,仅 2025 年全球 AI 支出就将接近 1.5 万亿美元,2026 年将突破 2 万亿美元;英伟达 CEO 黄仁勋判断,本十年 AI 基础设施投入可能达到 3 万亿到 4 万亿美元,称之为新工业革命。

所有人都在抢 GPU、建数据中心、拉电网。问题似乎只剩一个:还能再堆多少算力?

前 OpenAI 首席科学家、Safe Superintelligence Inc.(SSI)创始人 Ilya Sutskever,在 2025 年 11 月 25 日最新一期《Dwarkesh Podcast》播客里,给出了完全不同的答案:

We're moving from the age of scaling to the age of research(扩展的时代结束了,研究的时代开始了).

说这话的人,恰恰是最早把算力假说推向极致的人之一。2024 年离开 OpenAI 后,他创办了 SSI,一家只做一件事的公司:安全的超级智能。

不到一年,SSI 以 320 亿美元估值完成 30 亿美元融资。

在这场 90 分钟访谈里,他给出了三个核心判断:

当今大模型的迁移能力远不如人类;

继续砸钱买参数、买数据、买算力,边际收益正在快速下降;

真正行业拉开差距的,不是谁资源更多,而是谁更懂怎么做研究。

当“堆算力”的时代进入给“做研究”时代,AI 行业的底层逻辑正在改写。

第一节|堆算力的时代,快结束了

Ilya 开场就下了判断:

我们正从扩展时代,进入研究时代。

所谓扩展时代,是指参数+算力+数据三要素不断放大,模型能力就会持续上涨。OpenAI、Anthropic、Google DeepMind 等一线实验室都在用这套方法,也一度有效。

但 Ilya 认为,这个时代已经要到顶了。

“扩展成了行业共识:买更多 GPU、建更大数据中心、训练更大模型。只要方法不变,谁动作快、谁预算多,谁就领先。”

问题是,这样下去导致的不是创新,而是资源军备竞赛。

Ilya 本人是扩展路线的坚定推动者。他主导的 GPT-2、GPT-3 就是典型的扩展范式产物。但他现在的看法是:只堆参数,已经走到瓶颈。

SSI 押的是一个技术方向:未来超级智能的差距,不在于谁有更多的 GPU,而在于谁能找到新的训练方法。

AI 已经不是谁投入得多就赢,而是谁知道该往哪个方向突破。

他甚至直言:

“现在的模型,评测分数很高,但实际产生的经济价值很有限。看起来能力很强,但你真让它干活,就会发现问题。”

你以为能力很强,其实只是 benchmark 上好看;你以为差距不大,真正部署时才发现处处都是坑。

边际收益递减、能力与表现脱节,核心原因只有一个: 算力和参数仍然重要,但不再是模型决定性因素。

接下来,我们就来看:Ilya 所说的研究时代到底意味着什么?

第二节|模型会考试,但不会干活

为什么 benchmark 好看,实际却问题成堆?Ilya 给出的答案是:模型的泛化能力出了问题。

“它一方面能写论文、解数学题,另一方面却会把一句话重复两遍。”

这不是单点 bug,而是系统性缺陷:模型会考试,但不代表它真的理解。 问题不只出在模型本身,还有训练它的人。

Ilya 在访谈中提到一个现象:

“我们训练模型的方式,太依赖评测基准。研究团队为了让分数好看,专门设计 RL 训练环境来刷榜。”

训练资源过度集中在少量任务上,比如竞技编程、标准化答题。模型确实越来越强,但也越来越像刷题机器,只会那几件事。

他甚至说:

真正的奖励黑客,不是模型,而是刷 benchmark 的人类研究员。

他用两个学生来类比:

  • 学生 A:练习一万小时竞技编程,刷遍所有题目,排名前列;
  • 学生 B:只练习一百小时,但对问题的理解有自己的体系。

“谁将来在真实职业中表现更好?毫无疑问是第二个。因为他没有死记硬背,而是抓到了问题本质。而今天的大模型,大多像第一个学生。”

今天的模型缺的不是能力,而是判断什么值得学的能力

Ilya 并没有否定大模型的知识能力:在数学、语言、编程上,它们甚至比普通人更强。但它们学得更慢,应对新情况时更容易出错。人类能凭直觉判断自己是否真的理解,而模型做不到。

他想追问的,是训练方法的问题:

  1. 预训练:数据全放进去,不需挑选,结果啥都会一点;
  2. 强化学习(RL):人类设置任务和奖励,模型按目标优化,但容易过拟合奖励;
  3. 泛化能力:能不能做没训练过的任务?能不能迁移已有知识?能不能自我纠错?

模型只会考试、不懂应用的问题,根源在于训练过程无法教会它举一反三。

所以,AI 新突破:不是谁的模型能力更强,而是谁的训练方法能真正教会模型泛化,让模型学会将知识应用到新场景。

这需要的不是多加几个 RL 环境、多刷几套题,而是重构训练策略本身。

第三节|为什么现在的训练方法不行

第二节讲了泛化问题,但为什么这个问题这么难解决?

Ilya 给出的答案是:不是资源不够,而是训练方法本身有根本性局限。预训练的困境:见过很多,但理解不深。

这并不否定预训练的价值。

Ilya 清楚指出预训练的两个优势:

数据全、量大,能覆盖足够多的行为;

不用手工挑选,训练流程自动化程度高。

但他也指出预训练的根本局限:它看起来像人类前 15 年的经验积累,但人类学得少得多,却理解得更深。

人类早就不会犯那些模型犯的低级错误。预训练让模型见过一万个编程案例,但它不会自己总结什么时候该用递归、什么时候该用循环。它只是在照葫芦画瓢,而不是真正推理。

RL 试图让模型学会目标导向的行为,但又带来新的困境:研究团队必须手动设计任务、定义奖励。这导致两个问题:

一是模型只学会了那几个任务,而不是学会了如何学习;

二是模型过度优化奖励函数,反而失去了对任务本质的理解。

Ilya 提到一个关键缺失:“价值函数”

人类在学习时,有一种对做得好不好的直觉判断,这让我们能够自我纠错、迁移经验。但现有的 RL 方法无法给模型这种能力。

Ilya 用一个场景总结了现有方法的局限:

“你用模型修 bug,它说:‘你说得太对了,我修一下。’修完之后,它引入另一个 bug。你指出后,它说:‘你又说对了。’然后,它又把第一个 bug 带回来。”

这不是模型不聪明,是它根本没有判断机制。

它不知道自己是理解了还是蒙对了,不知道这个方向值不值得继续,不知道如何评估自己的推理过程。

预训练和 RL 都是“离线学习”:在训练阶段完成所有学习,然后模型定型后投入使用。这导致模型永远只能对已知问题表现出色,一旦进入未知场景,就容易出现不可预测的行为。

更重要的是,这种范式无法让模型学会最关键的能力:判断什么值得学、什么时候学对了、如何迁移已有知识。

这就是为什么继续扩大参数规模、数据规模、算力规模都解决不了根本问题。

你可以让模型更大,但如果训练方法不变,它永远只是一台精密的答题机器,而不是真正的学习者。

第四节|Ilya 的新答案:让模型持续学习

如果说前三节讨论的是扩展逻辑本身的收益递减,那么 Ilya 在这次访谈里真正想传达的,是一个更深层的转向信号:

AI 安全,不是一个产品上线前才考虑的问题,而是从你决定怎么训练模型那一刻就已经开始。

训练方法本身,决定了模型在未知场景下是否安全可靠。

很多人以为安全问题意味着模型要守规矩,或者不撒谎。

但 Ilya 的判断是:对齐(alignment)问题,本质是泛化能力不足。当模型进入真实世界,它无法理解哪些行为是允许的,哪些是不应该尝试的。

不是因为模型坏才会作恶,而是没理解上下文;

不是因为人类没设好奖励,而是模型根本没学会判断长期影响。

这让对齐问题,变成了一个更基础的问题:你到底教会模型什么?它怎么知道自己学会了?它是怎么推理未知任务的?

如果模型只是记住答案,那就是定时炸弹;但如果它能知道推理原则,就更像一个能理解边界的人。

Ilya 在访谈里明确提出,他不再相信预训练一次性完成的思路:

人类不同于 AGI。我们依赖的是持续学习。

真正的智能体,不是在训练时完成学习,而是在部署后持续学习。

他用比喻解释:你可以训练出一个超级聪明的 15 岁少年,但他什么都不会。真正的能力,是他接下来如何进入社会、吸收反馈、逐步获得技能。

这不只是能力问题,更是安全问题。因为这样可以避免模型在未知情况下失控。

Ilya 清楚知道,扩展方法已经无法支持持续学习:

预训练是固定的学习阶段,无法实时适应

RL 强依赖奖励设计,容易被过度优化

评测机制倾向于结果好看,不管过程是否合理

因此,他强调:我们需要新的方法,能在学习过程中持续校准模型的推理能力。真正的突破,不是一个更大的模型,而是一个会自我评估的模型。

这不只是训练策略的微调,而是范式切换:

  • 从离线预训练到部署中的在线学习,
  • 从单向优化目标到交互式多轮反馈,
  • 从封闭式数据集到开放世界动态任务,
  • 从对齐评测到对齐过程本身。

他还提出,如果能设计出一种结构,使模型拥有类似人类情感中枢的机制,那可能才是真正能构建出可信任超级智能的方法路径。

Ilya 举了一个例子:

“为什么今天 Linux 更安全?不是因为我们一开始想得很周全,而是因为它被部署到真实世界中,被使用、被攻击、被修补。”

他认为,AGI 也必须经历类似过程:逐步部署、获得真实反馈、保持结构可控、机制透明,而不是闭门造车,最后发布一个黑盒模型。

也正因此,他才决定成立 SSI,只干一件事:构建一个可以持续学习、对齐人类、能逐步部署的超级智能。不做应用,不做工具,产品就是那个智能本身。

所谓安全,不是一句合规口号,而是一种训练哲学。

从第一行代码开始,从第一个训练样本开始,就在决定模型未来的走向。

这也意味着,真正的 AI 差距,正在从资源规模,转向方法创新。

结语|研究回归:一个技术转折点的到来

90 分钟访谈里,Ilya 的立场很明确:

扩展的收益正在递减,研究能力成了拉开差距的关键。

相应的评价体系也在发生转变。模型能力的提升不再依赖于参数规模的简单扩大,预训练阶段无法独立解决模型“举一反三”的泛化问题,持续学习成为保证安全的必要条件。“对齐”不再是产品上线前的一道检查工序,而是贯穿整个训练过程。

计算 GPU 成本、分析 ROI、追逐 benchmark 排名这套扩展时代逻辑,正在失效。问题不是多投入算力能不能更强,而是这条路本身还走不走得通。

安全的超级智能,不只存在于论文和共识里。它是技术路径、组织结构、商业逻辑的协同结果。

这个转折点已经到来。谁能抓住,还不确定。

📮 参考资料:

https://www.youtube.com/watch?v=aR20FWCCjAs

https://x.com/dwarkesh_sp/status/1993371363026125147

https://www.gartner.com/en/newsroom/press-releases/2025-09-17-gartner-says-worldwide-ai-spending-will-total-1-point-5-trillion-in-2025

https://ssi.inc/

https://www.reuters.com/technology/artificial-intelligence/openai-co-founder-sutskevers-new-safety-focused-ai-startup-ssi-raises-1-billion-2024-09-04/

https://www.dwarkesh.com/

本文来自微信公众号“AI 深度研究员”,作者:AI深度研究员,36氪经授权发布。

+1
7

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

随着厂商开始推出性能极高的MCU,我们越来越难分清MCU和MPU的界限了。

49分钟前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业