Gemini 3 之后,谷歌首席科学家 Jeff Dean 说清 AI 的 3 个关键信号

AI深度研究员·2025年11月25日 09:10
Gemini 3转向效率与行动力,AI从回答到做事。

Gemini 3,又一个最强模型出现。

但和上一次相比,它到底变了什么? 是跑分又涨了几个点,还是 AI 真的不一样了?

就在 Gemini 3 发布后,11 月 22 日,Jeff Dean 在斯坦福大学发表演讲,系统回顾了 15 年 AI 演进,从神经网络、TPU、Transformer 到稀疏模型和蒸馏技术,最后展示 Gemini 3 的独特能力。

在演讲中,Jeff Dean 没有讲 benchmark 数字,也没有做产品宣传。他说的是:

为什么 AI 应该像大脑那样工作?

为什么 AI 要从能说变成能做 ?

为什么下一代 AI 不拼参数,而是拼效率?

在 Jeff Dean 的视角里,Gemini 3 不只是一个更大的模型,而是让 AI 的用法彻底变了。

这三条判断,才是这次发布背后真正的信号。

信号一:从拼大小,到像大脑

演讲一开始,Jeff Dean 就直指一个问题:传统 AI 模型太浪费了。

他说:

“在传统神经网络中,你为每个例子激活整个模型,这非常浪费。更好的方式是:拥有一个非常大的模型,但每次只激活其中 1% 到 5%。”

假设你有一个巨大的模型,包含了图像、语言、数学、代码等各种能力。传统做法:无论你问什么问题,整个模型都要调用一遍。就像每次开灯,家里所有电器都要启动。Jeff Dean 的想法:根据任务类型,只运行需要的那部分。处理图片时,只用视觉模块;写代码时,只用编程模块。

他用大脑做比喻:你坐在英语课上,大脑会使用处理语言的那部分;开车时,大脑就关闭它,将全部精力专注于控制身体和观察路况。AI 模型也应该这样工作。

这个想法不是为 Gemini 3 才提出的。

早在几年前,Jeff Dean 就开始推动团队往这个方向研究,并给它起了个名字:Pathways 架构。该架构的核心目标,是构建一个超大模型却能保持高效,让每次推理仅激活一小部分路径。

Google 通过“专家混合”(MoE)技术来实现的:

模型内部有很多专家模块

有的擅长图像,有的擅长语言,有的做信息融合

输入数据进来后,系统自动决定调用哪些专家

效果有多好?Jeff Dean 在演讲中展示的数据很惊人:用同样的计算预算,MoE 架构可以训练出效果提升 8 倍的模型。

而 Gemini 3,正是这套理念的最新实践。

它不再一次性加载全部权重,而是按需调用专家模块。

结果是:性能更强,成本更低,还能同时处理多个任务。就像你的大脑:处理复杂问题时多个区域协同工作,做简单事情时只用一小部分。

这个转变意味着什么?

未来的顶级模型,不再是一个什么都做的全能选手,而是各有专长、协同工作的专业团队。

AI 竞争的关键,从“谁的模型更大”,变成了谁能更好地调用工具。

信号二:AI 为什么不只是回答?

如果说第一节讲的是模型内部如何变聪明,那第二节要讲的是:它开始能为你做事了。

在演讲现场,Jeff Dean 演示了一个例子:一位用户有一堆家族食谱,有些是韩语手写的,有些是英语的,都是老照片,有折痕和油渍。

用户的需求很简单:做一个双语食谱网站。

然后,Gemini 3 做了什么? 第一步:扫描并识别所有照片中的文字; 第二步:翻译成双语版本; 第三步:自动生成网站布局; 第四步:为每个食谱配上 AI 生成的配图。

整个过程,用户只说了一句话。

这就是传统助手和智能 Agent 的区别。助手是你问什么它答什么,Agent 是你说目标、它自己拆解任务、调用工具、完成整个操作链。

Jeff Dean 说:

AI 不只是回答你,而是具有行动能力。

这个能力背后的技术突破是:在可验证领域的强化学习

什么意思?

以编程为例:

  • AI 生成一段代码
  • 系统自动检查:能编译吗?
  • 如果能,给奖励;如果不能,给惩罚
  • 更进一步:代码通过单元测试了吗?
  • 通过了,给更多奖励

同样的逻辑也适用于数学:

  • AI 生成一个证明
  • 系统用证明检查器验证
  • 正确就奖励,错误就指出是第几步出错

Jeff Dean 说:这个技术突破使模型能够真正探索潜在解决方案的空间,随着时间推移,它在探索这个空间时变得越来越好。

效果有多惊人?Gemini 在 2025 年国际数学奥林匹克竞赛(IMO)上,解决了六道题中的五道,获得金牌。

这个成绩有多震撼?

要知道,就在三年前的 2022 年,AI 模型在数学推理上还非常弱。

当时,业界最先进的模型在 GSM8K(一个中学数学基准测试)上的准确率只有 15%。测试的题目是什么难度呢?比如:Sean 有五个玩具,圣诞节他又得到了两个,现在有几个玩具?

这种小学算术题,当时的 AI 正确率也只有 15%。

而现在,Gemini 能解决的是国际数学奥林匹克的题目,这是全球数学天才竞赛中最难的问题。

从小学算术到奥赛金牌,用了不到三年时间。

这个飞跃说明,AI 不只是在回答问题上变强了,而是具备了真正的问题解决能力。它能够自己探索、尝试、验证,直到找到正确答案。

具体来说,Agent 需要三个关键能力:

状态感知:知道你想要什么、理解当前进展

工具组合:能调用搜索、计算器、API 等外部工具

多步执行:根据反馈调整计划、循环尝试直到完成

而 Gemini 3 通过和 Google 生态的深度集成,可以串联日历、邮件、云端服务等真实系统,把这些能力真正用起来。

就像前面的食谱网站案例:你不需要说“先识别文字,再翻译,再排版”,只需要说“做个网站”,Gemini 3 自己搞定所有步骤。

这改变了每个人工作方式:

过去,你要告诉 AI 每一步怎么做。

现在,你只需要说出目标,剩下的 AI 自己搞定。

你的角色从使用者变成了指挥者。

信号三:什么决定 AI 能否普及?

如果说 Pathways 架构让模型变聪明,Agent 系统让模型能行动,那第三个信号最容易被忽视,但可能最关键:让 AI 真正用得起。

Jeff Dean 在斯坦福讲了一个 2013 年的故事。

当时,Google 刚做出一个很好的语音识别模型,比现有系统的错误率低很多。Jeff Dean 做了一个测算:如果 1 亿人开始每天和手机说话 3 分钟,会发生什么?

答案是:需要把 Google 的服务器数量翻倍。

就是说,一个功能的改进,要付出整个公司服务器资源翻倍的代价。

这让 Jeff Dean 意识到:光有好模型不够,必须让它用得起。

于是,TPU 诞生了。

1、TPU:为效率而生的硬件

2015 年,第一代 TPU 投入使用。它专门为机器学习设计,做了一件事:把低精度线性代数运算做到极致。

结果是什么?

比当时的 CPU 和 GPU 快 15 到 30 倍,能效高 30 到 80 倍。

这让原本需要翻倍服务器才能推出的功能,现在只需要现有硬件的一小部分就能实现。

到了最新第七代 Ironwood TPU,单个 pod 有 9,216 个芯片。如果和第一代机器学习超级计算 pod(TPUv2)比,性能提升了 3,600 倍,能效提升了 30 倍。

Jeff Dean 特别指出,这些提升不只靠芯片工艺进步,更重要的是谷歌从设计之初就把能效作为核心目标。

2、蒸馏:让小模型学会大模型的能力

硬件是一方面,算法是另一方面。

Jeff Dean 和 Geoffrey Hinton、Oriol Vinyals 一起研究了一个叫“蒸馏”的技术。

核心思想是:让大模型当老师,教小模型。

在一个语音识别任务中,他们做了个实验:

  • 用 100% 的训练数据,准确率是 58.9%
  • 只用 3% 的训练数据,准确率掉到 44%
  • 但如果用蒸馏,只用 3% 的数据,准确率能达到 57%

他们实现了用 3% 的数据,达到接近 100% 数据的效果。

Jeff Dean 说:

“你可以训练一个非常大的模型,然后用蒸馏让一个小得多的模型获得非常接近大模型的性能。”

这就是为什么 Gemini 可以同时做到性能领先和手机可用。大模型在云端训练,小模型通过蒸馏学习,部署到手机上。参数只有十分之一,但保留了 80% 以上的能力。

3、真正的门槛:能不能在现实约束下落地

但技术突破只是第一步。Jeff Dean 认为,AI 要真正普及到全球,必须面对更现实的问题:能源够不够?电力稳不稳?网络通不通?设备能不能支持?

这也是为什么 Google 要在东南亚等新兴市场推广 AI。这些地区可能没有强大的电网和服务器基础设施,但通过 TPU 和蒸馏这样的效率技术,人们依然可以在现有条件下用上 AI。

Google 的策略不是等条件完美了再推广,而是让技术适应现实。

这背后的逻辑改变了整个行业的关注点。

过去,大家比的是:

  • 这个模型有多强?
  • 多大参数?多少 token?

现在,真正重要的是:

  • 它能不能在我的设备上用起来?
  • 成本能压到多少?
  • 能不能离线用?

下一轮竞争,拼的不是参数,是落地效率。

结语|从模型,到系统

看性能数据,这是一次模型升级。

看 Jeff Dean 的思路,这是一次范式转变。

从 2013 年服务器要翻倍的困境,到 2025 年拿下 IMO 金牌,Jeff Dean 一直在回答一个问题:

如何让 AI 既强大,又可用?

答案是三个转变:

不是拼谁的模型更大,而是拼设计更聪明(Pathways)

不是拼谁的回答更准,而是拼能真正做事(Agent)

不是拼谁的参数更多,而是拼能让更多人用上(TPU+蒸馏)

Gemini 3 不是终点,而是这套系统思维的第一次完整展现。

📮 原文链接:

https://www.youtube.com/watch?v=AnTw_t21ayE&t=921s

https://blockchain.news/ainews/key-ai-trends-and-deep-learning-breakthroughs-insights-from-jeff-dean-s-stanford-ai-club-talk-on-gemini-models

https://blog.google/products/gemini/gemini-3/?utm_source=chatgpt.com

https://www.wired.com/story/google-launches-gemini-3-ai-bubble-search?utm_source=chatgpt.com

本文来自微信公众号“AI 深度研究员”,作者:AI深度研究员,36氪经授权发布。

+1
22

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

AI项目失败,更多是因为企业准备不足,而非模型本身不佳。

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业