兵临OpenAI,谷歌集结2500人「复仇」,Gemini 3夺回AI王座
谷歌AI的集体胜利:Gemini 3发布,参与人数媲美NASA登月!从芯片到算法的全栈专家合力,Koray与Logan剖析工程协作的魅力。
伴随Gemini 3的发布,谷歌一举问鼎AI王座!
曾经被认为处于「落后」状态的谷歌,如今正凭借一系列技术、战略与资源优势,试图夺回在生成式AI时代的主导地位。
近期,谷歌DeepMind的CTO Koray Kavukcuoglu与谷歌AI Studio产品Logan Kilpatrick负责人深度剖析Gemini 3发布盛况、AI前沿创新及AGI征途。
全程45分钟,聚焦模型优化、工程协作与生成媒体崛起,揭示了谷歌AI战略蓝图。
这一轮升级,不只是「又多了一个大模型」,而是谷歌在公开宣告——
我们要和全球用户一起,共建下一代智能系统。
与用户共创,一切才刚刚开始
Gemini 3发布,AI界进入「共建AGI」新阶段。
「我对现在的进展非常激动。」在现场,Koray Kavukcuoglu难掩兴奋,
我们确实在多个维度上推进了技术边界。这就是我们构建AGI的方式:脚踏实地、全情投入。
这并不是一次闭门造车的科研成果,而是一次面向全球用户的「共建实验」。
「我们正和用户一起,协同打造AGI。世界已经变了,新技术正在重塑人们的期待。」
他微笑着补充:「突然之间,更多人都能成为创造者。让任何事物成真。」我们正处在一个激动人心的时代。
Koray表示,很多人对AGI的想象,还是停留在实验室里的「象牙塔」模式。但现实恰恰相反——
「我们并不是关起门来搞研究,而是在与整个世界共同构建AGI。」
他指出,AGI是可靠的系统工程。要构建一套稳定、安全、可靠的系统,就必须从最底层开始打基础。
谷歌采用工程师的思维方式,事先就要考虑这些因素。
他介绍道,在Gemini的训练过程中,安全团队、安全技术、乃至每一位模型研发成员,都直接参与了模型训练的后期过程。「我们不会等到模型做完才来检测安全性,而是把安全性当作核心目标,与模型能力的迭代同步进行。」
Gemini 3的发布不仅是一次模型迭代,更是一场涵盖谷歌各大团队的集体行动。Logan说:「这可能是Google历史上参与人数最多的一次技术发布,仅次于NASA登月。」对此,Koray点头称是。
从2.5到3.0:Gemini不断加速
主持人Logan Kilpatrick是DeepMind团队成员。上次两人坐在一起,还是Gemini 2.5发布时,他们在I/O大会上听Dennis和Sergey谈AI。
当时,Logan就觉得进展非常快——现在看来,根本没慢下来。
Koray对研究的进展非常兴奋。他表示,不管是数据处理、预训练还是后训练,一切都离不开创新:
越是贴近真实世界,模型的接触面越广,反馈信号越丰富,从中诞生的想法就越多。
我们面临的问题会越来越复杂,而正是这些挑战推动我们一步步走向智能的本质。
在某些基准测试上,AI已经接近饱和。
很多人担心,这是不是意味着进展停滞?
Koray并不认同这种看法——
测试集本来就是当初技术尚未突破时设定的,所以过一段时间自然会「被攻克」。
要提升模型能力,就需要不断设立新的基准。这是机器学习的常态:基准推动模型发展,而新模型又促使我们重新定义基准。
技术进步不靠「挤压分数」,而靠重新定义边界。
以GPQA、人类最后的考试等高难度测试为例,最初模型几乎拿不到分,但现在能达到40%以上,这说明模型确实在进步。虽然「每次只提高1%」,但这些1%往往意味着突破了极其复杂的问题。
在Koray看来,最重要的进步衡量标准是——
用户真的在用:
科学家、学生、律师、工程师都在用Gemini模型来写作、编程、创作内容……
在真实世界中,AI模型能持续创造价值,这才是真正的进步。
落地才是AGI的关键
如今,AI基准测试种类繁多。到底要怎么决定要在哪些方面持续发力?
谷歌一直重点关注以下这两大领域。
指令遵循(instruction following)——模型必须能理解用户请求,并按要求回应。
国际化。「谷歌是全球化公司,我们必须确保模型适用于全球用户。」
谈到更技术性的领域,Koray特别提到几个关键词:
函数调用、工具调用、智能体行为、编程能力……
他解释说:「AI模型不仅能自然调用各种工具和函数,更能自己写出这些工具。某种意义上,模型本身就是一种工具。」
这不仅为模型提供了推理能力,也拓展了其实际应用场景。
而代码能力的重要性,不仅因为「大家都是程序员」,更因为代码是数字世界的底层语言——只要你会写代码,就可以创造任何东西。
这意味着,谷歌让更多人拥有了「构建的能力」。
Logan提到这次Gemini 3的发布,还同时上线了谷歌新平台Anti-gravity,一个AI驱动的编程智能体平台。他好奇这种产品层面的「共建」对模型训练是否真的有帮助。
Koray毫不犹豫地回答:「非常重要。」
在他看来,Anti-gravity不仅是一款产品,它让模型直接面对用户,尤其是开发者。谷歌可以从中获取第一手的使用反馈,了解模型在哪些地方需要改进。他举例说:
不仅是Anti-gravity,AI Studio、Gemini App、搜索的AI摘要功能——我们通过这些产品获得了大量反馈。
正是这种与产品的深度整合,帮助我们了解用户真正的需求。
他强调道:「AI模型要真正有用,必须在真实场景中落地。这才是关键。」
Gemini 3很强,但还远未「满分」
Gemini 3刷新了多项基准测试,但谷歌清楚知道他们还有很长的路要走。
他们很清楚——
写作、编程不够完美。
特别是「智能体行为」和「工具使用」这块,Gemini还有很多提升空间。
Koray坦言:「并不是有意忽视智能体与工具调用,我觉得主要原因是——我们当时离真实世界的应用场景还不够近。」
他说,Gemini项目一开始更多是在研究环境中展开,但随着项目逐步转向产品化,它的「开发环境」也越来越贴近实际需求。越贴近用户,越能理解真实的技术难题。
五年前, Gemini研究人员还在写论文、做研究。而现在,每六个月Gemini迭代一次,每月或每六周更新一次。
过去是25人署名论文,现在是2500人参与Gemini 3项目。
回首往事,真是令人感慨!
他认为,这是谷歌的巨大优势之一——从芯片、数据中心、网络、工程到模型算法,每一层都有世界级专家,而Gemini正是在这种「全栈协作」的基础上诞生的。
「这就是为什么需要几千人合作。这不是障碍,这是力量。」
统一架构:我们正在靠近「万能模型」
谈到多模态发展时,Logan提到Gemini V3、Nano Banana模型等图像与视频生成模型的进展,并好奇:「视频模型真的是构建AGI的一部分吗?」
Koray回顾了过去十几年的发展:
最早的生成模型集中在图像,是因为图像更容易观察和理解世界中的物理规律。
过去,大家以为文本进展会慢,但事实证明文本是最容易突破的领域。
现在,图像、视频、音频等多模态模型的能力正在回归,它们和文本模型的架构也正在趋同。
他举例说,Nano Banana模型是首次让用户能与图像生成模型进行对话式交互,「文本模型带来的世界理解能力,和图像模型带来的感知能力,一旦结合,就会产生极大的协同效应。」
他还解释道:
现在模型架构确实越来越统一了,过去图像模型和文本模型的架构差异很大,但现在它们正在自然融合,因为大家都在追求更高的效率与表现力。
尽管趋势在向统一架构迈进,但Koray指出:图像生成仍然是一个难度极大的方向。
因为AI模型的学习信号主要来自输出空间,而现在的学习信号以代码和文本为主,图像则更难。
「图像不仅要像素级完美,还要概念上连贯。它每一个像素的存在都要契合整张图的主题。这种双重要求,训练起来特别难。」
不过Koray也很乐观:「我们会继续寻找适合的模型创新,让统一模型真正成为现实。」
当Gemini模型能把大段复杂文本的核心概念,用一张图表达出来,那感觉就是魔法时刻。
他认为,这正是多模态模型的价值所在——AI模型不仅能理解抽象,还能用最直观的方式表达出来。
诚实面对落后,是唯一的出路
加入谷歌的初期,Logan有种「谷歌是AI界的挑战者」的感觉。虽然有技术底子,但外界并不看好。
Koray点头回应:「我当时也有一样的感觉。说实话,在大语言模型(LLM)刚崛起的阶段,我们并不在最前线。」
这也是一次深刻的教训——永远不要忽视新方向的重要性。
启动Gemini项目时,谷歌非常明确形势:「我们落后了,我们需要迎头赶上,我们还没有掌握关键能力。」
初期,Gemini团队必须快速学习别人的做法,同时找到自己的创新路径——无论是模型结构、训练流程、数据使用还是协作方式,都做了非常深度的调整。
如今,他们找到了独属于谷歌、属于Gemini的系统打法。
外界常说,谷歌太大、太慢、不够灵活。但Koray有不同看法——
规模不是阻碍,是独特的力量源泉。
谷歌下一阶段怎么超越自己?
Koray的回答一如既往地冷静清晰:
我们一定会继续进步,每一个方向都有改进空间。
我们的目标一直很清晰——构建真正的智能。我们会把全部的心思、创新力和资源投入到这条路上,行稳致远。
Gemini下一阶段永远在前线,也永远准备好革新。
参考资料:
https://www.youtube.com/watch?v=iFqDyWFuw1c&t=1s
https://fortune.com/2025/11/25/google-sleeping-giant-dark-horse-ai-race-gemini/
本文来自微信公众号“新智元”,作者:新智元,编辑:KingHZ,36氪经授权发布。















