谷歌AI往事:隐秘的二十年,与狂奔的365天
一年前,谷歌在硅谷的叙述中还是一个充满了“中年危机”色彩的角色。
但短短一年后,故事发生了翻天覆地的变化。
Gemini 3横扫各大榜单,「香蕉」模型Nano Banana Pro更是将AI生图的精度与想象力提升到了一个新的高度。
财报数字成为了这一轮反击最直接的注脚:截至三季度,Gemini应用的月活跃用户突破6.5亿,相比上一季度公布的4.5亿大幅提升。
这不禁让人好奇:谷歌最近怎么突然这么猛了?
其实,这并非一次突然的爆发,而是一场“大象转身”,正以前所未有的决心和效率,将自己数十年积累的 AI 技术储备,转化为产品力。
如果把时间轴拉得更长,你会看到一条更惊人的暗线:
从拉里·佩奇早年对“终极搜索引擎”的想象,到“猫论文”,再到DeepMind、TPU,谷歌二十多年间的AI投资几乎贯穿了现代深度学习的绝大部分关键节点。
在 Transformer 论文发表前的十年前,世界上几乎所有知名的 AI 人才,都曾在谷歌工作过。
这种全栈的技术沉淀与人才密度,为谷歌构筑了一条远超想象的护城河。
草蛇灰线,伏脉千里。谷歌今天的绝对反击,其实已经深入藏在了它二十年来的投资拼图中。今年,我们就来复盘一下谷歌在AI战场上的那些关键落子,看看它们是如何在二十年来,左右了整个AI产业的走向。
01 谷歌AI起源:当压缩等于理解
谷歌的AI,始于拉里·佩奇。
拉里·佩奇的父亲是多伦多大学的计算机科学教授,研究方向正是机器学习和人工智能。
在当时,AI是一个被主流学界认为“有点浪费生命”的冷门方向,因为在此之前30年的许多重要理论当时都被推翻了,或者至少人们认为它们已经被推翻了。
但拉里却受这套影响很深,他后来回顾谷歌早期时说过一句话:
“人工智能会是谷歌的终极版本。终极搜索引擎应该能理解整个互联网,也能精准理解你要什么,然后给你正确的答案。”
那是2000年,也就是谷歌成立两年后。那时没人知道LLM是什么,更没有ChatGPT。
而谷歌第一次真正意义上的“语言模型实验”,是从一个非常谷歌式的故事开始的。
2000 年左右,谷歌的早期员工 George Hinton 和天才工程师诺姆(Transformer 论文主要作者之一)在闲聊时提出了一个论断:
“如果你能把一段数据压缩,再无损还原,那从技术上讲,你必须真的‘理解’了它。”
这句话一下戳中了诺姆。他意识到,如果压缩=理解,那搜索里的语言建模、概率预测就可以反过来当“理解机器”的基础。
于是,两人干脆停掉手头工作,一头扎进语言模型和数据压缩。后来,他们搞出了谷歌第一个真正意义上的“模型”产品—— “你不是要找:xxx”(拼写纠错)。
这是一个非常小的应用场景,系统会自动纠正用户的错误输入,既改善了用户体验,也节约了谷歌巨大的基础设施成本(少跑一堆无意义查询)。这是谷歌第一次把“概率语言模型”实打实地放进了搜索产品里。
这个项目后来进化成一个被内部昵称为 PHIL(Probabilistic Hierarchical Inferential Learner) 的“庞大”语言模型。
从表面上看,谷歌只不过做了一个更聪明的输入框。但从这时开始,搜索背后已经在悄悄变成一台建模世界与人类语言的机器。
02 大炼模型:猫、YouTube 与千亿美元
真正让谷歌拿到通往AI船票的是,Google Brain(谷歌大脑)的成立。
2011年,吴恩达刚刚从斯坦福人工智能实验室 SAIL 到谷歌兼职。当时,吴恩达正与团队探索一种无监督大规模神经网络训练方法,目标是让系统从未经标记的图像中自动学习结构特征。
这个判断在当时是少见的,因为深度学习仍被怀疑,主流研究者认为“神经网络太慢、太不稳定”。
但这种想法却深深吸引了当时谷歌最顶级的系统工程师杰夫·迪恩。
在此之前,谷歌曾经尝试过两次构建大规模的深度神经网络,但两个项目都不太成功。所以,谷歌的研究团队心里一直有个疑问:大规模神经网络真的能在谷歌的基础设施上运行吗?
于是,两人一拍即合,并拉上了神经科学博士 Greg Corrado,开始着手构建一个非常庞大的深度神经网络模型,这个项目就是“谷歌大脑”。
要构建大规模的深度神经网络,就需要一个系统来运行它。当时的主流观点认为,大模型必须在同一台机器上同步训练。但杰夫·迪恩却选择了反直觉的路线:把网络拆到几千台CPU上,跨数据中心异步训练,用“过时参数”继续训练。
理论上,这听起来像是一场灾难;实践中,它却跑通了。这就是著名的“DistBelief”系统。
于是,2012 年,那篇名为《使用大规模无监督学习构建高级特征》的论文出现了,它还有一个更出名的名字:“猫论文”。
具体来说,他们使用一千台不同机器上的16000个CPU核心,训练了一个大型九层神经网络,通过无监督学习识别 YouTube 视频中的猫。
在那之前,AI识别物体需要人类先打标签。但谷歌的这个九层神经网络,在看了无数个小时的 YouTube 视频后,自己学会认识“猫”。它证明了无监督学习的可行性:机器可以自己从数据中提炼规律。
比起猫论文对AI行业的影响,更显著的是其所带来的商业价值。因为它催生了一种新的分发机制:推荐系统机制。
当时,YouTube正努力转型为更全面的网站,试图吸引用户观看更多视频,构建信息流,延长用户停留时间等等。要做到这一点,推荐系统需要根据用户自己撰写的视频标题和描述来确定推送内容。
但问题在于,绝大部分用户很难精准描述他们上传的视频内容,这就导致系统无法实现精准推荐。
而“猫论文”第一次证明:基于 DistBelief 的深度神经网络,可以直接从视频本身学出内容,自动理解画面和主题,然后利用这些数据来确定应该向用户推送哪些视频。
于是,谷歌迅速将这套技术评估YouTube的推荐算法,也奠定了其作为全球最大视频平台的基础,
后来,Facebook 、Instagram和字节跳动纷纷开始效仿这一机制,并在后面10年成为全世界最主流的休闲娱乐方式。
也就是说,在世人都知道 ChatGPT 之前,AI已经将开始塑造我们所有人的人类生活,并创造数千亿美元的收入。
而这一切就始于谷歌。
03 收购DeepMind:是巅峰,也是拐点
谷歌始终没有放缓招募顶级AI人才的脚步。
2012年,谷歌在与百度的竞争中胜出,以4400万美元的价格收购了一家名为 DNN(深度神经网络)研究公司,这家公司是由杰夫·辛顿、亚历克斯·克里热夫斯基和伊利亚·苏茨克维尔创建的。
当然,真正让谷歌在AI产业确立统治力的,是对于DeepMind的收购。
2010 年,神经科学博士德米斯·哈萨比斯、博士后谢恩·莱格和儿时好友穆斯塔法·苏莱曼创立了DeepMind。其创立目标非常宏大,即“解决智能,并利用它来解决所有其他问题”(solve intelligence and use it to solve everything else)
到了2013年底至2014年初,DeepMind 接到了多家公司的收购要约,其中也包括了扎克伯格和马斯克。
在这场竞争里,谷歌最终胜出了。原因是,DeepMind 的创始团队与 Facebook、特斯拉在理念上始终存在分歧。
哈萨比斯坚持,DeepMind 必须保持独立性,并设立一个拥有否决权的独立监管委员会,以确保公司的长期使命不会被短期商业目标稀释。但扎克伯格并不同意让哈萨比斯继续掌握 DeepMind 的控制权。
相比之下,拉里·佩奇的态度截然不同。他一直把谷歌视作一家以人工智能为核心的公司,对 DeepMind的使命高度认同,也愿意给团队足够的自主权。
谷歌向 DeepMind 承诺,DeepMind可以继续留在伦敦,专注于纯粹的“智能”研究,而无需为谷歌内部的产品服务工作,因为谷歌已经有Google Brain团队在负责产品落地。
同时,谷歌还拥有 DeepMind 研究所需的全部计算基础设施。
最终,谷歌在2014年1月收购了 DeepMind,交易价格为 5.5 亿美元。
这笔收购让谷歌拥有了当时最豪华的AI研究团队,几乎统治了AI领域。
但让人完全没有想到的是,这次收购就像蝴蝶扇动翅膀一样,引发了一连串连谷歌自己都无法预料的连锁反应。
甚至可以说,从 OpenAI 的创立,到ChatGPT的诞生,再到 Anthropic、xAI 等公司的相继出现,今日AI产业的几乎每一条重要支线,都可以追溯到那场收购。
在当时看来,此次收购产生了两个直接的后果:
一方面,它直接激怒了马斯克。DeepMind 被谷歌买走,谷歌又在全球疯狂招募顶尖AI研究员,这让马斯克意识到:如果再不做点什么,未来人类对AI的控制权可能会高度集中在少数公司手里。
2015 年夏天,马斯克和奥特曼在 Rosewood 酒店组织了一场晚宴。这次晚宴的目的是向被谷歌和 Facebook 招募的 AI 研究人员发出邀请,询问他们离开的条件。
他们向这些研究人员提出的方案是:成立一个新的非营利性人工智能研究实验室,不受谷歌或Facebook等资本主义机构的控制,致力于“以最有可能造福全人类的方式推进数字智能”。
尽管大多数研究人员拒绝了邀请,但AlexNet的主要贡献者、Google Brain团队的 Ilya Sutskever 对此提议表示了兴趣。
除了Ilya之外,还有大约七位研究人员离开了谷歌,加入了马斯克和奥特曼的团队,共同创建了OpenAI。
另一方面,这笔收购也激化了AI领域的巨头竞争,并加速了 Anthropic和xAI 等公司的诞生。
谷歌收购 DeepMind 及其后谷歌 AI 人才流失至 OpenAI,导致了 OpenAI 内部的“梦之队”不断组建和变化。Dario Amodei 在 OpenAI 取得了重大进展后,最终也离开了 OpenAI,创办了 Anthropic。
在这笔收购收购后,马斯克也开始意识到,特斯拉必须在 AI 上建立自己的技术路径,不能把未来押在外部团队上。在从OpenAI 撤资后,马斯克创建了xA 。
随着 OpenAI 的壮大,DeepMind 收购的附带影响将谷歌最大的敌人 Microsoft 重新带回了舞台中心。Microsoft 最终通过向 OpenAI 投资数十亿美元,获得了对其技术的独家授权,从而对谷歌的核心搜索业务构成了“生存威胁”。
谷歌唯一值得庆幸的是,也正是这些团队的出走,最终让其免于因垄断而被迫处罚或者拆分。
04 被英伟达逼出来的TPU
在整合AI领域最顶级研究资源的同时,谷歌还干了一件很牛逼的事情:搞TPU。
2013年,当 AlexNet 的主要贡献者之一 Alex Krizhevsky 加入谷歌时,他震惊地发现他们现有的所有机器学习模型都运行在CPU上。
此前,人们曾多次要求使用GPU,因为机器学习工作负载非常适合并行运行,但谷歌的基础设施团队却拒绝了,他们认为扩展和多样化GPU集群会增加复杂性,所以还是保持简单为好。“这对我们来说似乎并不重要。”
于是,Alex Krizhevsky自己去当地的电子商店购买了一台GPU机器,将其插到网络上,开始用这台单独的硬件训练他的神经网络模型。
直到2014年,谷歌工程主管 杰夫·迪恩(Jeff Dean) 和 Google Brain 负责人 约翰·吉安南德里亚(John Giannandrea)才决定,正式将GPU纳入谷歌的数据中心。
最终,他们决定向英伟达订购4万块GPU,这笔订单价值1.3亿美元。这笔订单的预算之高,使得采购请求被提交给 Larry Page 亲自审批。
尽管财务部门曾试图否决这笔交易,但 Larry Page 亲自批准了这笔交易,因为他认为深度学习是谷歌的未来。
按当时英伟达的体量,这几乎是改变命运级别的订单。这笔订单也为英伟达提供了信心,使其相信 AI 将在未来成为一项巨大的业务。
随着神经网络技术被集成到 Google Photos、Gmail 建议和 AdWords 等产品中,谷歌很快发现这些AI应用能够带来可观的收入回报。因此,谷歌在 1.3 亿美元的基础上,又花费了数亿美元继续购买 GPU。
在大规模购买GPU的同时,谷歌也发现了两个问题:
第一,太烧钱。像谷歌这样规模的公司,一旦神经网络开始运作,需要进行大量的矩阵乘法运算。谷歌发现自己每年将需要“向英伟达输送数亿,很快就是数十亿美元”。
第二,GPU不够用了。当谷歌推出语音识别功能(利用神经网络实现),并很快在 Nexus 手机上取得了成功。
Jeff Dean 算了一笔账,发现如果人们每天使用一项AI功能三分钟,而谷歌将其推广到所有十亿部安卓手机上,那么需要比目前整个谷歌拥有的数据中心数量多一倍的数据中心才能处理它。
解决办法只有两个:要么把基础设施规模再翻一倍,要么自己构建一种新的定制芯片,专门针对谷歌的特定用例进行优化(即张量乘法)。
这就是后来 TPU 出现的背景。
TPU 被设计成一种应用特定的集成电路(ASIC),它虽然不能用于图形处理,但专门用于神经网络的矩阵乘法,效率远高于当时的 GPU。
TPU 的核心目标是让谷歌能够在不将其整个基础设施规模翻倍的情况下,扩展其数据中心的能力。
TPU的原理很简单,就是降低计算精度,提高计算效率。举个例子,它会将4586.8272这样的数字四舍五入到4586.8,甚至可能直接四舍五入到4586,小数点后为空。
这样一来,就可以在芯片上使用相同的功耗、内存和晶体管数量,每秒执行更多的计算,更快地输出结果。
如今,TPU已经成为谷歌 AI 战略的核心基础设施。谷歌内部也已经建立了一个规模几乎与英伟达相当的芯片研发体系,不仅服务于谷歌自身,也服务于谷歌云客户。
在商业上,TPU 还有另外一层意义:避免了被英伟达收“税”。
目前,英伟达的 GPU 系统毛利率高达 75% 至 80%,这意味着芯片成本可能有约5倍的加价。而谷歌通过自研,避免了支付这种巨大的溢价。这种纵向一体化的能力,已经反过来变成了模型竞争力的一部分。
05 Transformer的错判和红色警报
在Transformer出现之前,谷歌团队已经用循环神经网络重写了谷歌翻译。
但一些局限性也逐渐显现。其中一个主要问题是,模型“遗忘”信息的速度太快。用现在的话说,就是上下文窗口很短。
谷歌改进算法的方法之一,是使用一种叫做长短期记忆网络(LSTM)的技术。LSTM 的基本原理是为模型创建一个持久的或长短期记忆,这里需要稍微动动脑,以便模型在执行一系列步骤时能够记住上下文。
2016年,谷歌翻译就采用了LSTM。这使得错误率降低了60%。这是一个巨大的飞跃。当时,大家都认为LSTM 将会把语言模型和大型语言模型推向主流。
然而,LSTM也有弊端。虽然它们有效,但计算量非常大,而且并行化效果不佳。
于是,谷歌大脑内部的一个团队开始寻找一种更好的架构,它既要具备LSTM的优点,又不能过快遗忘上下文信息,同时还要能够更好地并行化和扩展。
一位名叫雅各布·乌什科雷特的研究员一直在尝试拓展语言处理中“注意力”的范围。
如果模型不再关注眼前的词语,而是关注整个文本语料库,预测下一个翻译词应该是什么,会怎么样呢?
如果要这样做,该模型需要大量的计算能力才能完成这项工作,但它具有极强的并行化能力。
雅各布开始与大脑团队的其他几位成员合作,他们决定把这个项新技术目命名为“Transformer”。
一开始,他们虽然已经实现了 Transformer 模型,但实际上它的表现并不比 LSTM 好多少。直到诺姆加入团队,他从头开始重写了整个代码库。
完工后,Transformer 模型彻底碾压了基于 LSTM 的谷歌翻译方案,也证明了一件事:模型规模越大,效果就越好。
在Transformer 论文发布一年后,谷歌又开发出了大型语言模型 BERT。
很多人认为谷歌在论文发表后就对Transformer架构无所作为,事实并非如此。他们用基于Transformer的大型语言模型做了很多工作。但在当时,谷歌确实没有将其视为一次全面的技术平台变革。
事实上,在 ChatGPT 之前,谷歌已经有了一个聊天机器人。当时,诺姆已经看到了Transformer模型的价值,并向高层游说,公司应该全力以赴转型做一个巨大的Transformer模型。
为此,诺姆还构建了一个聊天机器人,叫 Mina。
Mina与ChatGPT 很接近,但没有ChatGPT 那样具备训练后的安全机制,所以很容易失控。比如,你只要问它谁该死,它就会列出一些应该死的人的名字。也正因为如此,谷歌始终没有发布它。
除了失控风险外,谷歌没有发布Mina的原因还有两个:
第一,如果把谷歌搜索页面变成一个聊天机器人,那么用户将直接得到答案,而不是网站链接,这将直接影响谷歌的收入。尽管谷歌现在在考虑这个问题,但在2021年之前,提出这样的建议是绝对行不通的。
第二,直接给出答案,存在法律风险。当时,有相当多的舆论认为谷歌正在剥夺出版商与读者之间的直接联系,为此谷歌已经花了数十年时间来对抗公众舆论和法院判决。
出于这些考虑,即使诺姆和谷歌内部都认为基于 Transformer 构建 LLM,并为其添加聊天机器人界面,可能是一个极具吸引力的产品,但在当时并没有迫切的理由去做这件事。
2021年,诺姆离开了谷歌,创立了聊天机器人公司 Character AI。
谷歌的误判,却给了OpenAI打开了一个成功的契机。
2018年6月,OpenAI 发布了一篇论文,描述了他们如何利用Transformer模型,并开发了一种新的方法,即先在互联网上大量通用文本上对其进行预训练,然后将这种通用预训练微调到特定的用例。
他们还宣布,他们已经训练并运行了该方法的第一个概念验证模型,他们称之为 GPT-1(生成式预训练 Transformer 版本 1)。这与 BERT 的出现时间大致相同。
2022年底,ChatGPT出现了。
ChatGPT的成功,彻底颠覆了谷歌对于AI的判断:
在此前相当长时间里,谷歌、皮猜、拉里以及所有人都把AI视为持续性创新,谷歌可以利用AI持续巩固我们在所有领先产品中的领先地位。在ChatGPT 问世后,一夜之间,AI就会从一种持续性创新转变为颠覆性创新。
甚至说,这种变化对谷歌构成了一种生存威胁。这意味着,谷歌过去10 -20年在人工智能领域积累的许多优势,都变成了劣势。
06 重回牌桌中央
在ChatGPT发布后,桑达尔在公司内部发布了红色警报。
这是谷歌的最高级别危机模式,这意味着公司需要立即采取“全体总动员”(all-hands-on-deck)的应对措施。
为了挽回危局,谷歌做了两件事:
第一,组织架构的彻底重组。皮猜认为,谷歌不能再有两支AI团队,因此他做出了重大的组织决策:将Google Brain和DeepMind 合并为一个实体,即 Google DeepMind。
同时,他任命 DeepMind 联合创始人哈萨比斯为合并后的 Google DeepMind 首席执行官,主导整个谷歌 AI 部门的发展方向。
尽管,这一决定违反了最初收购 DeepMind 时承诺其独立性的条款,体现了公司对AI紧迫性的最高重视。
同时,谷歌决定重新召回顶级人才。谷歌联合创始人谢尔盖·布林重新作为员工回归,参与 Gemini 项目的工作。
他们斥巨资与 Character.AI 达成许可协议,将诺姆带回谷歌,让他与杰夫·迪恩一起担任 Gemini 的联席技术负责人,其他Google Brain核心成员也加入 DeepMind 团队,共同开发 Gemini。
第二,产品和技术上的集中火力。谷歌决定结束多模型、多团队并存的局面,集中资源打造一款旗舰模型。皮猜决定谷歌将标准化并只使用一个模型,即 Gemini。该模型将用于谷歌内部的所有 AI 产品和外部服务。
同时,谷歌也在内部积极推广Gemini,他们会联系每个团队,告诉他们Gemini代表着公司的未来,你们需要开始寻找将 Gemini 集成到产品中的方法。
Gemini 被设计为多模态(multimodal)模型,能够处理文本、图像、视频和音频。谷歌以极快的速度构建和训练 Gemini,在 2023年5月宣布计划后,于 2023年12月就发布了早期的公共测试版本,速度之快在谷歌历史上罕见。
自那之后,谷歌进入了一个罕见的产品加速期:
Gemini 2.5 Pro 横扫各大榜单,到「香蕉」模型 Nano Banana 的爆火,视频模型 Veo 3 展示了物理世界的理解力;Genie 3 甚至能一句话生成一个虚拟世界。
进去今年11月,谷歌接连发布了Gemini 3和Nano Banana Pro,尤其是 Gemini 3 在各类主流基准上展现了统治级的表现。
谷歌用一连串“王炸”产品,重新站回了牌桌中央。
07 总结
谷歌在AI上的这二十年里,绝对是一部充满戏剧性的启示录。
它始于拉里·佩奇对“理解互联网”的天才构想,中间迷失于“创新者的困境”和垄断带来的舒适区,最终在生存危机的紧迫下,完成了一次惊心动魄的转折。
这很大程度要归功于OpenAI的突袭,因为它给了谷歌最需要的东西:恐惧。
当桑达尔·皮查伊打破分区墙,当谢尔盖·布林重回业务一线,当那些分散在Google Brain和DeepMind的天才们终于坐在同一张办公桌前,谷歌展现出了“体系化的AI力量”。
再把视角拉回到 2000 年的那个下午。拉里·佩奇曾说:“人工智能是谷歌的终极版本。”
二十五年过去了,宿命完成了闭环。谷歌从来就不是一家搜索公司。从一开始,它就是一家试图用数学和算力穷尽人类知识边界的AI公司。
如今,那个大家熟悉的、令人害怕的谷歌,终于回来了。
本文来自微信公众号“硅基观察Pro”,作者:硅基君,36氪经授权发布。















