谷歌AI的14年、Gemini翻身之战，与视觉理解模型：专访DeepMind前核心科学家Andrew Dai

硅谷101·2026年05月20日 17:19

“硅谷没有秘密”

他的论文，启发了OpenAI GPT的诞生。

在谷歌研究AI 14年，Andrew Dai推动数项重要论文、辗转数个产品，最后成为带领Gemini打下翻身之战的核心人物之一。

Andrew长期处在谷歌AI研发的中枢：从早期sequence learning（序列学习）、文本生成、对抗训练，到 PaLM、FLAN、Gemini、多模态和长上下文等等。与他合作论文的，都是谷歌的众多传奇大佬人物，包括Quoc Le、Ian Goodfellow、Liam Fedus、Jeff Dean等人。Andrew的职业轨迹可以说就是一部谷歌AI大模型的编年史。

然而在将Gemini 3顺利上线之后，Andrew Dai决定离开待了近14年的谷歌。原因是他看到了一条大公司“不敢走”、或者是“走得太慢”的路——不是纯语言模型，也不是世界模型，而是语言与视觉推理的结合。

今年4月，Andrew创立的Elorian AI宣布融资5500万美元，估值3亿美元，正式从保密阶段走向公众视野。投资方包括Menlo Ventures，Altimeter Capital等主流硅谷基金，还包括英伟达和以个人身份参与的Jeff Dean。

2026年的Google I/O正在召开，我们此次与Andrew一起回顾了谷歌过去14年的AI发展史：如何错过，如何落后，如何追赶，又如何重回巅峰的。这背后究竟有一些什么样的故事？Andrew Dai现在要做的多模态视觉推理模型又是什么？

硅谷没有秘密，但有一群信仰不一样未来的科学家们。在巨头们押注SOTA LLM之际，众多科技领军人物都开始纷纷创建自己的AI前沿新实验室（Neolabs），他们不拼算力和参数，而是希望找到一条真正达到智能的路径。此次，硅谷101也开启了Neolabs特辑，想和这群科学家们深度聊聊，他们眼中的AGI之路。今天这期，是此次特辑的第一期视频播客。

01 从伦敦到硅谷，一位谷歌AI核心科学家的14年

陈茜：非常感谢Andrew，欢迎你来做客硅谷101。我觉得你们的新办公室这边采光很好，这个房间你们以后准备用来做什么？

Andrew Dai：这个房间以后会让研究员和工程师坐在这里。我们租办公室至少要租两年，所以已经预估好两年后会有多少人了。

陈茜：两年后你会有多少人？

Andrew Dai：可能是50到70人。

陈茜：现在多少人？

Andrew Dai：现在是14个人，还有两个人在办签证，很快就16个人了。

陈茜：我在来之前听了你的一个英文播客，发现你有一点British accent（英式口音），是因为你之前在英国念书吗？

Andrew Dai：对，我在中国出生，但五岁就去了英国，因为我父亲去英国读博士，带着我一起过去。本科我在剑桥读，然后去爱丁堡读博士。

陈茜：你的中文其实还是讲得挺好的。

Andrew Dai：我的家人一直督促我练中文，我也认识一些来自中国的朋友，所以一直在坚持学。

陈茜：你是什么时候来到硅谷的？

Andrew Dai：14年前，就是2012年，为了在谷歌工作。

陈茜：当时为什么想来谷歌？

Andrew Dai：我读博士研究的是人工智能，从中学起就一直想做AI。那时候Google Brain（谷歌大脑）团队比较有名，所以我就想加入谷歌大脑。而DeepMind那时候还是一家很小的初创公司，我甚至不知道有DeepMind这家公司，所以就直接想来人工智能的中心，就是硅谷。

陈茜：如果你留在伦敦的话，是不是也有可能加入DeepMind，然后最后也来到谷歌？

Andrew Dai：很可能。后来我才知道，我们实验室的很多同学都去了DeepMind，就我一个人来到了Google Brain。当然来这里还有另一个原因，因为硅谷很容易创业，很多新公司都从这里诞生。所以我当初打算来这里待几年，然后就创业。

陈茜：没想到一待就是14年。

Andrew Dai：对，没想到待那么久。

陈茜：我们来讲讲你进入谷歌后的工作。你的第一份工作是去到了Google Now，那个团队是当时Larry Page希望Android和Search团队搭建一个能结合用户数据，来主动给用户推送提醒信息的功能。那时候背后已经有一定的AI研究，你在Google Now里在做什么？

Andrew Dai：那个经历比较有意思。他们招我去Google Now是为了做AI，但我到了团队才发现，工程上有很多基础设施的工作要做，比如有新闻出来，他们想个性化地推送给用户，我就编写了一套系统，能在15分钟内把新闻推送到所有人的手机上。有一次我们发现推送新闻很慢，要100毫秒，大家在想为什么这么慢？我发现数据在东海岸，而我要把数据送到西海岸，按照光速就需要这么多时间，没有办法更快，我从中学到了很多end-to-end（端到端）的东西。后来快离开的时候，我也开始做更多AI、更多个性化的工作。再之后就去Google Brain了。

02 两次收购、两种哲学，Hinton与DeepMind如何改变谷歌

陈茜：谷歌在2013、2014年有几个重要节点。第一个是2013年收购了Geoffrey Hinton的公司DNNresearch，Hinton之后加入谷歌工作。你觉得Hinton来到谷歌之后产生了什么样的影响？

Andrew Dai：Hinton来了之后，谷歌就更加重视AI。那几年我记得CEO也说了，Google是一家AI公司。Larry Page和Sergey Brin当初创造算法，目标本就是让机器运用AI帮助人们理解网络上的内容，所以他们一直非常重视AI。但2012年之后开始了Deep Learning（深度学习）新阶段，谷歌觉得如果不投这个方向就会落后，所以收购了Geoffrey Hinton的公司。从那以后，深度学习对谷歌就非常重要，它们的模型也越来越多地转向Neural Network（神经网络）。

陈茜：2014年谷歌又收购了DeepMind，你觉得DeepMind团队的加入，包括Demis Hassabis的加入，在多大程度上改变了谷歌？

Andrew Dai：DeepMind和DNNresearch的收购方式很不一样。DeepMind在收购时签了一份协议，要求保持独立、团队可以继续留在伦敦，不用来美国，附带很多这样的条件，所以基本上是一个独立的研究实验室。这跟Google Brain的定位不同，Google Brain的目标是做研究，然后和产品合作、将模型推向产品，DeepMind更像是你想做什么就做什么，只要你觉得重要，像AlphaGo这样的项目都可以做，两边的理念有一定差异。

陈茜：所以DeepMind是非常独立的，Hassabis说了算，谷歌也不太会管他们。

Andrew Dai：对，他们的招聘也有自己的方式，内部包括代码等很多东西都跟谷歌是分开的。

陈茜：那当时Google Brain的AI研究员，比如你，会跟DeepMind的人有合作吗？

Andrew Dai：会，但比较少。合作时会有credit assignment（功劳分配）的问题，这个项目到底是DeepMind主导还是Google Brain主导。在大公司里，ownership（所有权）很重要，所以这类项目就更复杂了。

03 半监督序列学习，谷歌错过的“GPT时刻”

陈茜：我看到你在2015年开始研究语言模型的预训练与微调，当时就应该是在Google Brain部门了。这一轮GenAI（生成式AI）的奠基石Transformer论文是2017年发布的，但在此之前，你和Google Brain联合创始人之一Quoc Le共同主导了一篇文章《Semi-supervised Sequence Learning》（半监督序列学习），可以帮我们解释一下，这篇论文主要解决了什么问题么？

Andrew Dai：那篇文章其实不是我们一开始就计划好的。我们本来是在做一种叫paragraph vectors（段落向量）的技术。那时候有Word2Vec，也就是Word Embedding（词嵌入），大家可能听说过，LLM出现之前大家都在用这些东西。我们想做一个更好的版本，做了很多很多实验，但都失败了。

有一天我跑了一个实验，发现结果非常好，比其他论文的分数都高。但当我想复现它重跑一次，却跑不出之前的结果，我就觉得肯定哪里有bug。于是我继续挖，发现是因为训练这个模型的时候，我是从另一个目录，也就是另一个checkpoint（检查点）开始的，而那个checkpoint属于一个别的做语言模型的项目。这时候我就发现了：如果先做语言模型，再用监督数据进行微调，就可以得到一个很好的模型。这就是我们发现的东西，然后就把它写成了论文。

之前大家是把这两部分分开的，没有想过用语言模型来做语言理解。我们的核心想法是：把语言模型和fine-tuning（微调）结合到一起，就可以做出一个很好的模型。所以我们是第一个把这两部分放在一起的团队。

陈茜：这篇论文现在回看，很像是“大规模预训练+下游微调”的范式。当然那时候Transformer还没出来，你们用的还是LSTM（长短期记忆网络），但你当时有没有意识到，它可能会引领出一个更大的东西？

Andrew Dai：那时候我们的卡很少，大家都没有用很多显卡做训练，所以模型规模也比较小。我记得那年我们在NeurIPS（神经信息处理系统大会）上发表了这篇文章，LSTM的主要作者Sepp Hochreiter来看了我们的海报，说他已经试过我们这个方法，结果很好。从那时候我们就知道，以后应该会有很多人用这个方法，但我们没想到过了十年还在用，而且模型规模扩大了这么多倍。

陈茜：那Transformer出来的时候，你有意识到这两个东西可以融合起来，变成一个更大的突破吗？

Andrew Dai：Transformer出来的时候，我就觉得它很适合和我们做的预训练结合。所以Transformer论文发布第二天，我就找了我的朋友，Transformer论文的一作Ashish Vaswani，对他说：“我们两年前有这篇预训练的文章，结果很好，你要不要在Transformer上也试试预训练？”但那时候他很忙，在做一些图像处理的东西，所以没有时间，后来就是OpenAI做了。

陈茜：那OpenAI是谁主导这件事，发现了Transformer可以和你们这篇文章结合？

Andrew Dai：是Alec Radford。他写了GPT-1、GPT-2、GPT-3的论文，引用了我们那篇文章，看出了scaling的潜力：模型越来越大，产出的语言就越来越好。

陈茜：谷歌是什么时候意识到这两个东西都是从自己这里出来的，结果被OpenAI结合在一起用了？

Andrew Dai：我觉得是GPT-3出来的时候才意识到。GPT-3是整个世界的转折点，不只是谷歌，Meta等很多公司都发现GPT-3的语言能力相当惊人，可能scaling才是正确方向。之前大家都不愿意把那么多显卡都押在一个实验上，但GPT-3之后，谷歌就开始愿意这样投入了。

陈茜：在GPT-3出来之前，Google Brain的联合创始人Jeff Dean、Andrew Ng（吴恩达）、Quoc Le，还有DeepMind的Hassabis，他们那时候分别在做什么？

Andrew Dai：Hassabis那段时间我记得好像是在做AlphaGo，他们相信把游戏做好就可以产生intelligence（智能），比如Atari（雅达利）游戏和围棋。

Google Brain是另一个方向，包括Geoffrey Hinton也是这个想法：如果做一个什么都能做的AI，那才是真正的intelligence（智能），不要只专注一个小领域。那时候Google Brain的文化以自由著称，你想做什么都可以做。Jeff Dean在领导Brain团队，但下面的研究员什么都在做，有的在做音乐生成，做语言的人其实很少，基本上就是Quoc和我还有几个人，大部分人都在做视觉或视频处理。

陈茜：就是没有一个人强有力地站出来说：我们要集合所有资源押注在同一个赛道上，直到他们看到GPT-3出来。

Andrew Dai：对，后来就变了。

陈茜：所以你觉得OpenAI为什么能看到Semi-supervised Sequence Learning（半监督序列学习）的能力，而谷歌看不到呢？你当时跟Transformer作者说了这个想法，他没理你，之后你就没有再推进了吗？

Andrew Dai：那是2017年，时间节点很特别。那时候Google Brain开始成立谷歌健康部门，觉得health（医疗健康）是一个很热门的领域，大家都想进入这个方向，包括苹果和微软。谷歌也觉得应该把AI放进健康里，所以让我选择：是要进入这个新的谷歌健康部门，让AI可以治病，还是留在Brain。我选择去了Health，因此就没有机会去做GPT这类模型了。

陈茜：那有没有其他人继续往这个方向深推呢？

Andrew Dai：后来没有继续往上scale（扩展），但有人把它用到了产品上，像Smart Compose、Smart Reply就是用了预训练的方法。

04 谷歌落地为何总是慢半拍，PaLM 2、FLAN、RL与MoE

陈茜：了解了。我们接着说说你在Health部门在研究什么？是去做产品了是吗？

Andrew Dai：对，在Health部门，我做的是帮助产品落地的研究，主要负责用医疗记录来预测一个人以后可能患什么病，或者需要服什么药，从而帮助医院节省成本或辅助医生决策。因为预训练很成功，所以我们也在医疗领域用了预训练，但那时候模型还很小，最后没有做出预训练的成果，不过发表了其他论文。那时候有Google Brain Residency Program（谷歌大脑住院医项目），是一个比较好的时代，招了很多类似实习生的人待一年，后来创业的Liam Fedus、Demi Guo和David Ha，都是我当时的实习生。

陈茜：在2018年，也就是你去Health部门一年后，我看到你和Ian Goodfellow等人合作了一篇有分量的论文叫MaskGAN，用于改善文本生成的质量。这篇论文的底层技术进步给你带来了哪些收获？因为我看到其中一些技术探索，比如in-filling（填空任务）等，在后来的BERT和Gemini多模态预训练中都有一定程度的启发和影响。这篇论文对你意味着什么？

Andrew Dai：这篇文章是我和Liam Fedus、Ian Goodfellow一起写的。我们觉得“填空”是一个很好的任务，可以让模型学到很复杂的东西。我认为这篇论文有一个比较突出的地方，就是在RL（强化学习）方面，那时候基本上没有其他人在做预训练之后再做RL，我们可能是最早几篇把RL用在预训练之后的论文，而现在这已经是业界通用的方法了。

陈茜：相当于你们是最早一批把RL用在语言模型上的团队。

Andrew Dai：对。我们那时候就觉得光做预训练还不够，因为预训练的模型不会学到它自己写出来的内容哪里好、哪里不好，也不会学到该怎么改。有了RL，模型可以看到自己写的这一段不像自然语言，RL就可以把它改好。

陈茜：在很多大家都认为有共识的技术范式上，你们也都是第一批团队去做的，包括MoE（混合专家模型）。你研究MoE是在2021年左右，联合主导了GLaM（Generalist Language Model） MoE LLM（大语言模型）的开发。现在MoE架构我们都很熟悉了，不过真正把MoE带到大众视野的，可能还是去年DeepSeek V3发布的时候，但我没想到谷歌内部在2021年就已经在研发这条路线了。

Andrew Dai：GPT-3出来之后，Google Brain团队有些人感到有点着急，觉得一定要做出一个比它更好、功能更多的模型。那时候我们意识到，这些模型越来越大，通过API提供服务会非常贵，因为参数太多，耗电量很大。如果每次只用模型的一部分，耗电就少很多。几年前Noam Shazeer发表过一篇关于MoE的文章，但那时候没有做预训练。所以我们就把MoE加上预训练、再加上fine-tuning（微调），最终做出了一个比GPT-3更好的模型，这就是我们的成就。

陈茜：2021年GPT-3出来后，你说谷歌内部开始感到压力了？当时是什么情况？

Andrew Dai：当时我在Google Health的经理Claire回到了Google Brain，我就和她谈，想离开Google Health。她说他们在做一个模型，但达不到GPT-3的水平，就问我能不能帮他们解决这个问题。我觉得是数据的问题，所以我就过去了，处理了一段时间数据，最终做出了一个比GPT-3更好的模型，并发表了论文。那时候DeepMind也发表了一篇文章，竞争从那时候就开始了，那时候因为两边都看到了GPT-3，DeepMind觉得要竞争，Brain也觉得要竞争，否则大家都会认为谷歌做不出这样的模型。

陈茜：你当时为什么想离开Health？

Andrew Dai：我觉得对一家大型科技公司来说，做医疗健康非常难，而且难度不在于技术，而在于文化。

因为医生有自己传承了数百代的文化和做事方式。这个行业本身对资源和认知的要求就更高，很多医生按照自己的直觉做决定，如果我们要推AI，他们就会问：为什么AI要我做这个？我做了几十年，肯定比这个AI懂。所以那时候让医生接受AI就非常难。

陈茜：是不是说，在实际产品落地上，大型科技公司比不上那些跟医院、医生或药企关系紧密的公司？

Andrew Dai：对。而且大公司可能还会让医生觉得“他们是来抢我们工作、抢医院的钱的”。如果是初创公司，他们就不会那么感受到威胁，这也是一个因素。

陈茜：是不是当时技术也没有好到让大家觉得非用不可？

Andrew Dai：对，那时候的时机还不对。就像现在，因为ChatGPT，很多医生觉得“我也可以用AI了，大家都在用”。但那时候不是这样，那时候医生对AI是相对陌生的用户群体。现在他们已经不陌生了，所以顾虑也就没那么多了。

陈茜：时机不对，技术可能也比较粗糙，产品也没有那么完善，而且美国医疗产业本就是一个很难打入的市场。

Andrew Dai：It's a big lesson.（这是一个很大的教训。）

陈茜：所以你的take-away（收获）就是：要在正确的时间做正确的事，研究正确的技术。

Andrew Dai：对，这对创业来说尤其重要。

陈茜：你从Health出来之后，在2022年主导了谷歌PaLM 2模型的预训练。这个模型对谷歌非常重要，因为那时候谷歌和OpenAI已经存在模型层面的竞争压力了。PaLM 2出来的时候，你们满意吗？

Andrew Dai：PaLM 2大约在2023年初就训练完成了，我那时候觉得这是一个很好的模型。我们那时候从来没有见过跑得那么顺畅的预训练：从头到底，一次都没有停，一次都不需要rewind（回退）。不像Meta那段时间发布的OPT模型，可以看到他们的日志，重启了很多次，做了很久。PaLM 2就非常顺，从立项到训练完成不到一年，特别顺畅。

陈茜：为什么能这么顺？你们做了什么事情？

Andrew Dai：我们那时候有训练GLaM和PaLM 1积累下来的经验，在架构上做了很多测试和实验，知道这个方案稳定、不会出问题。正式开始大规模训练之前，我们也做了一些pilot runs（试运行），所以就有high confidence（高置信度）这个会成功。

陈茜：在2022年你还写了一篇重要论文——FLAN（Scaling Instruction-Finetuned Language Models），探索了任务数量、模型大小以及加入了Chain-of-Thought（思维链/CoT）的数据，能给我们讲一下FLAN的重要性在哪里吗？

Andrew Dai：FLAN之前，大家都是用few-shot prompting（少样本提示）来使用模型，如果你要让它做某件事，你要先给它举几个例子，比如数学题，你先给它一道题和答案，再问它新的问题。FLAN的核心思想是：其实你不需要在每次对话里给例子，只要在微调数据里放入这些示例就够了，模型就会学会“你给我什么问题，我就必须给出答案”。好处是你不再需要每次都提供few-shot（少样本）例子，但坏处就是，如果你问它不知道的问题，它也会假装知道。正是有了这种方式，ChatGPT这样的聊天机器人才成为可能，因为你可以直接问它问题。

陈茜：PaLM 2你们还是比较满意的，但你们的风头还是被GPT-4给抢了，是吗？

Andrew Dai：对，我们做完得比较早，2023年初就完成了。但谷歌内部的官僚体制和庞大的组织系统，让他们决定要等到Google I/O统一发布。OpenAI当然知道Google I/O是什么，知道我们要发布模型，谷歌那么大，内部没有什么秘密。所以他们恰好在Google I/O之前发布了GPT-4，GPT-4的结果比PaLM 2更好。我们发布PaLM 2的时候，我就觉得晚了一步，如果早点发布，我们就可以说我们是世界上最好的模型。

陈茜：你觉得可惜吗？

Andrew Dai：有点可惜。

陈茜：但PaLM 2还是很重要，虽然GPT-4在benchmark（基准测试）上可能比你们好，但至少谷歌向大家证明了：我们站稳了，我们没有落后太多。

Andrew Dai：对，而且没有PaLM 2的话，当时那个叫Bard、后来叫Gemini的产品也会比较危险，因为Bard就是用PaLM 2做出来的聊天机器人，如果没有PaLM 2，谷歌就没有聊天机器人了。

05 拉响红色警报，DeepMind与Google Brain的整合与碰撞

陈茜：2022年底OpenAI上线了ChatGPT，把整个AI市场引爆了，谷歌内部拉响了Code Red（红色警戒）。之后Sergey Brin也回归了谷歌，当时做出的一个决定，就是把DeepMind和Google Brain合并起来。跟我们讲讲这次整合顺利吗？还是有很多摩擦？

Andrew Dai：这个整合大家有个preview（预期），其中Gemini就是一个整合后的预期产品代表。因为在官方合并的几个月之前，DeepMind和Brain的人就已经开始一起做Gemini了，但是不是 official（官方的），那段时间就已经感受到一些摩擦。后来领导层认为时间线要更快，不能继续落后于ChatGPT，就决定加快把两个团队整合在一起，摩擦也随之更加明显。

因为两边有对等的团队：DeepMind有基础设施团队，Brain也有；DeepMind有多模态团队，Brain也有；数据方面，DeepMind有数据团队，我就代表Brain的数据团队。所以一开始确实关系比较紧张，他们决定每个部门由DeepMind出一个负责人、Brain出一个负责人来联合领导，这就比较复杂了。

陈茜：所以比如数据部门，你是一个co-lead（联合负责人），DeepMind那边也出一个co-lead，其他的每个部门也是同样的设置，是吗？

Andrew Dai：对，而且还需要进一步划分。比如在数据部门里，哪部分由伦敦做，哪部分由Mountain View（山景城）的Brain团队来做？这非常复杂，浪费了很多时间。

陈茜：为什么一定要设置这样的机制呢？

Andrew Dai：这样更公平一些。

陈茜：也就是Google Brain跟DeepMind谁都不服谁，这是一个两边都同时给糖的安排。

Andrew Dai：对，是一个对等的设置。

陈茜：你觉得这样的设置会拖累模型的研发速度吗？

Andrew Dai：我觉得一开始可能出模型的节奏会慢一些。两个之前从未合作、甚至有一定紧张关系的团队突然被放在一起，肯定有些事情会变慢、会有人换组，这些都发生了。

陈茜：整个磨合过程你觉得经历了多长时间？还是说到现在还在磨合？

Andrew Dai：可能现在还在磨合。不同部门的速度不一样，比如基础设施方向磨合得较快，多模态也是。

陈茜：两边整合的结果，就是很多人离职，对吧？

Andrew Dai：是的，有不少人离职，两边都有，Brain这边有，DeepMind那边也有。

陈茜：这两个谁都看不上谁的部门整合在一起，同心协力做Gemini。2023年底，Gemini 1.0出来了，这个模型你们满意吗？

Andrew Dai：那个模型有点仓促。我们刚刚开始合作，很多事情都是拼命赶deadline（截止日期）。那时候有一个圣诞节的截止日期，5月份Google I/O刚发布了PaLM 2，我们想要每6个月出一个新模型，所以大家都在赶。这些人之前都没有合作过，模型又基本上是从头开始做，所以有些地方没有做好，比如一些小众的语言的就没有做好。那时候媒体报道了Gemini 1.0在某些语言上表现欠佳，所以我们随即就开始赶做Gemini 1.5了。

陈茜：我看到Gemini 1.5才用到了MoE（混合专家模型）架构，但这是你在2021年就已经在研发的东西，为什么这么晚呢？

Andrew Dai：这也是一个速度的问题。1.0要赶快推出来，所以就没有时间做MoE的模型，只能做dense（稠密）模型，因为MoE还需要额外的调优和优化时间。ChatGPT出来之后，整件事变成了一场竞赛，我们在跟OpenAI比赛，如果MoE会拖慢我们的进度，就不能做，所以……

陈茜：所以优先级变成了先追上进度，而不是创新，谷歌这时候变成了追赶者。是不是也因为GPT-4用了MoE，所以Gemini 1.5才决定一定要用MoE了？

Andrew Dai：其实我们本来就打算用MoE，只是时间问题。我们从那篇2021年的论文就已经知道MoE效果更好。但我们不知道OpenAI会那么快用MoE，不知道GPT-4会是一个MoE的模型，当时有些人认为还会是dense模型。我的实习生Liam Fedus去了OpenAI之后，他们就开始做MoE了。

陈茜：所以他和你一起研究了这件事，然后把它带去了OpenAI。硅谷其实没有什么秘密可言，因为没有竞业协议。

Andrew Dai：对，特别是大模型领域。大公司里肯定会有人去OpenAI、Anthropic，所以大公司很难保持秘密。

06 Gemini翻身仗，“大模型最大的差异点是数据”

陈茜：Gemini 2.0对你们来说是比较大的翻身仗吗？

Andrew Dai：Gemini 2.0像是一种进化，各种方法都更成熟了，包括MoE、长上下文等。总体来说，是一个更好的模型。

陈茜：我听说在数据方面，你在Gemini 2.0上也有一些创新。能跟我们解释一下，你做了什么让Gemini 2.0变得更好？

Andrew Dai：在数据上有一个很大的变化，我们用了新的方法来处理数据质量，检测质量的标准也更严格了。有些公司可能认为架构和卡够了就能做出好模型，但数据其实非常重要。你看那些论文，一般都不会说数据是什么、来自哪里，这是一个秘方，所以我们发表了新的方法。

陈茜：所以你觉得数据是大模型之间很大的差异点吗？看起来模型架构大家都在用类似的东西，算力大公司都不缺，基础设施也都差不多，差异点是否就在数据上？

Andrew Dai：对，我觉得最大的差异就是数据。

陈茜：但数据不只是来源的问题，因为大家基本上把互联网数据都穷尽了，而是如何优化和筛选更高质量的数据用于训练，是吗？

Andrew Dai：对，你选用什么数据很重要。网络上有大量数据，但也有很多垃圾信息和对模型没有帮助的内容，所以需要找到那些好的数据，让模型能学到新东西。就像人一样，每天只让他读广告，他什么都学不到，要给他有信息、有知识的数据才行。来源也有一些区别，因为谷歌有搜索的经验，知道怎么爬取网络，其他公司也有自己的优势。

陈茜：所以你在Gemini 2.0数据上的主要提升，就是把垃圾信息的数据剔除掉？

Andrew Dai：对，垃圾信息以及其他一些低质量的数据，还有更多不方便透露的内容。

陈茜：在合成数据方面，你也参与了对吗？

Andrew Dai：对，我也联合主导了合成数据这块。合成数据用不好会导致一个很差的模型，但用得好，就像GPT-5，可以把模型做得非常好。

陈茜：“用得好”和“用得不好”有什么区别？

Andrew Dai：用得不好就是指，如果处理得不好，模型就会频繁输出合成数据里的特定词汇。比如合成数据里有很多“delve”这个词，训练完的模型也会更多地说“delve”这个词。所以合成数据同样需要高质量，否则模型会学到错误的东西。比如合成数据里有错误的数学，那模型的数学能力也会变差。

陈茜：Gemini 2.5大约在去年年中发布，年底发布了Gemini 3.0，那时候真的是短暂地超过了GPT，惊艳了整个市场，大家都在欢呼谷歌回来了，谷歌股价也涨得非常快。但你在Gemini 3.0之后就离开了，能跟我们讲讲为什么吗？

Andrew Dai：我先讲一下Gemini 2.5。2.5是因为Noam Shazeer从Character.AI回到谷歌，他帮助了2.5，让2.5成为了一个比较好的模型。

陈茜：Shazeer带来了什么让2.5变得更好？

Andrew Dai：他带来了他的能力。举个例子：有一次我跟Noam讨论Transformer的架构，我说在这里加一个connection（连接）会不会更好？他说不会好，因为gradient（梯度）就会从这里移到那里，他连模型都不用跑，就知道训练之后会是什么结果。他真的是一个天才，一看代码就知道这是不是一个好的模型，凭直觉就能理解模型是如何工作的。

陈茜：所以acqui-hire（收购式招聘）是合理的，一个人的能力就能帮公司省很多钱和时间。

Andrew Dai：这确实是一笔划算的交易，他非常厉害。

陈茜：那在3.0上你们做了哪些优化？

Andrew Dai：3.0我们继续在数据方法上做了新的创新。但我离开的原因是：我能感觉到我们用的方法和取得的进展都比较保守，因为有几千个人在这个项目上，用那么多GPU做预训练，就不能用太激进、太有风险的新想法。所以我觉得那是一个比较好的离开时机，去创业。

陈茜：所以你觉得在数据上还可以更快地提升优化，用更大胆、更激进的方式去做事情。但在谷歌，你觉得这方面的速度被拖慢了。

Andrew Dai：对，对谷歌来说可能有点危险，因为这种方法会大量改变数据。

陈茜：那你的新方法是什么？

Andrew Dai：这个我不能说。（笑）

07 Neolab爆发：创立Elorian AI，探索视觉推理路线

陈茜：你的新方法就是你自己创业。你想做的是视觉推理模型，在你能说的范围内，能解释一下你想用什么技术路径实现什么目标吗？

Andrew Dai：我们的团队是一个full-stack（全栈）团队，有非常了解数据、预训练、多模态、RL（强化学习）、post-training（后训练）、infer（推理）的人。所以我们不只是想在数据上做改变，去做一个更好的多模态推理模型，我们是整个full-stack approach（全栈方法）。我觉得Anthropic就是这样的，它是一个专注于编程的全栈公司，每个部分都聚焦在编程上。我们则是在数据、架构、RL算法的每个环节都聚焦在多模态上，包括vision encoder（视觉编码器）都会有新的方法。

陈茜：为什么你们现在做的事情谷歌做不了？

Andrew Dai：可以对比Anthropic。Anthropic的编程模型做得很好，但它不做多模态的东西，不会生成图片或视频，因为他们专注于编程。而Gemini和ChatGPT，他们的模型什么都可以做，在我们行业叫generalist models（通用模型），Claude这个模型可能叫specialist model（专用模型）。我们这个公司也是同样的想法：如果你做一个specialist model（专用模型），generalist model（通用模型）就很难超越它。因为我们会有更多多模态数据，我们会把数据调整好，去掉对多模态没有帮助的数据，比如“二战是谁赢的、在哪里打”这类信息对多模态其实没什么帮助，我们就可以减少这类数据，把更多资源留给多模态数据、视频和图片，这种方式其他公司很难追上来。

陈茜：现在的视觉模型，比如Google的Veo系列或者OpenAI的Sora系列，你觉得它们还不够好，因为视觉里面它们还不够理解自己在生成的东西，是吗？能给我们解释一下，视觉理解模型是什么？它跟Sora和Veo这样的视频生成模型有什么区别？

Andrew Dai：生成、理解和推理是非常不同的三件事。以语言模型举例：5年前这些模型已经会写代码，让GPT-3写代码，普通人看了会觉得写得很好，像是工程师写的，但工程师看了肯定会说：这个不对，根本跑不了，这就是生成和理解的区别。这些大模型都很容易生成内容，一眼看上去挺好，但仔细看就会发现问题，比如图片里字写错了、人有三只手、动物有五条腿。导演看了视频也会说：这个地方不对，明显是AI生成的，拍摄风格很AI。所以我们在视觉理解能力上，可能相当于5年前的GPT-3、GPT-2在语言理解上的水平。

陈茜：我记得我们在前采的时候，你提到了一个老鹰抓兔子的比喻，我觉得很形象。

Andrew Dai：对，那是在谈世界模型。你可以想象一只老鹰，很多老鹰都捕食鸟类，但要抓住一只鸟，你肯定需要理解重力、风和气流，知道翅膀需要以什么角度才能追上另一只鸟，还要预测那只鸟会往哪个方向飞，计算需要多快的速度才能在同一个点截住它。老鹰的大脑可以处理这些非常复杂的计算，也可以计算出兔子跑到桥下会从哪里出来，或者老鼠跑进草丛会从哪里出来。这些动物对自然世界、物理世界有深刻的理解。

但如果我们能把老鹰的大脑取出来问它：万有引力定律是什么？万有引力常数是多少？需要拍打什么角度才能飞行？它不会知道这些，因为这些概念都是人类发明的，如果我们是有4只手或者有 20 个手指，那我们数学可能就很不一样。因此，老鹰自己的世界模型，帮不了其他领域，这就是我觉得世界模型和语言模型的区别。

陈茜：现在很多neolab出来，尝试不同的模型研发思路。一派是大语言模型，一派是世界模型，但你相信存在一个中间点，也是目前你们在做的这一派：既需要语言模型，又需要视觉模型。能不能帮我们梳理一下这三派各自的信仰，以及他们押注的AGI路径？

Andrew Dai：我们现在看语言模型，它们的思维链都是用语言来完成的，包括Gemini、ChatGPT、Claude，他们认为思维链越来越长、越来越多样，模型就越来越聪明，可以做越来越多的事情，最终达到AGI。通过更强的编程能力，从而做出更好的模型。但如果你看这些模型在处理视觉问题上的表现，它们现在都不会“数”东西，比如桌子上放几个杯子，它们经常会产生幻觉、说错数量。所以我觉得，光scale（扩展）语言部分，还是不够理解我们的世界，不够理解图片和视频。

另一个方向是世界模型，很多做这个的实验室来自计算机视觉领域，比如李飞飞和Yann LeCun，他们的想法更偏学术。学术界强调novelty（新颖性），因为你必须要有novel的东西才能发表论文，所以他们倾向于做与众不同的新东西。他们相信视觉是intelligence（智能）的关键，就是因为人类有视觉，所以人很聪明。这也有历史背景，NeurIPS以前大部分文章都是视觉方向，做语言理解的人很少，包括我和Quoc，都算少数。但从语言角度看，光靠视觉是不够的。动物能用视觉做我们的机器人还做不到的事，就像老鹰可以抓住那只鸟。但就算我们做出一个很好的虚拟老鹰，我们还是没有intelligence，还达不到AGI。视觉领域的人会觉得vision is the key to intelligence（视觉是智能的关键），所以他们更倾向于靠视觉和图像数据，靠世界模型。但这样就无法和数学、物理、化学这些人类创造的概念体系结合，因为这些都是人为的东西，和世界模型还是比较远。

所以我们公司的想法是：要把视觉推理和语言推理结合起来，才能做出一个可以帮助所有行业的模型。

陈茜：就相当于把重力公式输到老鹰的脑子里？

Andrew Dai：对，哈哈，用老鹰的眼睛，用一部分老鹰的大脑，但还是要用人的推理。

陈茜：世界模型这个概念这两年很火，你觉得这些公司的发展能达到AGI吗？

Andrew Dai：可能五年后再问我这个问题，我觉得它们现在还非常早期，可能相当于大模型最早期的阶段：训练的时候还是在一块显卡上跑。就像我们2015年做最初的预训练时也是一块显卡开始，但需要很多年才能做成一个大模型。

陈茜：所以你觉得世界模型还没有到它的Transformer时刻？

Andrew Dai：还没有。他们可能需要一种新的结构，像JEPA，我觉得还需要再走几步才能到一个有用的模型。

陈茜：你觉得在视觉推理领域，其他公司的竞争优势是什么？谷歌内部可能也看到了这个方向，Meta、OpenAI也会做。我看到DeepSeek之前好像也发布了一篇类似的文章，后来把那篇文章删掉了。你觉得现在的竞争格局是什么样的？

Andrew Dai：DeepSeek那篇文章很有意思，发出来之后又删了，但在网络上什么都删不了，大家都已经读过了。其实DeepSeek的想法和我们的路径很像。但其他前沿实验室，像OpenAI、DeepMind和Anthropic，我觉得他们越来越偏向编程方向，因为编程市场很大，而且他们认为做好编程模型可以实现self-improvement，也就是所谓的recursive self-improvement（递归自我提升，RSI）。谁先突破，谁就先达到AGI，这些前沿实验室都不想成为第二，所以有很大压力去做更好的编程模型。正因为这种压力，他们对多模态视觉推理这个方向关注不够。我在Gemini的时候就感受到了这一点，所以觉得现在是做多模态推理模型的好时机。

陈茜：所以你觉得DeepSeek会是你们比较大的竞争对手吗？

Andrew Dai：可能吧，但我不知道他们为什么把那篇文章删了，是不是又换了方向？

陈茜：如果你们是一个非常research-driven（研究驱动）的团队，距离达到AGI还有一段时间。那投资人肯定也会问：中间你用什么来养活自己？除了VC的钱，你们的产品商业化落地是怎么规划的？

Andrew Dai：我们是一个研究与产品并重的实验室，也做frontier research（前沿研究）。但我有Google Brain的背景，Google Brain当时也有一个目标：把这些模型放到产品里，让几十亿人使用。现在Gemini就有很多人在用了，那是比较成功的。我们这家公司也有同样的目标：做一个APII（应用程序接口），让大家使用，帮助企业解决视觉问题。

陈茜：就是通过模型API的方式变现。但你的ultimate goal（终极目标）还是帮助大语言模型和视觉模型一起达到AGI？

Andrew Dai：对，至少达到视觉AGI。

陈茜：怎么定义视觉AGI？

Andrew Dai：我觉得“视觉AGI”比“AGI”表达得更准确。AGI的门槛每天都在变，有些人说我们已经达到AGI，有些人说没有。但“视觉”这件事，大部分人都能看到东西，在最基本的层面上能力差不多，比如你看到一个方向盘就知道怎么用，看到系鞋带的动作就知道怎么做，拼乐高或宜家家具也都是视觉问题，但这些现有的模型都做不好。如果有了一个可以做这些最基本视觉任务的模型，那距离AGI就不远了。

08 “最重要的资源是时间”，谷歌14年的研究品味与引路人

陈茜：你觉得自己出来做公司跟在谷歌有什么不一样？在谷歌14年，你有无限的资源、资金和人才，出来之后什么都要自己搞，需要找人、找钱、找方向，这中间的差异对你来说是什么样的体验？

Andrew Dai：很多地方不一样，卡方面当然少很多。但有一个优点，在谷歌或大公司，优先级可能每周都变，今天有卡，下周可能就没了。在新公司则更稳定，我们买了卡，没有人会拿走。

另外，我突然需要学很多新东西，比如怎么用PyTorch（因为DeepMind都用JAX）、怎么用Megatron、怎么用AWS、怎么用Slurm。谷歌基本上不用开源的东西，所以学习曲线对我来说很陡峭。

还有一个比较难的是招聘，DeepMind的Gemini团队很多人都想加入，发了offer候选人一般会接受。但在小公司不一样，我们现在还没有太大的名气，候选人知道小公司风险更大。所以招聘更难，有的人喜欢大公司的安全感，但也有人想尝试新的地方，觉得我们可能会成为下一个OpenAI或Anthropic，所以会加入我们。

陈茜：出来之后，你说会有更多的research freedom（研究自由）。但研究自由的代价是什么？

Andrew Dai：代价是支持会少一些。在谷歌，如果一个研究想法不成功，没关系，还可以做下一个项目，公司有很多资源支持你。但在初创公司，一个失败的研究想法风险更高，因为那些资源已经消耗了，不会回来。因此我做研究的压力会稍微大一些，我们现在就是寻找世界上最好的研究员，靠他们做出很好的成果。

陈茜：你觉得谷歌这14年带给你最大的是什么？

Andrew Dai：我这几年运气很好，能待在世界一流的研究室，看着AI发展到今天这个程度。10年前没有人会想到AI会发展得这么快，这是不可能的。我本来一直觉得世界变化比较慢，登月都已经是快六十年前的事了，但AI出现之后，突然感觉科技发展又重新提速了。

陈茜：你之前跟我提到过一个词叫research taste（研究品味），说neolab的这些人，都是因为他们所看重的研究方向在大公司里不被重视，但这很考验一个研究员的研究品味。能跟我们说一下，研究品味为什么重要吗？你在谷歌的14年是如何养成这种研究品味的？

Andrew Dai：对，研究品味很重要，不只是因为跑实验需要卡和资源，我觉得最重要的资源是时间。如果你跑了一个错误的实验或者走了一条错误的路，时间不会回来。你要知道什么时候继续追一个方向，也要知道什么时候放弃，研究品味就能帮助你做出这些判断。

我的研究品味很大程度上来自Geoffrey Hinton。他一直认为，做AI要根据大脑的工作方式来，如果大脑用某种方式处理视觉，那我们的模型也应该用类似的方式。就像CNN（卷积神经网络），这些神经网络模型是参照大脑的神经元设计的，也是从数据中学习的。我们现在的模型也都是从数据学习，一个全新的Transformer什么都不知道，给了数据才能做事。这也契合神经科学的想法：大脑一开始什么都不懂，通过成长才慢慢学会很多东西。所以我做研究的时候，也按照这个思路来判断：如果某个新方向和人类神经认知的方式相差很远，我可能就不会追那个方向。

陈茜：你的新公司Jeff Dean也有投资，你觉得在整个谷歌生涯中，Jeff Dean对你来说是怎样的存在？

Andrew Dai：Jeff Dean是一个很好的advisor（导师）。我刚进Brain团队就认识了他，那时候我们的模型跑得很慢，我的经理说如果有速度问题，直接去问Jeff Dean，他什么都知道。他来到我的电脑旁边，不光看代码，还看machine code（机器码），比C++和Python还要深层的代码，然后说“噢，这个地方不对”，然后他就给改了。

从那时候我就知道Jeff Dean是很亲力亲为的人，什么都懂、什么都学，包括自学了深度学习，才能做出Google Brain。所以他是我比较重要的榜样。他现在是Gemini的负责人，做得很好。

陈茜：在谷歌里面还有没有其他对你影响很大的人？

Andrew Dai：Quoc Le的影响也比较大，我跟他合作了好几个项目，也一起带了好几个实习生。谷歌厉害的人太多了，我觉得Google Brain和DeepMind就是这一代的Bell Labs（贝尔实验室），聚集了非常多聪明的人。包括Noam Shazeer，他真的非常厉害。还有Demis Hassabis，他是很独特的人，致力于用AI帮助整个世界，这个目标我觉得很了不起。

陈茜：最后可以聊聊你想招什么样的人才？对于好的人才，你跟他们喊几句话，告诉大家为什么他们应该来你的公司，和你一起实现视觉AGI？

Andrew Dai：我们现在在招世界一流的团队。我们认为人才密度越高，进步就越快。我看到DeepSeek这些中国研究机构，正是因为规模小、人才密集，才能做出很好的东西。我们在招有多模态经验、RL经验的研究员，也在招管理过GPU集群、training kernels（训练算子）、CUDA kernel（CUDA算子）、optimization（优化）这些方向的基础设施工程师。

为什么要加入我们？因为我觉得我们这个团队属于是neolab里的顶尖梯队，能找到有这么多数据经验、预训练经验、前沿模型经验的地方可能只有三四个，大部分其他的neolab都没有这么丰富的积累。我们的方向也是一个比较新的方向，我们认为会带来下一代的推理，一种更接近人类推理方式的reasoning（推理）。我们希望大家来跟我们一起成长，成为下一个Anthropic或下一个OpenAI。

陈茜：好的，谢谢Andrew。

Andrew Dai：谢谢。

09 Office tour ：AI科学家需要绿植和白天蒸桑拿?

陈茜：你们也是刚搬进来，对吧？

Andrew Dai：对，刚搬进来，我们还在用钥匙开门。

陈茜：现在是周五下午，员工都差不多离开了。你们现在有多少人？

Andrew Dai：差不多15个人。

陈茜：你们现在的比例是怎样的？多少人在做研究，多少人在做基础设施？

Andrew Dai：可能是12个人在做研究，1个人在做基础设施，2个人在做运营，我们是非常重研究的团队。

我们之所以选择这个办公室，就是因为这个院子。就像大学里的Quad（四方院）。我们午饭、happy hour都来这里，有客人也在这里接待。

陈茜：你们还需要多一点绿植。

Andrew Dai：对，还有一个喷泉，可以让人放松。

陈茜：这个院子你打算再加什么东西吗？

Andrew Dai：我们有一个研究员想加一个桑拿，累了就去泡。可能在桑拿的时候能想到一些东西。就像我洗澡的时候会thinking（思考）。

陈茜：所以你会用视觉模型去玩桌游吗？

Andrew Dai：我试过了，但它们太差了，连象棋都不太会玩。可能等我们的模型做完之后，就可以用它打桌游了。

陈茜：你最爱的办公室是哪一间？

Andrew Dai：就是角落那间。

陈茜：这间吗？光线很好，还有一个站立式办公桌。所以你经常会在这边看着外面，想一想？

Andrew Dai：对，或者坐在这里打电话。

陈茜：你现在大概一天的时间分配是怎样的？有多少时间在做运营工作，多少时间在做research（研究）跟thinking（思考）？

Andrew Dai：我白天大部分时间都在做运营，比如面试、搭建IT架构、搭建AWS。Research（研究）基本上是周末和晚上，在家里很安静，可以思考新的方法。

陈茜：经常在洗澡的时候有新想法。

Andrew Dai：是的，很多idea都是洗澡时冒出来的。

陈茜：我也是。然后idea来了之后，马上用Claude Code就可以实现了。

Andrew Dai：对，现在因为编程模型很好，我们可以很快套进去看看，这个idea好不好，快很多。

陈茜：这个idea是来自研究员还是你自己？你们公司的idea是怎么产生的？

Andrew Dai：都有。比如一些新的vision encoder（视觉编码器）的想法是我提出的，一些SFT（监督微调）和数据的想法是团队里的人提出的，现在正在跑。但我们总体觉得，自动化研究工具产生的想法太平庸了，没有创造力，做研究一定需要创造力。

以前ideas很便宜，因为编程很难、执行很难。但有了Claude Code、GPT Codex之后，执行容易了很多，ideas的价值就上涨了。

陈茜：所以这些有创造力的研究员，现在是大家争抢的宝贵资产。

Andrew Dai：对，creative researchers（有创造力的研究员）非常重要。

陈茜：最近neolab出来了很多人和创业公司，你觉得这个趋势还会持续吗？

Andrew Dai：我觉得还会，因为现在机会很多，开源模型很多，融资也变得容易了一些，很多公司都在IPO。所以这段时间我觉得还会有更多。但这也是一个窗口，过了一段时间，我们这一代neolab都成长壮大了，再新起来的就会更难了。

陈茜：你觉得这个窗口的截止日期是什么时候？

Andrew Dai：很难说，可能是这两年吧。然后等一段时间，又会有下一代实验室。

陈茜：下一代实验室会是什么样子的？

Andrew Dai：我不知道。可能是AGI之后的实验室，那我就不知道了，可能都是AI在跑，但现在它们的创造力离人类的创造力还太远了，所以还不适合。

陈茜：好的，谢谢Andrew。

Andrew Dai：谢谢。

以上就是我们与Andrew Dai的全部访谈和办公室探访了。Neolab是如今在硅谷非常重要的一个支线，也是今年在硅谷101着重关注的方向。接下来我们还会有更多Neo Labs创始人的深度访谈。

如今VC的大量资金涌入这样的新型AI实验室，是因为这些大基金们在OpenAI等前沿模型上的赌注已经太重了，他们需要一些对冲：万一大语言模型无法走到最后呢？那么接下来AI怎么发展，可能就是要看这些neolab的研究的成果。

就像AI灵魂领袖Ilya Sutskever说的那样：我们正在重新回到“研究时代”。

本文来自微信公众号“硅谷101”，作者：硅谷101，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。