谷歌AI的14年、Gemini翻身之战,与视觉理解模型:专访DeepMind前核心科学家Andrew Dai
他的论文,启发了OpenAI GPT的诞生。
在谷歌研究AI 14年,Andrew Dai推动数项重要论文、辗转数个产品,最后成为带领Gemini打下翻身之战的核心人物之一。
Andrew长期处在谷歌AI研发的中枢:从早期sequence learning(序列学习)、文本生成、对抗训练,到 PaLM、FLAN、Gemini、多模态和长上下文等等。与他合作论文的,都是谷歌的众多传奇大佬人物,包括Quoc Le、Ian Goodfellow、Liam Fedus、Jeff Dean等人。Andrew的职业轨迹可以说就是一部谷歌AI大模型的编年史。
然而在将Gemini 3顺利上线之后,Andrew Dai决定离开待了近14年的谷歌。原因是他看到了一条大公司“不敢走”、或者是“走得太慢”的路——不是纯语言模型,也不是世界模型,而是语言与视觉推理的结合。
今年4月,Andrew创立的Elorian AI宣布融资5500万美元,估值3亿美元,正式从保密阶段走向公众视野。投资方包括Menlo Ventures,Altimeter Capital等主流硅谷基金,还包括英伟达和以个人身份参与的Jeff Dean。
2026年的Google I/O正在召开,我们此次与Andrew一起回顾了谷歌过去14年的AI发展史:如何错过,如何落后,如何追赶,又如何重回巅峰的。这背后究竟有一些什么样的故事?Andrew Dai现在要做的多模态视觉推理模型又是什么?
硅谷没有秘密,但有一群信仰不一样未来的科学家们。在巨头们押注SOTA LLM之际,众多科技领军人物都开始纷纷创建自己的AI前沿新实验室(Neolabs),他们不拼算力和参数,而是希望找到一条真正达到智能的路径。此次,硅谷101也开启了Neolabs特辑,想和这群科学家们深度聊聊,他们眼中的AGI之路。今天这期,是此次特辑的第一期视频播客。
01 从伦敦到硅谷,一位谷歌AI核心科学家的14年
陈茜:非常感谢Andrew,欢迎你来做客硅谷101。我觉得你们的新办公室这边采光很好,这个房间你们以后准备用来做什么?
Andrew Dai:这个房间以后会让研究员和工程师坐在这里。我们租办公室至少要租两年,所以已经预估好两年后会有多少人了。
陈茜:两年后你会有多少人?
Andrew Dai:可能是50到70人。
陈茜:现在多少人?
Andrew Dai:现在是14个人,还有两个人在办签证,很快就16个人了。
陈茜:我在来之前听了你的一个英文播客,发现你有一点British accent(英式口音),是因为你之前在英国念书吗?
Andrew Dai:对,我在中国出生,但五岁就去了英国,因为我父亲去英国读博士,带着我一起过去。本科我在剑桥读,然后去爱丁堡读博士。
陈茜:你的中文其实还是讲得挺好的。
Andrew Dai:我的家人一直督促我练中文,我也认识一些来自中国的朋友,所以一直在坚持学。
陈茜:你是什么时候来到硅谷的?
Andrew Dai:14年前,就是2012年,为了在谷歌工作。
陈茜:当时为什么想来谷歌?
Andrew Dai:我读博士研究的是人工智能,从中学起就一直想做AI。那时候Google Brain(谷歌大脑)团队比较有名,所以我就想加入谷歌大脑。而DeepMind那时候还是一家很小的初创公司,我甚至不知道有DeepMind这家公司,所以就直接想来人工智能的中心,就是硅谷。
陈茜:如果你留在伦敦的话,是不是也有可能加入DeepMind,然后最后也来到谷歌?
Andrew Dai:很可能。后来我才知道,我们实验室的很多同学都去了DeepMind,就我一个人来到了Google Brain。当然来这里还有另一个原因,因为硅谷很容易创业,很多新公司都从这里诞生。所以我当初打算来这里待几年,然后就创业。
陈茜:没想到一待就是14年。
Andrew Dai:对,没想到待那么久。
陈茜:我们来讲讲你进入谷歌后的工作。你的第一份工作是去到了Google Now,那个团队是当时Larry Page希望Android和Search团队搭建一个能结合用户数据,来主动给用户推送提醒信息的功能。那时候背后已经有一定的AI研究,你在Google Now里在做什么?
Andrew Dai:那个经历比较有意思。他们招我去Google Now是为了做AI,但我到了团队才发现,工程上有很多基础设施的工作要做,比如有新闻出来,他们想个性化地推送给用户,我就编写了一套系统,能在15分钟内把新闻推送到所有人的手机上。有一次我们发现推送新闻很慢,要100毫秒,大家在想为什么这么慢?我发现数据在东海岸,而我要把数据送到西海岸,按照光速就需要这么多时间,没有办法更快,我从中学到了很多end-to-end(端到端)的东西。后来快离开的时候,我也开始做更多AI、更多个性化的工作。再之后就去Google Brain了。
02 两次收购、两种哲学,Hinton与DeepMind如何改变谷歌
陈茜:谷歌在2013、2014年有几个重要节点。第一个是2013年收购了Geoffrey Hinton的公司DNNresearch,Hinton之后加入谷歌工作。你觉得Hinton来到谷歌之后产生了什么样的影响?
Andrew Dai:Hinton来了之后,谷歌就更加重视AI。那几年我记得CEO也说了,Google是一家AI公司。Larry Page和Sergey Brin当初创造算法,目标本就是让机器运用AI帮助人们理解网络上的内容,所以他们一直非常重视AI。但2012年之后开始了Deep Learning(深度学习)新阶段,谷歌觉得如果不投这个方向就会落后,所以收购了Geoffrey Hinton的公司。从那以后,深度学习对谷歌就非常重要,它们的模型也越来越多地转向Neural Network(神经网络)。
陈茜:2014年谷歌又收购了DeepMind,你觉得DeepMind团队的加入,包括Demis Hassabis的加入,在多大程度上改变了谷歌?
Andrew Dai:DeepMind和DNNresearch的收购方式很不一样。DeepMind在收购时签了一份协议,要求保持独立、团队可以继续留在伦敦,不用来美国,附带很多这样的条件,所以基本上是一个独立的研究实验室。这跟Google Brain的定位不同,Google Brain的目标是做研究,然后和产品合作、将模型推向产品,DeepMind更像是你想做什么就做什么,只要你觉得重要,像AlphaGo这样的项目都可以做,两边的理念有一定差异。
陈茜:所以DeepMind是非常独立的,Hassabis说了算,谷歌也不太会管他们。
Andrew Dai:对,他们的招聘也有自己的方式,内部包括代码等很多东西都跟谷歌是分开的。
陈茜:那当时Google Brain的AI研究员,比如你,会跟DeepMind的人有合作吗?
Andrew Dai:会,但比较少。合作时会有credit assignment(功劳分配)的问题,这个项目到底是DeepMind主导还是Google Brain主导。在大公司里,ownership(所有权)很重要,所以这类项目就更复杂了。
03 半监督序列学习,谷歌错过的“GPT时刻”
陈茜:我看到你在2015年开始研究语言模型的预训练与微调,当时就应该是在Google Brain部门了。这一轮GenAI(生成式AI)的奠基石Transformer论文是2017年发布的,但在此之前,你和Google Brain联合创始人之一Quoc Le共同主导了一篇文章《Semi-supervised Sequence Learning》(半监督序列学习),可以帮我们解释一下,这篇论文主要解决了什么问题么?
Andrew Dai:那篇文章其实不是我们一开始就计划好的。我们本来是在做一种叫paragraph vectors(段落向量)的技术。那时候有Word2Vec,也就是Word Embedding(词嵌入),大家可能听说过,LLM出现之前大家都在用这些东西。我们想做一个更好的版本,做了很多很多实验,但都失败了。
有一天我跑了一个实验,发现结果非常好,比其他论文的分数都高。但当我想复现它重跑一次,却跑不出之前的结果,我就觉得肯定哪里有bug。于是我继续挖,发现是因为训练这个模型的时候,我是从另一个目录,也就是另一个checkpoint(检查点)开始的,而那个checkpoint属于一个别的做语言模型的项目。这时候我就发现了:如果先做语言模型,再用监督数据进行微调,就可以得到一个很好的模型。这就是我们发现的东西,然后就把它写成了论文。
之前大家是把这两部分分开的,没有想过用语言模型来做语言理解。我们的核心想法是:把语言模型和fine-tuning(微调)结合到一起,就可以做出一个很好的模型。所以我们是第一个把这两部分放在一起的团队。
陈茜:这篇论文现在回看,很像是“大规模预训练+下游微调”的范式。当然那时候Transformer还没出来,你们用的还是LSTM(长短期记忆网络),但你当时有没有意识到,它可能会引领出一个更大的东西?
Andrew Dai:那时候我们的卡很少,大家都没有用很多显卡做训练,所以模型规模也比较小。我记得那年我们在NeurIPS(神经信息处理系统大会)上发表了这篇文章,LSTM的主要作者Sepp Hochreiter来看了我们的海报,说他已经试过我们这个方法,结果很好。从那时候我们就知道,以后应该会有很多人用这个方法,但我们没想到过了十年还在用,而且模型规模扩大了这么多倍。
陈茜:那Transformer出来的时候,你有意识到这两个东西可以融合起来,变成一个更大的突破吗?
Andrew Dai:Transformer出来的时候,我就觉得它很适合和我们做的预训练结合。所以Transformer论文发布第二天,我就找了我的朋友,Transformer论文的一作Ashish Vaswani,对他说:“我们两年前有这篇预训练的文章,结果很好,你要不要在Transformer上也试试预训练?”但那时候他很忙,在做一些图像处理的东西,所以没有时间,后来就是OpenAI做了。
陈茜:那OpenAI是谁主导这件事,发现了Transformer可以和你们这篇文章结合?
Andrew Dai:是Alec Radford。他写了GPT-1、GPT-2、GPT-3的论文,引用了我们那篇文章,看出了scaling的潜力:模型越来越大,产出的语言就越来越好。
陈茜:谷歌是什么时候意识到这两个东西都是从自己这里出来的,结果被OpenAI结合在一起用了?
Andrew Dai:我觉得是GPT-3出来的时候才意识到。GPT-3是整个世界的转折点,不只是谷歌,Meta等很多公司都发现GPT-3的语言能力相当惊人,可能scaling才是正确方向。之前大家都不愿意把那么多显卡都押在一个实验上,但GPT-3之后,谷歌就开始愿意这样投入了。
陈茜:在GPT-3出来之前,Google Brain的联合创始人Jeff Dean、Andrew Ng(吴恩达)、Quoc Le,还有DeepMind的Hassabis,他们那时候分别在做什么?
Andrew Dai:Hassabis那段时间我记得好像是在做AlphaGo,他们相信把游戏做好就可以产生intelligence(智能),比如Atari(雅达利)游戏和围棋。
Google Brain是另一个方向,包括Geoffrey Hinton也是这个想法:如果做一个什么都能做的AI,那才是真正的intelligence(智能),不要只专注一个小领域。那时候Google Brain的文化以自由著称,你想做什么都可以做。Jeff Dean在领导Brain团队,但下面的研究员什么都在做,有的在做音乐生成,做语言的人其实很少,基本上就是Quoc和我还有几个人,大部分人都在做视觉或视频处理。
陈茜:就是没有一个人强有力地站出来说:我们要集合所有资源押注在同一个赛道上,直到他们看到GPT-3出来。
Andrew Dai:对,后来就变了。
陈茜:所以你觉得OpenAI为什么能看到Semi-supervised Sequence Learning(半监督序列学习)的能力,而谷歌看不到呢?你当时跟Transformer作者说了这个想法,他没理你,之后你就没有再推进了吗?
Andrew Dai:那是2017年,时间节点很特别。那时候Google Brain开始成立谷歌健康部门,觉得health(医疗健康)是一个很热门的领域,大家都想进入这个方向,包括苹果和微软。谷歌也觉得应该把AI放进健康里,所以让我选择:是要进入这个新的谷歌健康部门,让AI可以治病,还是留在Brain。我选择去了Health,因此就没有机会去做GPT这类模型了。
陈茜:那有没有其他人继续往这个方向深推呢?
Andrew Dai:后来没有继续往上scale(扩展),但有人把它用到了产品上,像Smart Compose、Smart Reply就是用了预训练的方法。
04 谷歌落地为何总是慢半拍,PaLM 2、FLAN、RL与MoE
陈茜:了解了。我们接着说说你在Health部门在研究什么? 是去做产品了是吗?
Andrew Dai:对,在Health部门,我做的是帮助产品落地的研究,主要负责用医疗记录来预测一个人以后可能患什么病,或者需要服什么药,从而帮助医院节省成本或辅助医生决策。因为预训练很成功,所以我们也在医疗领域用了预训练,但那时候模型还很小,最后没有做出预训练的成果,不过发表了其他论文。那时候有Google Brain Residency Program(谷歌大脑住院医项目),是一个比较好的时代,招了很多类似实习生的人待一年,后来创业的Liam Fedus、Demi Guo和David Ha,都是我当时的实习生。
陈茜:在2018年,也就是你去Health部门一年后,我看到你和Ian Goodfellow等人合作了一篇有分量的论文叫MaskGAN,用于改善文本生成的质量。这篇论文的底层技术进步给你带来了哪些收获?因为我看到其中一些技术探索,比如in-filling(填空任务)等,在后来的BERT和Gemini多模态预训练中都有一定程度的启发和影响。这篇论文对你意味着什么?
Andrew Dai:这篇文章是我和Liam Fedus、Ian Goodfellow一起写的。我们觉得“填空”是一个很好的任务,可以让模型学到很复杂的东西。我认为这篇论文有一个比较突出的地方,就是在RL(强化学习)方面,那时候基本上没有其他人在做预训练之后再做RL,我们可能是最早几篇把RL用在预训练之后的论文,而现在这已经是业界通用的方法了。
陈茜:相当于你们是最早一批把RL用在语言模型上的团队。
Andrew Dai:对。我们那时候就觉得光做预训练还不够,因为预训练的模型不会学到它自己写出来的内容哪里好、哪里不好,也不会学到该怎么改。有了RL,模型可以看到自己写的这一段不像自然语言,RL就可以把它改好。
陈茜:在很多大家都认为有共识的技术范式上,你们也都是第一批团队去做的,包括MoE(混合专家模型)。你研究MoE是在2021年左右,联合主导了GLaM(Generalist Language Model) MoE LLM(大语言模型)的开发。现在MoE架构我们都很熟悉了,不过真正把MoE带到大众视野的,可能还是去年DeepSeek V3发布的时候,但我没想到谷歌内部在2021年就已经在研发这条路线了。
Andrew Dai:GPT-3出来之后,Google Brain团队有些人感到有点着急,觉得一定要做出一个比它更好、功能更多的模型。那时候我们意识到,这些模型越来越大,通过API提供服务会非常贵,因为参数太多,耗电量很大。如果每次只用模型的一部分,耗电就少很多。几年前Noam Shazeer发表过一篇关于MoE的文章,但那时候没有做预训练。所以我们就把MoE加上预训练、再加上fine-tuning(微调),最终做出了一个比GPT-3更好的模型,这就是我们的成就。
陈茜:2021年GPT-3出来后,你说谷歌内部开始感到压力了?当时是什么情况?
Andrew Dai:当时我在Google Health的经理Claire回到了Google Brain,我就和她谈,想离开Google Health。她说他们在做一个模型,但达不到GPT-3的水平,就问我能不能帮他们解决这个问题。我觉得是数据的问题,所以我就过去了,处理了一段时间数据,最终做出了一个比GPT-3更好的模型,并发表了论文。那时候DeepMind也发表了一篇文章,竞争从那时候就开始了,那时候因为两边都看到了GPT-3,DeepMind觉得要竞争,Brain也觉得要竞争,否则大家都会认为谷歌做不出这样的模型。
陈茜:你当时为什么想离开Health?
Andrew Dai:我觉得对一家大型科技公司来说,做医疗健康非常难,而且难度不在于技术,而在于文化。
因为医生有自己传承了数百代的文化和做事方式。这个行业本身对资源和认知的要求就更高,很多医生按照自己的直觉做决定,如果我们要推AI,他们就会问:为什么AI要我做这个?我做了几十年,肯定比这个AI懂。所以那时候让医生接受AI就非常难。
陈茜:是不是说,在实际产品落地上,大型科技公司比不上那些跟医院、医生或药企关系紧密的公司?
Andrew Dai:对。而且大公司可能还会让医生觉得“他们是来抢我们工作、抢医院的钱的”。如果是初创公司,他们就不会那么感受到威胁,这也是一个因素。
陈茜:是不是当时技术也没有好到让大家觉得非用不可?
Andrew Dai:对,那时候的时机还不对。就像现在,因为ChatGPT,很多医生觉得“我也可以用AI了,大家都在用”。但那时候不是这样,那时候医生对AI是相对陌生的用户群体。现在他们已经不陌生了,所以顾虑也就没那么多了。
陈茜:时机不对,技术可能也比较粗糙,产品也没有那么完善,而且美国医疗产业本就是一个很难打入的市场。
Andrew Dai:It's a big lesson.(这是一个很大的教训。)
陈茜:所以你的take-away(收获)就是:要在正确的时间做正确的事,研究正确的技术。
Andrew Dai:对,这对创业来说尤其重要。
陈茜:你从Health出来之后,在2022年主导了谷歌PaLM 2模型的预训练。这个模型对谷歌非常重要,因为那时候谷歌和OpenAI已经存在模型层面的竞争压力了。PaLM 2出来的时候,你们满意吗?
Andrew Dai:PaLM 2大约在2023年初就训练完成了,我那时候觉得这是一个很好的模型。我们那时候从来没有见过跑得那么顺畅的预训练:从头到底,一次都没有停,一次都不需要rewind(回退)。不像Meta那段时间发布的OPT模型,可以看到他们的日志,重启了很多次,做了很久。PaLM 2就非常顺,从立项到训练完成不到一年,特别顺畅。
陈茜:为什么能这么顺?你们做了什么事情?
Andrew Dai:我们那时候有训练GLaM和PaLM 1积累下来的经验,在架构上做了很多测试和实验,知道这个方案稳定、不会出问题。正式开始大规模训练之前,我们也做了一些pilot runs(试运行),所以就有high confidence(高置信度)这个会成功。
陈茜:在2022年你还写了一篇重要论文——FLAN(Scaling Instruction-Finetuned Language Models),探索了任务数量、模型大小以及加入了Chain-of-Thought(思维链/CoT)的数据,能给我们讲一下FLAN的重要性在哪里吗?
Andrew Dai:FLAN之前,大家都是用few-shot prompting(少样本提示)来使用模型,如果你要让它做某件事,你要先给它举几个例子,比如数学题,你先给它一道题和答案,再问它新的问题。FLAN的核心思想是:其实你不需要在每次对话里给例子,只要在微调数据里放入这些示例就够了,模型就会学会“你给我什么问题,我就必须给出答案”。好处是你不再需要每次都提供few-shot(少样本)例子,但坏处就是,如果你问它不知道的问题,它也会假装知道。正是有了这种方式,ChatGPT这样的聊天机器人才成为可能,因为你可以直接问它问题。
陈茜:PaLM 2你们还是比较满意的,但你们的风头还是被GPT-4给抢了,是吗?
Andrew Dai:对,我们做完得比较早,2023年初就完成了。但谷歌内部的官僚体制和庞大的组织系统,让他们决定要等到Google I/O统一发布。OpenAI当然知道Google I/O是什么,知道我们要发布模型,谷歌那么大,内部没有什么秘密。所以他们恰好在Google I/O之前发布了GPT-4,GPT-4的结果比PaLM 2更好。我们发布PaLM 2的时候,我就觉得晚了一步,如果早点发布,我们就可以说我们是世界上最好的模型。
陈茜:你觉得可惜吗?
Andrew Dai:有点可惜。
陈茜:但PaLM 2还是很重要,虽然GPT-4在benchmark(基准测试)上可能比你们好,但至少谷歌向大家证明了:我们站稳了,我们没有落后太多。
Andrew Dai:对,而且没有PaLM 2的话,当时那个叫Bard、后来叫Gemini的产品也会比较危险,因为Bard就是用PaLM 2做出来的聊天机器人,如果没有PaLM 2,谷歌就没有聊天机器人了。
05 拉响红色警报,DeepMind与Google Brain的整合与碰撞
陈茜:2022年底OpenAI上线了ChatGPT,把整个AI市场引爆了,谷歌内部拉响了Code Red(红色警戒)。之后Sergey Brin也回归了谷歌,当时做出的一个决定,就是把DeepMind和Google Brain合并起来。跟我们讲讲这次整合顺利吗?还是有很多摩擦?
Andrew Dai:这个整合大家有个preview(预期),其中Gemini就是一个整合后的预期产品代表。因为在官方合并的几个月之前,DeepMind和Brain的人就已经开始一起做Gemini了,但是不是 official(官方的),那段时间就已经感受到一些摩擦。后来领导层认为时间线要更快,不能继续落后于ChatGPT,就决定加快把两个团队整合在一起,摩擦也随之更加明显。
因为两边有对等的团队:DeepMind有基础设施团队,Brain也有;DeepMind有多模态团队,Brain也有;数据方面,DeepMind有数据团队,我就代表Brain的数据团队。所以一开始确实关系比较紧张,他们决定每个部门由DeepMind出一个负责人、Brain出一个负责人来联合领导,这就比较复杂了。
陈茜:所以比如数据部门,你是一个co-lead(联合负责人),DeepMind那边也出一个co-lead,其他的每个部门也是同样的设置,是吗?
Andrew Dai:对,而且还需要进一步划分。比如在数据部门里,哪部分由伦敦做,哪部分由Mountain View(山景城)的Brain团队来做?这非常复杂,浪费了很多时间。
陈茜:为什么一定要设置这样的机制呢?
Andrew Dai:这样更公平一些。
陈茜:也就是Google Brain跟DeepMind谁都不服谁,这是一个两边都同时给糖的安排。
Andrew Dai:对,是一个对等的设置。
陈茜:你觉得这样的设置会拖累模型的研发速度吗?
Andrew Dai:我觉得一开始可能出模型的节奏会慢一些。两个之前从未合作、甚至有一定紧张关系的团队突然被放在一起,肯定有些事情会变慢、会有人换组,这些都发生了。
陈茜:整个磨合过程你觉得经历了多长时间?还是说到现在还在磨合?
Andrew Dai:可能现在还在磨合。不同部门的速度不一样,比如基础设施方向磨合得较快,多模态也是。
陈茜:两边整合的结果,就是很多人离职,对吧?
Andrew Dai:是的,有不少人离职,两边都有,Brain这边有,DeepMind那边也有。
陈茜:这两个谁都看不上谁的部门整合在一起,同心协力做Gemini。2023年底,Gemini 1.0出来了,这个模型你们满意吗?
Andrew Dai:那个模型有点仓促。我们刚刚开始合作,很多事情都是拼命赶deadline(截止日期)。那时候有一个圣诞节的截止日期,5月份Google I/O刚发布了PaLM 2,我们想要每6个月出一个新模型,所以大家都在赶。这些人之前都没有合作过,模型又基本上是从头开始做,所以有些地方没有做好,比如一些小众的语言的就没有做好。那时候媒体报道了Gemini 1.0在某些语言上表现欠佳,所以我们随即就开始赶做Gemini 1.5了。
陈茜:我看到Gemini 1.5才用到了MoE(混合专家模型)架构,但这是你在2021年就已经在研发的东西,为什么这么晚呢?
Andrew Dai:这也是一个速度的问题。1.0要赶快推出来,所以就没有时间做MoE的模型,只能做dense(稠密)模型,因为MoE还需要额外的调优和优化时间。ChatGPT出来之后,整件事变成了一场竞赛,我们在跟OpenAI比赛,如果MoE会拖慢我们的进度,就不能做,所以……
陈茜:所以优先级变成了先追上进度,而不是创新,谷歌这时候变成了追赶者。是不是也因为GPT-4用了MoE,所以Gemini 1.5才决定一定要用MoE了?
Andrew Dai:其实我们本来就打算用MoE,只是时间问题。我们从那篇2021年的论文就已经知道MoE效果更好。但我们不知道OpenAI会那么快用MoE,不知道GPT-4会是一个MoE的模型,当时有些人认为还会是dense模型。我的实习生Liam Fedus去了OpenAI之后,他们就开始做MoE了。
陈茜:所以他和你一起研究了这件事,然后把它带去了OpenAI。硅谷其实没有什么秘密可言,因为没有竞业协议。
Andrew Dai:对,特别是大模型领域。大公司里肯定会有人去OpenAI、Anthropic,所以大公司很难保持秘密。
06 Gemini翻身仗,“大模型最大的差异点是数据”
陈茜:Gemini 2.0对你们来说是比较大的翻身仗吗?
Andrew Dai:Gemini 2.0像是一种进化,各种方法都更成熟了,包括MoE、长上下文等。总体来说,是一个更好的模型。
陈茜:我听说在数据方面,你在Gemini 2.0上也有一些创新。能跟我们解释一下,你做了什么让Gemini 2.0变得更好?
Andrew Dai:在数据上有一个很大的变化,我们用了新的方法来处理数据质量,检测质量的标准也更严格了。有些公司可能认为架构和卡够了就能做出好模型,但数据其实非常重要。你看那些论文,一般都不会说数据是什么、来自哪里,这是一个秘方,所以我们发表了新的方法。
陈茜:所以你觉得数据是大模型之间很大的差异点吗?看起来模型架构大家都在用类似的东西,算力大公司都不缺,基础设施也都差不多,差异点是否就在数据上?
Andrew Dai:对,我觉得最大的差异就是数据。
陈茜:但数据不只是来源的问题,因为大家基本上把互联网数据都穷尽了,而是如何优化和筛选更高质量的数据用于训练,是吗?
Andrew Dai:对,你选用什么数据很重要。网络上有大量数据,但也有很多垃圾信息和对模型没有帮助的内容,所以需要找到那些好的数据,让模型能学到新东西。就像人一样,每天只让他读广告,他什么都学不到,要给他有信息、有知识的数据才行。来源也有一些区别,因为谷歌有搜索的经验,知道怎么爬取网络,其他公司也有自己的优势。
陈茜:所以你在Gemini 2.0数据上的主要提升,就是把垃圾信息的数据剔除掉?
Andrew Dai:对,垃圾信息以及其他一些低质量的数据,还有更多不方便透露的内容。
陈茜:在合成数据方面,你也参与了对吗?
Andrew Dai:对,我也联合主导了合成数据这块。合成数据用不好会导致一个很差的模型,但用得好,就像GPT-5,可以把模型做得非常好。
陈茜:“用得好”和“用得不好”有什么区别?
Andrew Dai:用得不好就是指,如果处理得不好,模型就会频繁输出合成数据里的特定词汇。比如合成数据里有很多“delve”这个词,训练完的模型也会更多地说“delve”这个词。所以合成数据同样需要高质量,否则模型会学到错误的东西。比如合成数据里有错误的数学,那模型的数学能力也会变差。
陈茜:Gemini 2.5大约在去年年中发布,年底发布了Gemini 3.0,那时候真的是短暂地超过了GPT,惊艳了整个市场,大家都在欢呼谷歌回来了,谷歌股价也涨得非常快。但你在Gemini 3.0之后就离开了,能跟我们讲讲为什么吗?
Andrew Dai:我先讲一下Gemini 2.5。2.5是因为Noam Shazeer从Character.AI回到谷歌,他帮助了2.5,让2.5成为了一个比较好的模型。
陈茜:Shazeer带来了什么让2.5变得更好?
Andrew Dai:他带来了他的能力。举个例子:有一次我跟Noam讨论Transformer的架构,我说在这里加一个connection(连接)会不会更好?他说不会好,因为gradient(梯度)就会从这里移到那里,他连模型都不用跑,就知道训练之后会是什么结果。他真的是一个天才,一看代码就知道这是不是一个好的模型,凭直觉就能理解模型是如何工作的。
陈茜:所以acqui-hire(收购式招聘)是合理的,一个人的能力就能帮公司省很多钱和时间。
Andrew Dai:这确实是一笔划算的交易,他非常厉害。
陈茜:那在3.0上你们做了哪些优化?
Andrew Dai:3.0我们继续在数据方法上做了新的创新。但我离开的原因是:我能感觉到我们用的方法和取得的进展都比较保守,因为有几千个人在这个项目上,用那么多GPU做预训练,就不能用太激进、太有风险的新想法。所以我觉得那是一个比较好的离开时机,去创业。
陈茜:所以你觉得在数据上还可以更快地提升优化,用更大胆、更激进的方式去做事情。但在谷歌,你觉得这方面的速度被拖慢了。
Andrew Dai:对,对谷歌来说可能有点危险,因为这种方法会大量改变数据。
陈茜:那你的新方法是什么?
Andrew Dai:这个我不能说。(笑)
07 Neolab爆发:创立Elorian AI,探索视觉推理路线
陈茜:你的新方法就是你自己创业。你想做的是视觉推理模型,在你能说的范围内,能解释一下你想用什么技术路径实现什么目标吗?
Andrew Dai:我们的团队是一个full-stack(全栈)团队,有非常了解数据、预训练、多模态、RL(强化学习)、post-training(后训练)、infer(推理)的人。所以我们不只是想在数据上做改变,去做一个更好的多模态推理模型,我们是整个full-stack approach(全栈方法)。我觉得Anthropic就是这样的,它是一个专注于编程的全栈公司,每个部分都聚焦在编程上。我们则是在数据、架构、RL算法的每个环节都聚焦在多模态上,包括vision encoder(视觉编码器)都会有新的方法。
陈茜:为什么你们现在做的事情谷歌做不了?
Andrew Dai:可以对比Anthropic。Anthropic的编程模型做得很好,但它不做多模态的东西,不会生成图片或视频,因为他们专注于编程。而Gemini和ChatGPT,他们的模型什么都可以做,在我们行业叫generalist models(通用模型),Claude这个模型可能叫specialist model(专用模型)。我们这个公司也是同样的想法:如果你做一个specialist model(专用模型),generalist model(通用模型)就很难超越它。因为我们会有更多多模态数据,我们会把数据调整好,去掉对多模态没有帮助的数据,比如“二战是谁赢的、在哪里打”这类信息对多模态其实没什么帮助,我们就可以减少这类数据,把更多资源留给多模态数据、视频和图片,这种方式其他公司很难追上来。
陈茜:现在的视觉模型,比如Google的Veo系列或者OpenAI的Sora系列,你觉得它们还不够好,因为视觉里面它们还不够理解自己在生成的东西,是吗?能给我们解释一下,视觉理解模型是什么?它跟Sora和Veo这样的视频生成模型有什么区别?
Andrew Dai:生成、理解和推理是非常不同的三件事。以语言模型举例:5年前这些模型已经会写代码,让GPT-3写代码,普通人看了会觉得写得很好,像是工程师写的,但工程师看了肯定会说:这个不对,根本跑不了,这就是生成和理解的区别。这些大模型都很容易生成内容,一眼看上去挺好,但仔细看就会发现问题,比如图片里字写错了、人有三只手、动物有五条腿。导演看了视频也会说:这个地方不对,明显是AI生成的,拍摄风格很AI。所以我们在视觉理解能力上,可能相当于5年前的GPT-3、GPT-2在语言理解上的水平。
陈茜:我记得我们在前采的时候,你提到了一个老鹰抓兔子的比喻,我觉得很形象。
Andrew Dai:对,那是在谈世界模型。你可以想象一只老鹰,很多老鹰都捕食鸟类,但要抓住一只鸟,你肯定需要理解重力、风和气流,知道翅膀需要以什么角度才能追上另一只鸟,还要预测那只鸟会往哪个方向飞,计算需要多快的速度才能在同一个点截住它。老鹰的大脑可以处理这些非常复杂的计算,也可以计算出兔子跑到桥下会从哪里出来,或者老鼠跑进草丛会从哪里出来。这些动物对自然世界、物理世界有深刻的理解。
但如果我们能把老鹰的大脑取出来问它:万有引力定律是什么?万有引力常数是多少?需要拍打什么角度才能飞行?它不会知道这些,因为这些概念都是人类发明的,如果我们是有4只手或者有 20 个手指,那我们数学可能就很不一样。因此,老鹰自己的世界模型,帮不了其他领域,这就是我觉得世界模型和语言模型的区别。
陈茜:现在很多neolab出来,尝试不同的模型研发思路。一派是大语言模型,一派是世界模型,但你相信存在一个中间点,也是目前你们在做的这一派:既需要语言模型,又需要视觉模型。能不能帮我们梳理一下这三派各自的信仰,以及他们押注的AGI路径?
Andrew Dai:我们现在看语言模型,它们的思维链都是用语言来完成的,包括Gemini、ChatGPT、Claude,他们认为思维链越来越长、越来越多样,模型就越来越聪明,可以做越来越多的事情,最终达到AGI。通过更强的编程能力,从而做出更好的模型。但如果你看这些模型在处理视觉问题上的表现,它们现在都不会“数”东西,比如桌子上放几个杯子,它们经常会产生幻觉、说错数量。所以我觉得,光scale(扩展)语言部分,还是不够理解我们的世界,不够理解图片和视频。
另一个方向是世界模型,很多做这个的实验室来自计算机视觉领域,比如李飞飞和Yann LeCun,他们的想法更偏学术。学术界强调novelty(新颖性),因为你必须要有novel的东西才能发表论文,所以他们倾向于做与众不同的新东西。他们相信视觉是intelligence(智能)的关键,就是因为人类有视觉,所以人很聪明。这也有历史背景,NeurIPS以前大部分文章都是视觉方向,做语言理解的人很少,包括我和Quoc,都算少数。但从语言角度看,光靠视觉是不够的。动物能用视觉做我们的机器人还做不到的事,就像老鹰可以抓住那只鸟。但就算我们做出一个很好的虚拟老鹰,我们还是没有intelligence,还达不到AGI。视觉领域的人会觉得vision is the key to intelligence(视觉是智能的关键),所以他们更倾向于靠视觉和图像数据,靠世界模型。但这样就无法和数学、物理、化学这些人类创造的概念体系结合,因为这些都是人为的东西,和世界模型还是比较远。
所以我们公司的想法是:要把视觉推理和语言推理结合起来,才能做出一个可以帮助所有行业的模型。
陈茜:就相当于把重力公式输到老鹰的脑子里?
Andrew Dai:对,哈哈,用老鹰的眼睛,用一部分老鹰的大脑,但还是要用人的推理。
陈茜:世界模型这个概念这两年很火,你觉得这些公司的发展能达到AGI吗?
Andrew Dai:可能五年后再问我这个问题,我觉得它们现在还非常早期,可能相当于大模型最早期的阶段:训练的时候还是在一块显卡上跑。就像我们2015年做最初的预训练时也是一块显卡开始,但需要很多年才能做成一个大模型。
陈茜:所以你觉得世界模型还没有到它的Transformer时刻?
Andrew Dai:还没有。他们可能需要一种新的结构,像JEPA,我觉得还需要再走几步才能到一个有用的模型。
陈茜:你觉得在视觉推理领域,其他公司的竞争优势是什么?谷歌内部可能也看到了这个方向,Meta、OpenAI也会做。我看到DeepSeek之前好像也发布了一篇类似的文章,后来把那篇文章删掉了。你觉得现在的竞争格局是什么样的?
Andrew Dai:DeepSeek那篇文章很有意思,发出来之后又删了,但在网络上什么都删不了,大家都已经读过了。其实DeepSeek的想法和我们的路径很像。但其他前沿实验室,像OpenAI、DeepMind和Anthropic,我觉得他们越来越偏向编程方向,因为编程市场很大,而且他们认为做好编程模型可以实现self-improvement,也就是所谓的recursive self-improvement(递归自我提升,RSI)。谁先突破,谁就先达到AGI,这些前沿实验室都不想成为第二,所以有很大压力去做更好的编程模型。正因为这种压力,他们对多模态视觉推理这个方向关注不够。我在Gemini的时候就感受到了这一点,所以觉得现在是做多模态推理模型的好时机。
陈茜:所以你觉得DeepSeek会是你们比较大的竞争对手吗?
Andrew Dai:可能吧,但我不知道他们为什么把那篇文章删了,是不是又换了方向?
陈茜:如果你们是一个非常research-driven(研究驱动)的团队,距离达到AGI还有一段时间。那投资人肯定也会问:中间你用什么来养活自己?除了VC的钱,你们的产品商业化落地是怎么规划的?
Andrew Dai:我们是一个研究与产品并重的实验室,也做frontier research(前沿研究)。但我有Google Brain的背景,Google Brain当时也有一个目标:把这些模型放到产品里,让几十亿人使用。现在Gemini就有很多人在用了,那是比较成功的。我们这家公司也有同样的目标:做一个APII(应用程序接口),让大家使用,帮助企业解决视觉问题。
陈茜:就是通过模型API的方式变现。但你的ultimate goal(终极目标)还是帮助大语言模型和视觉模型一起达到AGI?
Andrew Dai:对,至少达到视觉AGI。
陈茜:怎么定义视觉AGI?
Andrew Dai:我觉得“视觉AGI”比“AGI”表达得更准确。AGI的门槛每天都在变,有些人说我们已经达到AGI,有些人说没有。但“视觉”这件事,大部分人都能看到东西,在最基本的层面上能力差不多,比如你看到一个方向盘就知道怎么用,看到系鞋带的动作就知道怎么做,拼乐高或宜家家具也都是视觉问题,但这些现有的模型都做不好。如果有了一个可以做这些最基本视觉任务的模型,那距离AGI就不远了。
08 “最重要的资源是时间”,谷歌14年的研究品味与引路人
陈茜:你觉得自己出来做公司跟在谷歌有什么不一样?在谷歌14年,你有无限的资源、资金和人才,出来之后什么都要自己搞,需要找人、找钱、找方向,这中间的差异对你来说是什么样的体验?
Andrew Dai:很多地方不一样,卡方面当然少很多。但有一个优点,在谷歌或大公司,优先级可能每周都变,今天有卡,下周可能就没了。在新公司则更稳定,我们买了卡,没有人会拿走。
另外,我突然需要学很多新东西,比如怎么用PyTorch(因为DeepMind都用JAX)、怎么用Megatron、怎么用AWS、怎么用Slurm。谷歌基本上不用开源的东西,所以学习曲线对我来说很陡峭。
还有一个比较难的是招聘,DeepMind的Gemini团队很多人都想加入,发了offer候选人一般会接受。但在小公司不一样,我们现在还没有太大的名气,候选人知道小公司风险更大。所以招聘更难,有的人喜欢大公司的安全感,但也有人想尝试新的地方,觉得我们可能会成为下一个OpenAI或Anthropic,所以会加入我们。
陈茜:出来之后,你说会有更多的research freedom(研究自由)。但研究自由的代价是什么?
Andrew Dai:代价是支持会少一些。在谷歌,如果一个研究想法不成功,没关系,还可以做下一个项目,公司有很多资源支持你。但在初创公司,一个失败的研究想法风险更高,因为那些资源已经消耗了,不会回来。因此我做研究的压力会稍微大一些,我们现在就是寻找世界上最好的研究员,靠他们做出很好的成果。
陈茜:你觉得谷歌这14年带给你最大的是什么?
Andrew Dai:我这几年运气很好,能待在世界一流的研究室,看着AI发展到今天这个程度。10年前没有人会想到AI会发展得这么快,这是不可能的。我本来一直觉得世界变化比较慢,登月都已经是快六十年前的事了,但AI出现之后,突然感觉科技发展又重新提速了。
陈茜:你之前跟我提到过一个词叫research taste(研究品味),说neolab的这些人,都是因为他们所看重的研究方向在大公司里不被重视,但这很考验一个研究员的研究品味。能跟我们说一下,研究品味为什么重要吗?你在谷歌的14年是如何养成这种研究品味的?
Andrew Dai:对,研究品味很重要,不只是因为跑实验需要卡和资源,我觉得最重要的资源是时间。如果你跑了一个错误的实验或者走了一条错误的路,时间不会回来。你要知道什么时候继续追一个方向,也要知道什么时候放弃,研究品味就能帮助你做出这些判断。
我的研究品味很大程度上来自Geoffrey Hinton。他一直认为,做AI要根据大脑的工作方式来,如果大脑用某种方式处理视觉,那我们的模型也应该用类似的方式。就像CNN(卷积神经网络),这些神经网络模型是参照大脑的神经元设计的,也是从数据中学习的。我们现在的模型也都是从数据学习,一个全新的Transformer什么都不知道,给了数据才能做事。这也契合神经科学的想法:大脑一开始什么都不懂,通过成长才慢慢学会很多东西。所以我做研究的时候,也按照这个思路来判断:如果某个新方向和人类神经认知的方式相差很远,我可能就不会追那个方向。
陈茜:你的新公司Jeff Dean也有投资,你觉得在整个谷歌生涯中,Jeff Dean对你来说是怎样的存在?
Andrew Dai:Jeff Dean是一个很好的advisor(导师)。我刚进Brain团队就认识了他,那时候我们的模型跑得很慢,我的经理说如果有速度问题,直接去问Jeff Dean,他什么都知道。他来到我的电脑旁边,不光看代码,还看machine code(机器码),比C++和Python还要深层的代码,然后说“噢,这个地方不对”,然后他就给改了。
从那时候我就知道Jeff Dean是很亲力亲为的人,什么都懂、什么都学,包括自学了深度学习,才能做出Google Brain。所以他是我比较重要的榜样。他现在是Gemini的负责人,做得很好。
陈茜:在谷歌里面还有没有其他对你影响很大的人?
Andrew Dai:Quoc Le的影响也比较大,我跟他合作了好几个项目,也一起带了好几个实习生。谷歌厉害的人太多了,我觉得Google Brain和DeepMind就是这一代的Bell Labs(贝尔实验室),聚集了非常多聪明的人。包括Noam Shazeer,他真的非常厉害。还有Demis Hassabis,他是很独特的人,致力于用AI帮助整个世界,这个目标我觉得很了不起。
陈茜:最后可以聊聊你想招什么样的人才?对于好的人才,你跟他们喊几句话,告诉大家为什么他们应该来你的公司,和你一起实现视觉AGI?
Andrew Dai:我们现在在招世界一流的团队。我们认为人才密度越高,进步就越快。我看到DeepSeek这些中国研究机构,正是因为规模小、人才密集,才能做出很好的东西。我们在招有多模态经验、RL经验的研究员,也在招管理过GPU集群、training kernels(训练算子)、CUDA kernel(CUDA算子)、optimization(优化)这些方向的基础设施工程师。
为什么要加入我们?因为我觉得我们这个团队属于是neolab里的顶尖梯队,能找到有这么多数据经验、预训练经验、前沿模型经验的地方可能只有三四个,大部分其他的neolab都没有这么丰富的积累。我们的方向也是一个比较新的方向,我们认为会带来下一代的推理,一种更接近人类推理方式的reasoning(推理)。我们希望大家来跟我们一起成长,成为下一个Anthropic或下一个OpenAI。
陈茜:好的,谢谢Andrew。
Andrew Dai:谢谢。
09 Office tour :AI科学家需要绿植和白天蒸桑拿?
陈茜:你们也是刚搬进来,对吧?
Andrew Dai:对,刚搬进来,我们还在用钥匙开门。
陈茜:现在是周五下午,员工都差不多离开了。你们现在有多少人?
Andrew Dai:差不多15个人。
陈茜:你们现在的比例是怎样的?多少人在做研究,多少人在做基础设施?
Andrew Dai:可能是12个人在做研究,1个人在做基础设施,2个人在做运营,我们是非常重研究的团队。
我们之所以选择这个办公室,就是因为这个院子。就像大学里的Quad(四方院)。我们午饭、happy hour都来这里,有客人也在这里接待。
陈茜:你们还需要多一点绿植。
Andrew Dai:对,还有一个喷泉,可以让人放松。
陈茜:这个院子你打算再加什么东西吗?
Andrew Dai:我们有一个研究员想加一个桑拿,累了就去泡。可能在桑拿的时候能想到一些东西。就像我洗澡的时候会thinking(思考)。
陈茜:所以你会用视觉模型去玩桌游吗?
Andrew Dai:我试过了,但它们太差了,连象棋都不太会玩。可能等我们的模型做完之后,就可以用它打桌游了。
陈茜:你最爱的办公室是哪一间?
Andrew Dai:就是角落那间。
陈茜:这间吗?光线很好,还有一个站立式办公桌。所以你经常会在这边看着外面,想一想?
Andrew Dai:对,或者坐在这里打电话。
陈茜:你现在大概一天的时间分配是怎样的?有多少时间在做运营工作,多少时间在做research(研究) 跟thinking(思考)?
Andrew Dai:我白天大部分时间都在做运营,比如面试、搭建IT架构、搭建AWS。Research(研究)基本上是周末和晚上,在家里很安静,可以思考新的方法。
陈茜:经常在洗澡的时候有新想法。
Andrew Dai:是的,很多idea都是洗澡时冒出来的。
陈茜:我也是。然后idea来了之后,马上用Claude Code就可以实现了。
Andrew Dai:对,现在因为编程模型很好,我们可以很快套进去看看,这个idea好不好,快很多。
陈茜:这个idea是来自研究员还是你自己?你们公司的idea是怎么产生的?
Andrew Dai:都有。比如一些新的vision encoder(视觉编码器)的想法是我提出的,一些SFT(监督微调)和数据的想法是团队里的人提出的,现在正在跑。但我们总体觉得,自动化研究工具产生的想法太平庸了,没有创造力,做研究一定需要创造力。
以前ideas很便宜,因为编程很难、执行很难。但有了Claude Code、GPT Codex之后,执行容易了很多,ideas的价值就上涨了。
陈茜:所以这些有创造力的研究员,现在是大家争抢的宝贵资产。
Andrew Dai:对,creative researchers(有创造力的研究员)非常重要。
陈茜:最近neolab出来了很多人和创业公司,你觉得这个趋势还会持续吗?
Andrew Dai:我觉得还会,因为现在机会很多,开源模型很多,融资也变得容易了一些,很多公司都在IPO。所以这段时间我觉得还会有更多。但这也是一个窗口,过了一段时间,我们这一代neolab都成长壮大了,再新起来的就会更难了。
陈茜:你觉得这个窗口的截止日期是什么时候?
Andrew Dai:很难说,可能是这两年吧。然后等一段时间,又会有下一代实验室。
陈茜:下一代实验室会是什么样子的?
Andrew Dai:我不知道。可能是AGI之后的实验室,那我就不知道了,可能都是AI在跑,但现在它们的创造力离人类的创造力还太远了,所以还不适合。
陈茜:好的,谢谢Andrew。
Andrew Dai:谢谢。
以上就是我们与Andrew Dai的全部访谈和办公室探访了。Neolab是如今在硅谷非常重要的一个支线,也是今年在硅谷101着重关注的方向。接下来我们还会有更多Neo Labs创始人的深度访谈。
如今VC的大量资金涌入这样的新型AI实验室,是因为这些大基金们在OpenAI等前沿模型上的赌注已经太重了,他们需要一些对冲:万一大语言模型无法走到最后呢?那么接下来AI怎么发展,可能就是要看这些neolab的研究的成果。
就像AI灵魂领袖Ilya Sutskever说的那样:我们正在重新回到“研究时代”。
本文来自微信公众号“硅谷101”,作者:硅谷101,36氪经授权发布。















