李飞飞曝创业招人标准,总结AI大牛学生经验,告诫博士们不要做堆算力项目

AI前线·2025年07月03日 17:30
李飞飞创立World Labs攻坚空间智能,称其为AGI关键拼图。

近日,“AI 教母”李飞飞以创业者身份接受 YC 采访,深度剖析 AI 发展瓶颈,并表示其初创公司 World Labs 将全力攻克被其称为“AGI 缺失拼图”的空间智能。李飞飞指出,当前以语言大模型为代表的 AI 繁荣存在根本性局限,教会 AI 理解、生成并驾驭物理世界的复杂性远超文本处理。“如果它很容易,那早就有人解决了。”

李飞飞还指出,与创业不同,读研最好带着强烈的好奇心,这样才能全身投入、不内耗。她给博士们的建议是去做产业即使投入再多资源也解决不了的基础问题。

ImageNet 的意义不止数据 

主持人:你最早创建的项目之一是 2009 年的 ImageNet(一个大规模图像数据库),到现在已经过去 16 年了,有超过 8 万次引用。它真的很棒,人工智能的一个关键问题就是数据。这个项目是如何诞生的?当时它可是开创性的工作啊。

李飞飞:首先非常感谢大家的邀请,我现在也是一名创业者,刚创立了一家小公司,所以能来到这里我非常兴奋。

你说得对,我们大约在 18 年前就开始构想 ImageNet 这个项目。时间过得真快!那时我还是普林斯顿大学一年级的助理教授。那时的人工智能和机器学习领域与现在完全不同,数据非常稀缺,在计算机视觉领域,算法几乎是行不通的。那时也没有相关产业发展,公众根本不知道“人工智能”这个概念。

但我们当时的那群人,从 AI 的奠基人 John McCarthy,到后来像 Geoffrey Hinton 这样的研究者,都怀着一个共同的 AI 梦想:我们真的想让机器学会思考和工作。而对我个人而言,我的梦想是让机器能够“看见”,因为视觉是智能的重要基石。视觉智能不仅仅是感知,它更在于理解世界并在世界中采取行动。

主持人:后来很久才出现了一些有前景的算法。直到 2012 年,AlexNet 出现了。那才是实现 AI 的第二个关键因素:投入足够的计算资源。当你看到你播下的数据种子开始发挥作用,开始取得更多科研突破时,那一刻是什么感觉?

李飞飞:没错,2009 年我们在 CVPR 会议上发表了一篇很简短的论文。2009 年至 2012 年这三年里,我们坚信数据将驱动人工智能的发展,但当时几乎看不到任何实质性的信号来证明这条路是可行的。因此,我们做了几件事:

第一,开源整个数据集。我们从一开始就认为必须把资源开放给整个研究界,让所有人都能参与进来。

第二,我们发起了一个竞赛,希望全世界最聪明的学生和研究人员来解决这个问题。这就是所谓的 ImageNet 挑战赛。每年我们都会公布一个测试数据集(测试集就是已公开的全部 ImageNet 数据),并公开邀请大家参与。

最初几年,比赛的主要目的是设定基准线,当时最低的错误率大约在 30%,虽然结果还算稳定,但远谈不上令人满意。但到了第三年,也就是 2012 年,我也在后来的书里写到,我仍然记得那年夏末,我们把所有 ImageNet 挑战赛的结果在服务器上跑了一遍。一天深夜,我在家里收到了研究生的消息,说他们得到了一个非常突出的结果,让我去看一看。

我们查看后发现,他们用的是卷积神经网络,只是当时还没有叫作“AlexNet”。Jeff Hinton 所在的团队将这个系统命名为“SuperVision”。“SuperVision”这个名字非常巧妙,既包含“super”(超级)的意思,又暗示了“supervised”(有监督)。我们研究了 SuperVision 的做法,发现他们使用的是一种很早就提出的算法——卷积神经网络,这种方法最早是在上世纪 80 年代就被提出的。

只是在算法上做了一些小改动,就看到结果发生了如此跨越性的变化,我们都非常惊讶。当然,后来的事情你们都知道了,我们在同年意大利佛罗伦萨举行的 ICCV 大会上展示了这个成果。Alex Krizhevsky(乌克兰裔加拿大计算机科学家,因其在人工神经网络和深度学习方面的工作而知名)和其他许多人都到场了,我记得杨立昆也在现场。

现在全世界都把这一时刻称作 ImageNet 挑战赛上的“AlexNet 时刻”。我想说,这次突破不仅仅是卷积神经网络的功劳,更因为这是 Alex 和他的团队第一次把两块 GPU 并联用于深度学习计算。这是数据、GPU 和神经网络三者首次联合发挥作用的时刻。

“没有空间智能, AGI 就不完整” 

主持人:在计算机视觉智能发展的道路上,ImageNet 的确解决了物体识别的问题。紧接着,AI 也来到了能够识别并描述场景的阶段,毕竟你的学生 Andrej Kaparthy 等人在生成图像描述方面做了大量工作。从解决单个物体识别到理解并描述整个场景,这样的转变是如何实现的?

李飞飞: 是的,ImageNet 解决的问题就是:给定一张图片,你要说出其中的物体,比如猫、椅子等。这是视觉识别中的一个基本问题。

自从我作为研究生进入人工智能领域时,我就有一个我认为是“百年难圆”的梦想:为世界“讲故事”。想象一下,当你睁开眼睛,看到的不只是一个人或一把椅子,而是一个完整的场景——就像这里的演播室,你能看到屏幕、舞台、观众、摄像机等,你甚至可以描述整个场景。这种能力是人类与生俱来的,它是视觉智能的基础,对我们的日常生活至关重要。

我真的认为这个问题会耗尽我一生的精力。毕业那年,我甚至设想自己会在临终之际对自己说:如果我能创造一个能够讲述场景故事的算法,那么我就成功了。我曾以为,这将成为我职业生涯的最终目标。

AlexNet 时刻来了,深度学习开始飞速发展。随后,Andrej 加入我的实验室,后来 Justin Johnson 也加入了进来,我们开始看到自然语言和视觉逐渐融合的信号。接着,我和 Andrej 提出了图像描述的问题。长话短说,到 2015 年左右,我和 Andrej 以及其他几位研究者发表了一系列论文,这是最早能够让计算机为图像生成文字说明的成果之一。我就在想:我一生的目标就这么实现了吗?对我们来说,这是一个难以置信的时刻。

去年我在 TED 演讲中提到了 Andrej 几年前发的一条推文,那时他刚完成图像描述相关的博士论文。我还开玩笑对他说:“嘿,Andrej ,我们为什么不做相反的事情呢?给一句话生成一幅图像。”他当然知道我在开玩笑,于是回答道:“算了吧,这个世界还没准备好。”但是快进到今天,我们都知道生成式 AI 了——我们输入一句话就能生成精美的图像。这个故事的寓意是,AI 的发展速度令人难以置信。

就我个人而言,我觉得自己是世界上最幸运的人,因为我的整个职业生涯始于 AI 寒冬结束之初、开始快速发展之时,我的很多工作,甚至整个职业生涯都参与或推动了这一变革。所以我感到非常幸运,也因此倍感自豪。

主持人:我觉得更疯狂的是:不仅实现了你描述场景、用扩散模型生成图像的终身梦想,你的视野还更宏大——计算的发展历程已从“对象”走向“场景”,如今更上升到“世界”这一概念。你也正因此决定从学术界的教授,转向创办并担任 World Labs 的创始人兼 CEO。为什么“世界”这一层面,比“对象”甚至“场景”都要难得多?

李飞飞:确实相当疯狂。很难用一句话概括过去的五、六年。我觉得我们正处在这项技术进步的文明时刻。作为一名计算机视觉科学家,我亲眼见证了这项技术从“图像识别”到“图像描述”,再到采用扩散技术的“图像生成”的飞速发展。

同时,另一条激动人心的主线是语言模型——特别是大模型(LLMs)。真正的转折点是 2022 年 11 月,ChatGPT 的问世为生成式模型打开了大门,其表现几乎能通过图灵测试。这一切对我——一个已经在行业里摸爬滚打多年的研究者,极具启发,让我敢于大胆思考下一步该做什么。

作为计算机视觉科学家,我的灵感很多时候来自于进化和脑科学。我常常在职业生涯的某个阶段,寻找下一个“北极星”问题(此处指研究人员专注于解决一个科学学科中的关键问题):进化做了什么?大脑发育做了什么?

我们都知道,人类语言的进化用了不到五十万年,往久了说也不足百万年。而具备复杂语言能力的动物,基本上只有人类。这种用于交流、推理和抽象的工具,几乎完全是人类独有的。但在视觉上,包括理解三维世界、在三维世界中导航、与三维世界互动、在三维世界沟通——这一切进化大约用了 5.4 亿年。第一只三叶虫在水下形成视觉后,便拉开了进化竞赛的序幕。在此之前的五亿年,动物都相对简单;而在拥有视觉之后的五亿多年里,动物智能才互相角逐、持续提升。

所以,对我而言,解决“空间智能”——理解三维世界、生成三维世界、在三维世界中推理和行动——是 AI 的根本问题。若没有空间智能,通用人工智能(AGI)就不完整。而我想要解决的,就是那种超越平面像素、超越纯语言的“世界模型”,真正捕捉三维结构和空间智能。

我一生中最幸运的事,就是无论我多大年纪,总能与最优秀的年轻人共事。我与三位世界级的年轻技术专家——Justin Johnson、Ben Mildenhall 和 Christopher Lester——一起创办了这家公司,我们将共同攻克我认为当下 AI 中最艰巨的问题。

World Labs 攻克难点 

主持人:这是一支令人惊叹的团队。Chris 曾是 Pulsar 的创建者,那是首个可区分渲染(differentiable rendering)框架;Justin 是你之前的学生,拥有超强的系统工程思维,实现了实时神经风格迁移;Ben 又是 NeRF 论文的作者。你需要这样的“梦之队”,因为就像刚才聊到的,视觉比语言要难得多。语言基本是一维的,但你要处理的是复杂的三维结构。

李飞飞:非常感谢 Diana,你能够体会到我们的困难。是的,语言本质上是一维的:句子按顺序排列,这也是序列到序列模型如此经典的原因。还有一点,语言具有纯粹的生成性。自然界中没有“可触摸”的语言,它直观地从人们的头脑中“生成”出来——当然,你可以把它写在纸上,但本质是纯生成信号。而现实世界比语言复杂得多。首先,真实世界是三维的;如果再加上时间的话就更复杂了。仅考虑空间的话,它本质上是三维的,这使得问题的组合爆炸程度远超一维的序列。

其次,感知视觉世界是一个投影过程——不论是视网膜还是相机,都是将三维压缩到二维。这是一个数学上的“病态”问题(ill‑posed),因此人和动物才需要多模态传感系统来解决它。

第三,现实世界并非仅供“生成”——即便是虚拟三维世界,也必须遵守物理规律;而现实世界还存在各种真实的交互和限制。

你现在可以在“生成”(generation)和“重建”(reconstruction)之间非常灵活地切换。用户行为、使用价值和应用场景各不相同。如果你完全偏向“生成”,我们可以讨论游戏、元宇宙等;如果你完全偏向“现实世界”,我们谈论的就是机器人学。但这一切都属于“世界模型”,即空间智能连续谱上的不同点。

当然,不能回避的问题是:互联网有大量语言方面的数据可供训练,那么空间智能的数据从何而来?数据就在我们脑海中,只不过不像语言那样易于获取。这就是为什么这个问题如此艰难。

但坦率地说,正因如此它才令我兴奋:如果它很容易,那早就有人解决了。我的整个职业生涯都是在攻克那些几近“疯狂”的难题。我认为这个就是一个近乎“疯狂”的问题,也很感谢大家支持我走这条路。

主持人:即便从第一性原理角度考虑,人脑的视觉皮层中,用于处理视觉信息的神经元数量远超语言处理的。那么,这在模型架构上如何体现?你们研发的架构与 LLMs 有什么显著差别?

李飞飞:这是个非常好的问题。其实学术界对此有不同的流派。一种思路是:把 LLM 的写作 Scaling Law “硬堆”到底,用纯自监督(self‑supervision)来构建世界模型。但世界具有结构性,我们或许需要某些信号来引导模型,可以把它看作“先验”(prior),也可以看作“数据中的监督”(supervision),不管叫什么。这些都是我们必须解决的开放性问题。

但你说得没错。如果你再想想人类,我们甚至还没完全弄清人类如何感知三维:两只眼睛的三角测量只是初步,之后的数学模型在哪里?而且人作为三维动物,其实也并非多么擅长三维推理,还有很多未知的东西。因此,我们的确处于“世界实验室”初创阶段。我只能希望于世界里最聪明的人帮我们一起搞定这个难题。

主持人:能否说 World Labs 正在构建一整套新的基础模型,其输出是三维“世界”?你设想的应用场景有哪些?因为你提到了从感知到生成,始终存在“生成模型”和“判别模型”的矛盾。那么,这些三维“世界”模型能做些什么?

李飞飞:关于 World Labs 的具体细节我暂时不能多说,但就空间智能而言,其应用场景和语言模型同样广阔:从创作,例如设计师、建筑师、工业设计师、3D 艺术家、游戏开发者,到机器人学习(robotic learning),世界模型的实用价值巨大,此外还有众多上下游产业,包括营销、娱乐、元宇宙。我对元宇宙特别感兴趣。我知道很多人觉得它还没真正“运行”起来,但正因如此,我更期待硬件和软件融合的最终到来,这将为元宇宙内容创作带来巨大动力,而内容创作需要世界模型。

主持人:我个人也很兴奋你们在攻克元宇宙。我之前在前一家公司也尝试过,所以听到你们在做这件事,真是太好了。

李飞飞:我认为,硬件确实是一个瓶颈,但内容创作同样关键,而内容创作离不开世界模型。

个人经历如何塑造了今天的你? 

主持人:我们稍微转个话题。对有些观众而言,你从学术界突然转为创始人兼 CEO 可能显得很突然。但你的人生其实一路精彩纷呈。这并非你第一次从零开始:你曾移民美国,青春期又不会说英语,还经营洗衣店多年。那些经历如何塑造了今天的你?

李飞飞:你们现在可能都想听我讲怎么开洗衣店吧。

主持人:那是你十九岁的时候吗?

李飞飞:是的,十九岁。那时出于无奈,我需要支持家人并赴普林斯顿读物理专业。所以我开了家干洗店,用硅谷的说法,就是我“创办并运营”了一个洗衣店,同时担任 CEO、出纳……七年后我把它卖了。

不过,Diana 提到的正是重点:台下的你们,年龄不过我的一半、甚至仅有三分之一,才华横溢,那就去做吧,别怕。

除此之外,整个职业生涯中,我也多次选择到没有计算机视觉教授的院系任职。很多人建议年轻教授要去有完整科研团队和导师的地方,但如果没有,就得自己开辟道路。我从不害怕这样。后来我去了 Google,学习业务和云端服务;又在斯坦福内部创办“以人为中心的 AI 研究院”(Human‑Centered AI Institute),当了五年“校园创业者”。有人或许不太理解,但我为此感到自豪——这让我意识到,我就是个创业者。

我喜爱“从零开始”的感觉:忘掉过去的成就,也别在意他人评价,潜下心来,脚踏实地去做,这是我的“舒适区”,我乐此不疲。

主持人:你另一件很酷的事是,你曾指导过众多传奇研究者:像 Andrea Karpathy、Jim Fan(现任英伟达)、ImageNet 的合著者邓嘉……他们都在 AI 领域大放异彩。作为他们的导师,你当时是如何看出他们会改变 AI 领域的?

李飞飞:我是幸运的那个人。他们不仅成就了自己,也让我成为更好的导师和研究者。和这些传奇学生共事,是我人生莫大的荣幸。他们各有千秋:有的专注于科学问题,有的成为业界领袖,也有的成为 AI 知识的杰出传播者。

但我认为他们有一个共同点,我也鼓励在座每一位以及那些正在招聘的创业者们思考这一点。我的标准之一就是思想上无所畏惧:我不在乎你来自何处,也不在乎具体要解决什么问题,但要勇于面对艰难课题,全身心投入并用自己认为合适的方式去解决,这是成功者的重要特质。我从我的学生和团队身上学到了这一点,也会在 World Labs 的招聘中重点考察这一品质。

主持人:所以 World Labs 也在大量招聘,对吗?你在寻找同样特质的人?

李飞飞:是的,我们大量招聘工程人才、产品人才、三维建模人才,以及生成式模型人才。如果你觉得自己无所畏惧、热衷于攻克空间智能,欢迎联系我们。

“我不知道 AGI 与 AI 的边界在哪” 

Q1:我是您的忠实粉丝。二十多年前您专注于视觉识别,现在我即将开始博士研究。我应该研究什么方向,才能像您一样成为传奇?

李飞飞: 我想给你一个我深思熟虑的回答。我当然可以说“做任何让你热血沸腾的事”,但 AI 研究环境已经改变:如果你要开始读博士,学术界已经不再拥有大部分 AI 资源。这与我当年的情况差别很大,现在算力、芯片和数据更多集中在产业界,学术界相对资源匮乏,而产业界能用更好的算力、更丰富的数据和团队合作更快地解决问题。因此,你作为博士生,我建议去寻找那些“北极星”问题,即那些产业界即便投入更多资源也难以触及的基础性问题。在学术界,你无需依赖巨量芯片,就能取得突破性进展。

对我而言,“跨学科 AI”在学术界,尤其在科学发现领域非常令人兴奋,有太多学科可以与 AI 交叉,这是一个宽广的方向。在理论层面,非常有趣的是:AI 的能力已经完全超越了现有理论。我们不知道模型内部到底是如何运作的,缺乏可解释性,也不清楚因果关系。模型中尚有许多未知,有待深入探索。还比如在计算机视觉领域,表示学习仍有诸多未解的难题;“小样本学习”也是一个极具挑战性的研究方向。这些都存在巨大的可能性。

Q2:恭喜您获得耶鲁大学的荣誉博士学位,一个月前我很荣幸见证了这一时刻。您认为 AGI 更有可能以“统一模型”形式出现,还是以“多智能体系统”形式出现?

李飞飞:您提问时已经包含了两种定义:一种更偏理论,认为 AGI 是通过某种智商测试来定义;另一种更偏实用,关注基于智能体架构能完成哪些任务。

说实话,我很难给 AGI 下一个明确的定义。1956 年,达特茅斯会议的创始人(如 John McCarthy、Marvin Minsky)就提出让“机器能思考”的目标,这实际上比“狭义 AI”更宽泛。

我不知道 AGI 与 AI 的边界在哪里。行业里常把 AGI 当作超越 AI 的概念,但对我而言,AI 的终极目标一直就是创造能够像人类甚至超越人类的智能机器。如果我们说今天的“AGI 式”系统比 80、90 年代的“狭义 AI”系统更强大,那也不过是领域发展的必然。但如果不先明确“AGI”定义,就很难回答它是单一系统还是多智能体系统。就像大脑一样,你可以把它看作整体,但其中又包含布罗卡区、视觉皮层、运动皮层等。因此,我无法准确回答这一问题。

Q3:看到女性在这一领域承担领导角色,真令人鼓舞。作为一名研究者、教育者和创业者,我想问:在 AI 快速崛起的今天,什么样的人应该选择读研?

李飞飞:这是个好问题,也有家长问过我。我认为,研究生阶段的那几年,最适合有着“强烈好奇心”的人。你的好奇心要足够强,以至于没有比读研更理想的地方来满足它。

与创业不同,创业不能仅凭好奇,投资人可不会买账,创业需要更明确的商业目标。而读研的核心正是好奇,把问题提对、想清楚,然后全身心投入。即使外界高速变化,你也会因为探索好奇的事情而快乐。

Q3:您提到 ImageNet 的开源对行业增长极其重要,而近期大模型厂商在开源策略上也分成几派:有的完全闭源,有的完全开源,还有的介于其中、只开源权重或采用限制性许可。您如何看待这些不同的开源方式?作为 AI 公司,应该如何选择合适的开源策略?

李飞飞:我认为,生态系统在多种策略同存时会更健康。我并不坚持一定要开源或闭源,这取决于公司的商业策略。

举例来说,Meta 之所以大规模开源,很明显是因为它目前的商业模式不是卖模型,而是通过开源吸引更多人进入其平台,繁荣生态。而另一些公司则依赖收费层或闭源层来创造营收。总的来说,我支持保护开源——无论是学术界还是私营部门,对开源的投入都至关重要,应当被鼓励和保护,而不应受到阻碍。

Q4:我对数据问题很感兴趣。您指出,机器学习正向数据驱动方法转变,ImageNet 的出现促进了这一点;但在三维世界建模上,网上没有现成的数据,只存在于我们大脑中。您打算如何解决这个问题?您是收集真实世界数据,还是生成合成数据?或者依赖先验?

李飞飞:你应该加入 World Labs,到时候我会详细告诉你。作为一家公司,我不能透露太多细节,但我们采取的是“混合方法”。大量数据很重要,但高质量数据也同样关键。毕竟,如果数据质量不高,还是“垃圾进,垃圾出”。

Q5:在您的著作《我所看见的世界》里,您谈到作为移民女孩和 STEM 女性所面临的挑战。我好奇,您是否曾在职场上因少数群体身份而感到压力?如果有,您是怎么应对或说服别人的?

李飞飞:我想这个问题得谨慎回答,因为我们每个人的背景不同,感受也各有不同。其实,重要的并不是你归属于哪种大类,而是在某些时刻,你都会觉得自己是唯一不同的人。我也有这样的经历,可能是因为我的身份、想法,或仅仅是穿的衣服颜色。但我想鼓励大家:从小移民到美国,我学会了接受一点,那就是:这就是我。

我想对大家说:无论你们即将或正在踏上什么样的旅程,都会有软弱和迷茫的时刻,尤其是在创业阶段。有时我也会想“天哪,我到底在做什么”,但只要专注行动,就会像梯度下降一样,一步步逼近最优解。

原文链接:https://www.youtube.com/watch?v=_PioN-CpOP0

本文来自微信公众号 “AI前线”(ID:ai-front),作者:褚杏娟,36氪经授权发布。

+1
5

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

别让今天的犹豫,成为明天的叹息。

10小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业