65岁LeCun被卷回巴黎老家,与小扎一刀两断,曝光神秘AI初创
小扎口头说支持,却不愿真金白银投资!
在Meta工作了12年后,图灵奖得主Yann LeCun将在年底离职。
上个月,65岁的LeCun宣布今年年底将离开Meta,开始创业。
在离职信中,他表示,正是由于同事持续的关注与支持,Meta将成为这家新公司的合作伙伴,但没有更多的细节。
在昨日的巴黎AI-Pulse活动上,LeCun表示Meta不是投资者。
LeCun神秘初创公司不做ChatGPT,要教AI理解物理世界,专注于LeCun所描述的高级机器智能,一种基于视觉等感官信息训练的AI,用于预测物理世界。
LLM是AI黑洞
全球最大的科技巨头们一掷千金,将数十亿美元砸向AI领域,尤其是那些驱动了ChatGPT、谷歌Gemini和Meta Llama的「大语言模型」(LLM)。
这些AI巨头相信,Scaling Law足以支持LLM通向AGI。
但几个月来,Yann LeCun逆势而为,掷地有声:大语言模型(LLM)已触及天花板。在文本生成上,它们表现出色,但不懂物理世界,缺乏记忆,而且在多步推理上举步维艰。
博士生不要做LLM。
LLM几乎过时了。
LLM只是token生成器,属于System 1,没有真正推理。
自回归LLM不具备的、达到人类(甚至是狗类)智能水平所需的四项能力。 ……
总之,他对LLM似乎毫无兴趣了,弃之如敝履。
直到最近,Yann LeCun仍坚信,LLM是AI研究界的「毒瘤」。
上月在布鲁克林,Yann LeCun直言不讳:「确实,LLM很棒,也很有用。很多人都会用到它,我们理应投资」。
但问题在于:「眼下,LLM就像个黑洞,把所有的资源和关注都吸干了,导致其他领域几乎寸草不生。为了下一场革命,我们必须退一步,冷静思考当前的路径到底缺失了什么。」
这番言论显得格外耐人寻味。
几个月来,Meta豪掷数十亿美元,重金招揽全明星阵容的LLM专家。
据OpenAI的首席研究官透露,Meta已经超越纯砸钱行为。为了挖走人才,小扎亲自端汤送给OpenAI员工:利益和情感,双管齐下,堪称硅谷版「三顾茅庐」。
本质上,这是对Yann LeCun技术路线的一种否定。
作为Meta的首席AI科学家,Yann LeCun却公开和小扎「唱反调」。
如此剑拔弩张,两人理念冲突可见一斑。这也难怪,LeCun在加入12年后离开Meta。
LeCun:我做世界模型快10年了
多年来,Yann LeCun一直是 LLM 的坚定批评者。
他始终认为,仅仅依靠从互联网上「鲸吞」文本,无法产生真正的机器智能。
他认为,自主的机器智能,需要另辟蹊径:世界模型(World Models)。
在法国AI研究的重点平台ai-Pulse的全体大会上,Yann LeCun将与世界模型领域的先锋公司General Intuition的创始人Pim de Witte共同阐述这一愿景,解析世界模型如何成为明日AI的基石,以及下一个重大的技术突破。
Meta首席AI科学家Yann LeCun、General Intuition首席执行官Pim de Witte、Kyutai首席建模官Neil Zeghidour,以及iliad Group创始人Xavier Niel同台论道
其实,「世界模型」非常古老。
早在1943年,「人工智能」一词出现的十二年前,29岁的苏格兰心理学家Kenneth Craik在专著中就深思道:
如果生物体能在其头脑中携带外部现实的「小规模模型」……
它就能尝试多种可能性,推断出其中最佳的方案……
并以一种更全面、更安全、更得体的方式做出反应。
他关于心理模型或模拟的概念,预见了在20世纪50年代改变心理学、并至今仍主导认知科学的「认知革命」。
更重要的是,它直接将认知与计算联系起来:Craik认为,「并行或模拟外部事件的能力」是「神经系统」和「计算机器」两者共同的根本特征。
大概10年前,LeCun就开始不断「安利」大家:这才是推动AI进步的道路。
其实,在这件事他思考更久。但直到NeurIPS 2016大会上,他做了个主题报告,那次算是第一次系统公开讲:「这就是我们接下来需要攻克的方向」。
然后,又过了大概5年,他才逐渐意识到:不能只靠生成式模型来做这件事,于是开始发展一种新的、非生成式(non-generative)方法,称之为JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)。
后来,大语言模型(LLMs)来了,它们是生成式的。
当时, LeCun反应是:「好,这很有趣,用它来做语言非常好用,我们当然应该去研究,能有大量应用。」
但他坚信,这并不是通向人类级智能(或者你愿意怎么叫它都行)的那条路。
也就是说,早在LLM爆发之前,他就得出结论:「仅靠把语言模型Scaling,并不能带来真正的智能。」
机器人不如狗智能
作为人类,我们倾向于觉得语言对智能是必不可少的,但并非如此。
而事实正好有点反直觉:理解物理世界,比理解语言难得多。
这听上去可能有点让人惊讶,但它确实是这样。
在机器人学里,人们很早就意识到这一点。
上世纪80年代后期,著名的机器人学家Hans Moravec就指出:
要让电脑如成人般地下棋,相对容易;
但是要让电脑有如一岁小孩般的感知和行动能力,却相当困难甚至不可能。
这后来被称为「莫拉维克悖论」(Moravec's paradox)。
LeCun举了最新的例子:目前最好的AI可以通过律师资格考试,编写代码。但我们仍然没有一个机器人工人,能像五岁孩子一样行动。
显而易见,当前的AI缺少一些真正重要的东西。
他认为,当我们思考现实中的场景时,其实是依靠「心理模型」(mental models),也就是我们在脑中操纵的场景表征,我们有物理直觉。而这些东西,绝大部分是我们后天学来的。人类还是婴儿、只有几个月大的时候,主要就是通过观察世界来学习,也伴随着一些交互。
过去10年里,LeCun一直尝试去复制人类这种学习方式:
前5年,基本都在踩坑;
后5年,开始取得比较实质的进展,而依靠的是 非生成式架构 。
这些系统能学习现实世界的结构,预判演变,并模拟可能的场景。
如果说LLM只是在「预测」,那么世界模型则是在「理解」;
如果说LLM只是在「反应」,那么世界模型则是在「规划」。
它们构建连贯内部表征的能力,打开了AI在复杂环境中进行推理、行动和交互大门。
世界模型怎么做?
一开始,很多人都认为,语言模型之后下一步,自然而然就是先加音频,再加视频。
但有趣的是,LeCun并不是纯做「视频模型」,还在用电子游戏数据集来做世界模型。
LeCun解释了:为什么光有视频还不够,我们还需要其它什么东西?
首先,他承认视频对理解世界非常重要。基本上,视频是我们能获得的最接近现实的表征之一。
但他更喜欢把视频比作梦境:很多时候,在梦里你其实没法真正「和看到的东西互动」,你就像一个旁观者,而不是参与者。
但从根本上来说,人类的学习是高度交互式(interactive)的。
世界模型,不仅仅预测下一帧视频,还要预测「在不同动作下所有可能结果的分布」。
这就意味着:在视频表征之外,你还需要大量的动作(action)和交互数据,来真正构建这些世界模型。
LeCun喜欢一个更直观的比喻:
LLM有点像雪球:从山坡上滚下来,一路滚一路粘上更多的雪。
它们是自回归的(auto-regressive):把自己的输出再喂回模型,再预测下一个token。
它们没有「感知」,它们整个世界就是自己,所以会一直滚、一直滚,到山底都不知道自己快要撞到什么东西了。
而真正的智能,更像《冰雪奇缘》电影里的雪人Olaf:他知道前面有块石头,要散开自己,绕过去。
文本的局限在于:
人类感知到的世界极其丰富,而文本只是一个非常小、且高度压缩的子集。它是建立在人类三维感知之上的一种「描述世界的发明」。
但对于世界模型和智能体,你必须能够与环境交互,才能建立对自己所处环境的通用直觉(general intuition)。
我们之所以会以为「人类知识大多体现在文本里」,是因为很多我们认为的知识,确实被写成了文字。
但事实并不是说所有人类知识都能通过文本很好地表达
真正大部分的人类知识,其实是关于物理世界和各种情境的心理模型和直觉,这些都是不直接以文本形式存在的。
人类的思考是在脑子里发生的,不是以token的形式运转,更多是以心理意象(mental imagery)和各种其它表征出现的。
LeCun希望构建的系统,也能做到这一点。
再见,LeCun!Meta不投钱
在离职信中,LeCun表示尽管与Meta分道扬镳,小扎等Meta高管支持其创业项目。
在巴黎的AI-Pulse活动上,LeCun表示Meta不是投资者。
「但在过去几个月发生的事情,让我们双方都意识到,这个项目的应用范围有点超出Meta的兴趣范围,」他说。
LeCun说:「硅谷完全被生成模型迷住了」。他暗示必须在硅谷之外,比如在巴黎非主流AI创业。
此前,媒体报道Yann LeCun计划离职后,Meta的股价下跌了2%。据此估计,Yann LeCun对Meta大概值300亿美元,是他新上司28岁的Alexandr Wang的两倍。
但这次,扎克伯格选择了「群体思维」,而非「AI教父」。
毫无疑问,人类对「智能的本质」的探索,仍在继续。
当然,少有人可以断言Yann LeCun是否正确。也许,LLM拥护者是对的。
但事实是,这门科学尚无定论,而围绕新技术的「共识」形成得如此之快,这本身就值得我们停下来深思。
如果连AI领域最聪明的大脑都无法对「什么是智能」达成一致,那么要预测这场大戏将如何收场,恐怕更是难上加难。
参考资料:
https://x.com/gen_intuition/status/1996638738777002210?s=20
本文来自微信公众号“新智元”,作者:新智元,编辑:KingHZ,36氪经授权发布。















