世界模型融资凶猛:它是AI的终局吗?

铅笔道·2026年02月10日 16:08
世界模型是人工智能的终局吗?

去年11月,斯坦福大学教授李飞飞提出一个概念:世界模型,在AI行业引发广泛讨论。

与此同时,李飞飞的公司——World Labs,估值飙升至50亿美元;同样关注大模型的科学家杨立昆,估值也超过30亿美元。

于是,一个关键的话题产生:世界模型是人工智能的终局吗?本文将对该话题展开探讨。参与本次探讨的嘉宾如下:

核心亮点提前看:

1、什么是“世界模型”?

答:让AI理解和预测现实世界的模型。版本很多,没有共识。

2、为什么世界模型如此火?

答:融资猛,估值高,对人类极其有用。

3、世界模型是AI的终局吗?

答:可能是。AI把执行干了,人类只需要去卷创意。

4、世界模型可以怎么赚钱?

答:做成产品,比如具身智能的大脑。

更多精华,请看圆桌现场实录。

世界模型到底是啥?

林觉民: 现在“世界模型”确实很火,大家看到杨立昆融到了几十亿美金,李飞飞也融到了50亿美金,这些公司的估值都在飞速上涨,国内也掀起了一波新的浪潮。

但有意思的是,到底什么是“世界模型”,好像大家各有各的说法。

王晟:首先,大家对世界模型的理解可能并不一致。

实际上,世界模型有两种典型的流派:一种是具身智能的世界模型,另一种是数字空间的世界模型。

我们理解的世界模型,并非完全模拟真实世界,而是针对特定的领域或“world”进行建模。比如医疗领域、金融领域、法律领域,每个领域都可以看作一个独立的world。

以医疗为例,假设我们构建了一个“医疗世界模型”,它可以模拟你得病后的整个过程。人们若得了甲流,通过这个模型,我们可以看到患者不干预时的身体反应、症状变化、以及生化指标的变化。

如果患者进行了治疗,模型会显示你用药后的效果,直到康复或是病情加重。我们通过这种模型来探索真实的“ground truth(基础真理)”。

比如我们投资的清华紫荆智康团队,他们的医疗AI在30多个、接近40个疾病诊疗领域,诊断水平已经超过了全球97%的医生。

他们的成功,正是因为通过医疗世界模型,模拟出疾病发展的全过程。通过这种world model(世界模型),我们可以让AI更快地学习,甚至让它在短时间内积累经验,成为世界顶尖的医生。

武伟:我们认为,要搞清楚世界模型的本质,首先需要理解它的两个核心关键词:模拟和交互。

“模拟”是指通过仿真技术构建一个虚拟世界,来训练AI进行推理和决策。而“交互”则是指通过与环境和人类进行交互,让AI能够更好地适应并反馈现实世界的变化。

从学术和产业发展的角度来看,世界模型的概念大概是从2018年开始被提出的,至今已经发展了七八年。期间,世界模型主要有三种不同的流派:

第一个流派是将世界模型用于仿真器,通过云端合成大量仿真数据,供智能体训练使用。英伟达的Omniverse和Cosmos系统就是走这一路线。

第二个流派是将世界模型作为通用交互界面,Google的Gemini3、李飞飞团队的Marble等项目都属于这一类,主要是用于娱乐和数字体验的应用。

第三个流派也是我们关注的重点,是将世界模型的推理能力直接赋能大脑,让AI具备内生的空间推理和想象能力。通过这种方式,AI可以在没有见过某些数据的情况下,通过推理和模拟,指导机器人进行更高效的决策和交互。

这种方法与传统的模仿学习不同,因为模仿学习依赖于离线数据的积累,而我们则更关注AI如何通过内生的模拟能力,来预测和适应新环境。

武伟:在我们的理解中,世界模型是“基础模型”(foundation model),是机器人原生所需要的基础模型。我们需要建模的是:物理空间的移动和操作层面的内生认知,这是我们的技术路线。

从我们的定义来看,世界模型其实是一个端到端的模型,或者可以理解为两端式端到端的大模型。

相比之下,千诀科技主要是做内脑架构,也就是人的大脑有多个分区,每个分区对应不同的小模型,或者用现在agent领域比较流行的词汇——skills(技能)。这些小模型和顶层模型结合起来,可以实现更低功耗的大脑模拟。

这是我对两者的理解,当然,团队的基因也起到决定性作用。我们基因决定了我们专注于模型的端到端构建,以及数据的扩展(scaling)。

宋亚宸:李飞飞最近刚融了一轮,估值已经达到了50亿美金。我悄悄看了他们的BP,里面提到李飞飞所定义的世界模型有三个主要应用场景:

第一个是娱乐行业的3D生成(3D generation in entertainment);

第二个是XR(扩展现实)和元宇宙中的空间智能(spatial intelligence);

第三个是机器人技术(robotics)。

其实最早做的是前两个场景。

我想说的重点是,我认为世界模型可能确实是AI时代的终极答案,包含了两件事:

第一,世界模型能助力发展具身能力,让各种各样的具身场景变得更加普及,能让更多的机器人替代人类的工作。

第二,劳动力如果被解放了,那人类应该做些什么呢?

从农业时代到工业时代,再到信息化时代,我们发现有两个特点:

1、人类的幸福指数越来越高,生命的周期越来越长,婴儿的存活率越来越高,超市里能买到的商品选择越来越多;

2、大家的工作时间却越来越长,变得越来越“卷”。

从最早的农业时代,人们的工作时长很短,但随着时代发展,我们进入了一个更加“卷”的社会,特别是信息时代,996(早九晚九)已经成为常态,大家为了大厂的“福报”而拼命工作。

但AI的出现改变了这一切,理论上讲,AI时代是更“卷”的,但实际上似乎没有什么需要再去“卷”的东西了,因为机器人可以代替人类做所有的事情。那么,生产力和劳动力将去向何方?

我自己有个理论,认为人类最终要卷的,是自己的创意本身。

当AI可以零门槛、零成本、实时地帮助人类放大创意时,每个人都能创造世界级的、可交互的体验,就像神创造了这个世界一样,定下了物理规则,又造了万物。

如果这一天到来,人人都能创造出属于自己的虚拟世界,甚至可以有更好的体验。

比如,重力不再局限于9.8,你可以飞,可以长翅膀,也可以创造不同的社会规则、评价体系,甚至是物理规则。人类将有更多的选择,把时间投入到自己真正喜欢的事情上。

这将是一个人人为我,我为人人的时代,每个人都可以用AI放大自己的创意,吸引更多人加入到自己的世界中来。

如果这种世界真能到来,那么我们就是在为别人创造极乐世界的时代,像圣人一样去为他人提供最好的体验。

AI在其中的角色,就是让每个人像神一样去创造完整的、世界级的、可交互的体验。这就是我认为世界大模型对于AI终局如此重要的原因。

未来每个人都能像“马良”一样,手握神笔,心想事成。

蒋屹舟:世界模型最早的研究,主要是为了理解和预测我们周围的物理世界。

就像牛顿通过观察苹果掉下来的现象,推导出了万有引力的规律。没有世界模型,我们的推理能力有限,只能根据已经观察到的现象做判断。

随着研究深入,李飞飞提出,世界模型不仅仅是理解世界,更重要的是预测世界。我们在十年前开始做“视频预测”,用它来预测机器人的运动轨迹,这一思路对机器人非常有用。

机器人在现实中需要能够预测未来的情况,而不是只根据过去的数据做决策。

比如,叠衣服这个看似简单的任务,不同形状的衣服需要不同的操作。通过世界模型,机器人能更好地理解衣服的特性,从而做出更精准的动作。

类脑智能是我目前关注的方向,它强调多个小模型的协作,而不是一个大模型解决所有问题。在机器人领域,世界模型帮助机器人预测未来的情景,这样它们在执行任务时可以更加高效。

比如,机器人在打扫卫生时,会根据预测的结果调整任务步骤,提高执行效率。

一个有趣的实验是给塑料袋打结。我们最初的训练方法并不够灵活,后来我们创造了一个“塑料袋世界模型”,让机器人理解不同塑料袋的物理特性,能够智能化地处理各种情况。

这种方法让模型能适应更多的场景,而不仅限于特定的任务。

简单来说,世界模型帮助机器人更好地理解和预测未知世界,从而提高工作效率。

世界模型怎么落地?谁能跑出来?

林觉民:世界模型的发展方向如此多样,大家最终竞争的是什么?每个人的技术路线不同,最后如何比较?

王晟:从投资人的角度来看。为什么大家都在关注世界模型?

对我们投资人来说,“世界模型”现在是共识标签——就像前两年的“具身智能”,一听就觉得很想投。

但实际上,这只是一个共识的标签。

大家对世界模型的定义并不相同,就像我们今天在座的几位嘉宾,每个人的理解都不完全一致。

作为投资人,我们愿意接受所有看似合理的世界模型定义,关键在于它是否能够落实到具体的技术实施,是否能够持续增长,且有较高的市场潜力。

从我个人的视角来看,未来的世界模型需要具备两个核心要素:

首先是拥有一套接近“真实世界”(ground truth)的验证系统,这个系统必须能够生成大量高质量的数据。数据不仅仅是要多,还要足够真实和高质量,以便为模型训练提供有价值的反馈。

其次,数据分布要平衡,既要有稠密数据,也要涵盖稀疏数据的情况,这样才能避免模型过拟合,也能确保训练出更具泛化能力的模型。通过世界模型生成大量高质量数据,是训练模型的基础。

武伟:如果从商业本质角度来看,世界模型的竞争还是要回到一个核心问题:一个公司能否在竞争中存活。

作为商业公司,我们必须明白,只有两种方式能够确保生存。要么有健康现金流,要么有高增长、高天花板的路径。

从世界模型的发展阶段来看,目前更接近第二种模式——快速增长的阶段。做世界模型的公司,是否能找到适合自己的落地方向,并且能够快速增长,是决定能否存活的关键。

以我们为例,我们的第一个产品化方向就是具身大脑。我们通过思维实验来推算,人类一生收集的数据量大约是300万段每分钟的视频片段(clips),这相当于18岁之前积累的经验。

如果我们假设一个工种需要一年时间来熟练掌握,那么大约是3亿段clips的数据量。我们通过这些数据的积累,来预估人类世界模型的最大智能化上限。

如果我们能够构建一个拥有十亿级数据量的世界模型,并通过预训练使其在零样本和少样本的情况下表现得足够强大,那么这个世界模型的商业价值就会非常高。

因此,未来的关键是如何收集足够高质量的数据,进行良好的预训练,并最终在实际应用场景中具备强大的泛化能力。

宋亚宸:其实,我们需要思考一个核心问题:为什么现在大家都在讨论世界模型?为什么创业公司、资本和顶尖人才都在涌向这个领域?是因为AI发展到一定阶段,世界模型应运而生吗?还是因为具身智能技术发展成熟了?

我认为,这两个因素并不是世界模型崛起的根本原因。

世界模型的出现,最根本的原因在于信息载体的变化。过去,信息载体的提升是一个不断升维的过程,从文字到图片,再到视频,直到今天的3D世界。随着信息密度和体验质量的提升,我们也迎来了3D和世界作为新的信息载体。

以往,文字、图片和视频曾是信息表达的主流。但现在,随着AI技术和硬件基础设施的进步,3D以及更高维度的世界成为了我们表达和传递信息的最终载体。

过去几千年,文字是表达世界的工具,但随着信息技术的发展,3D和世界的表达形式才刚刚开始成为主流。

我们即将进入一个新时代,AI能够帮助我们直接处理和理解3D世界,并且创造更丰富的交互体验。

这其实是信息利用效率的提升。信息密度越高,传播效率就越快。

当我们只能在古代的龟壳上刻字时,信息传播效率非常低;但随着技术进步,互联网、图片、视频的出现,传播效率逐渐提高。而3D和世界本身,最终将成为我们信息传递和创造的主要载体。

蒋屹舟:我个人对世界模型的理解有些不同。

我们做的是类脑智能,偏向非端到端的设计。最初我们是做类脑机器人的,尤其是在国家项目中,认为世界模型不仅仅局限于视觉或某种单一的输入模式。

以一个盲人操作物体为例,即使他无法通过视觉来感知世界,但他依然能通过其他感官掌握物体的特性,并推测出自己的行为可能带来的后果。

这种因果关系的理解,才是我们认为最为核心的部分。

通过类脑模型,我们的优势在于对数据的需求不那么大,传统的强化学习需要大量数据,而我们采用的非端到端方法,通过理解世界的因果关系,就能有效减少数据需求。

我们相信,世界模型不仅限于自然世界,它同样适用于人类构建的世界。大语言模型(LLM)就是一个典型的例子,语言作为人类对世界的抽象工具,能够帮助我们理解和表达大部分的事物。

通过对这些抽象的理解,机器也可以构建出一个符合逻辑的世界模型。

本文不构成任何投资建议。

本文来自微信公众号“铅笔道”(ID:pencilnews),作者:吴欣晓,36氪经授权发布。

+1
24

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

物理AI开启算力下沉大趋势,爱芯元智凭借全栈自研与领先的商业化能力,成功卡位“中国边缘AI芯片第一股”,为AI落地现实世界铺设算力底座。

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业