李飞飞看不下去了,亲自下场“辟谣”世界模型

智东西·2026年06月04日 18:18
世界模型这个词被滥用了。

今日,斯坦福大学教授、空间智能创业公司World Labs联合创始人兼CEO李飞飞(Fei-Fei Li)与团队发布新文章《世界模型的功能分类》,系统拆解了当下被广泛使用却释义混乱的“世界模型”。 

文章指出,计算机视觉、机器人、强化学习和生成式AI各领域的人士都宣称其在研发世界模型,但各方所指内涵截然不同。李飞飞试图从强化学习经典的POMDP(部分可观测马尔可夫决策过程)框架出发,为这一概念建立清晰的功能分类体系。 

李飞飞将世界模型归纳为渲染器(renderer)、仿真器(simulator)、规划器(planner)三大功能类别,并重点论证了在三者中受关注度最低的仿真器,恰恰具备最深远的产业价值与最棘手的技术难题。 

她进一步提出,三类模型底层共用同一套世界知识,当前最重要的趋势是三者边界正不断消融,最终将走向能够灵活切换输出形式的大一统世界基础模型。 

▲李飞飞发布《世界模型的功能分类》文章推文(图源:X)

李飞飞在文中提出了以下几个核心观点: 

1、世界模型已成为AI领域最重要、也最被滥用的术语之一,各领域所指内涵截然不同,亟需精准定义。 

2、世界模型的技术定义源自强化学习的POMDP框架,即智能体、动作、环境状态、观测信息构成的交互闭环,各类世界模型本质都是这套闭环的不同实现方向。 

3、世界模型可分为三大功能类别:渲染器输出供人观看的像素画面、仿真器输出贴合客观规律的环境状态、规划器输出智能体的动作指令。 

4、三类模型底层并不割裂,几何、物理、动力学这套描述世界运行逻辑的基础知识是三者共用的底层原理。 

5、渲染器商业化最成熟但能力有上限规划器前景最受期待但尚处起步阶段,仿真器关注度最低却是衔接二者的桥梁与核心支柱。 

6、仿真赛道集中了AI领域的诸多棘手难题,包括三维数据稀缺、仿真与现实的域差、生成式仿真的几何隐患、多物理场仿真的高算力成本等。 

7、当前最关键的发展趋势是三类模型相互融合,技术演进的终极形态是能根据下游需求灵活切换输出形式的大一统世界基础模型。 

8、在同一套模型架构中平衡各项需求,是当前世界模型领域最核心的攻关课题。 

以下是对李飞飞《世界模型的功能分类》的全文编译:

01 世界并非由文字构筑而成

在此前的文章中,我们提出空间智能是AI的下一前沿方向,而世界模型是实现空间智能的必经之路。 

本篇,我与World Labs团队将进一步深挖:当下大量被研发、冠以“世界模型”之名的各类产物中,究竟由哪些功能模块构成了世界模型的核心能力,各个模块又分别承担何种作用? 

大语言模型让机器拥有了出众的概念理解、词汇运用与逻辑推理能力,但无论是现实物理世界还是虚拟世界,都依托另一套底层规律运行。语言模型学习文本的统计规律世界模型则学习时空的统计规律:光线如何落在物体表面、不在相机拍摄视角下的花园是什么模样、物体受外力后如何运动并遵循物理定律。 

这也让“世界模型”成为当下AI领域最重要、同时最被滥用的术语之一。 

计算机视觉、机器人、强化学习、生成式AI各领域人士都宣称在研发世界模型,但各方所指内涵截然不同。能生成绚丽却违反物理规律的火焰的视频模型、能即兴生成游戏的语言模型、能精准模拟燃烧过程的物理引擎,如今都被装进“世界模型”这同一个筐里。 

古希腊学者始终无法统一世界的本源究竟是火、水还是不可分割的原子,根源在于“世界”从来没有唯一定义,它只是研究者为了推演论证,对其所研究的完整客观存在的代称。如今AI领域在亟需精准定义的关键阶段,承袭了这一难题。 

02 分类体系底层的交互闭环

想要厘清概念乱象,可以从一张早于所有相关技术的经典原理图入手。 

数十年来,包括Sutton和Barto编写的经典教材在内的各类强化学习教科书,都在用这套图示描述智能体与环境的交互逻辑。该框架的标准名称为部分可观测马尔可夫决策过程,即POMDP,而“世界模型”最初的定义便诞生于这套理论体系。 

智能体可以是人类、机器人或是软件系统,它会执行动作;动作改变环境状态。智能体无法直接观测完整环境状态,只能获取观测信息:射入视网膜的光子、传感器传回的读数、视频画面中的像素。新的观测结果指导智能体生成新动作,循环往复形成闭环。 

状态”一词需要拆解释义,它在不同学科中定义不同。此处并非化学领域固液气三态的概念,而是物理与机器人学定义的状态:对某一时刻客观环境的完整描述,囊括所有物体的位置、速度与各类属性。 

环境状态是客观世界的底层全貌,理论上信息完整,但身处其中的智能体无法直接全盘获知。观测是智能体对客观世界的局部感知动作则是智能体基于感知做出的反馈行为。 

智能体、动作、环境状态再到观测信息、最终回馈智能体的这套闭环,奠定了现代“世界模型”的技术定义。 

事实上,“世界模型”这一说法本身历史更为悠久。它最早可以追溯到1943年肯尼斯·克雷克(Kenneth Craik)提出人脑依靠构建现实的“微型模型”完成逻辑思考。上世纪80年代末至90年代初,克雷克的理念被引入神经网络研究。 

这套闭环同样能解释当下五花八门的世界模型:如今各类冠以世界模型的产品,本质都是这套闭环的不同实现方向,各自只输出闭环中的某一部分信息。 

03 世界模型的三大功能分类

第一类世界模型是渲染器。渲染器以像素画面的形式输出可供人类观看的观测信息,核心评判标准是视觉还原度。 

能够依据文本提示生成电影级航拍画面的视频模型属于渲染器,Google的Genie 3、World Labs自研的RTFM这类根据用户输入实时生成画面的交互式系统同样归为此类。 

这类模型并不具备对三维结构的显性认知,它只生成人类肉眼所见画面,而非客观真实结构。航拍镜头里的建筑从上空看毫无破绽,但如果驾车穿行城下,建筑结构就会出现崩坏。 

第二类是仿真器。仿真器输出环境状态:在几何、物理、动力学层面贴合客观规律的环境表征,可供人类与计算机程序运算、交互。渲染器只需要满足视觉效果,仿真器则要恪守结构真实性:几何结构经得起校验、物理规则符合牛顿定律、物体动力学表现贴合现实规律。 

仿真器同时服务两类使用者:建筑师、设计师、影视与游戏开发者等从业者需要远超视觉逼真度的精准环境;强化学习智能体、机器人控制器、自动驾驶等程序则将仿真环境当作规模化训练场地,用以测试现实中危险、成本高昂或是无法落地的场景。 

第三类是规划器。规划器输出动作指令:依托观测信息与预设目标,给出智能体下一步的行动方案。从逻辑上看,它和渲染器互为逆过程。渲染器输入动作、输出观测画面;规划器输入观测信息、输出动作指令,补齐感知与动作的闭环链路。 

视觉-语言-动作(VLA)模型、基于模型的控制系统,以及新近兴起的世界动作模型(World Action Models)都属于规划器方向,这类系统能够为非结构化环境中的机器人制定行动策略。 

当下落地量产的绝大多数世界模型产品都可以归入这三类,在实际应用中这套划分方式具备实用价值,但三类模型底层并非割裂。 

几何、物理、动力学这套描述客观世界运行逻辑的基础知识,是三者共用的底层原理。理论上,能够从任意视角渲染杯子的模型,也可以仿真杯子被推倒后的状态、规划机械手抓取杯子的动作。当下前沿研究正不断打破三类模型的边界。 

▲World Labs世界模型三大功能模块拆解示意图(图源:World Labs)

04 仿真为何是核心支柱

在三类模型中,仿真器受到的大众关注度最低,却具备最深远的产业价值,本文将就这种关注度与重要度失衡的现状展开论述。 

渲染器是商业化落地最成熟的品类,多款文生图、文生视频产品正快速渗透消费级与企业级市场。谷歌的Nano Banana模型将高质量图像生成能力带给了数以亿计的潜在用户。无论是技术本身,还是相应的市场需求,都已经得到了充分验证。 

但渲染器以视觉逼真度为优化目标,不追求物理精准性,这成为它的能力上限:生成画面观感出众,却无法被用于建筑设计、机器人训练等需要严谨物理逻辑的场景。 

规划器发展前景最受期待,但技术尚处在起步阶段,和高速发展的机器人学习领域深度绑定。 

近两年来,机器人相关演示视频效果亮眼,但客观来看,绝大多数演示都局限在条件严苛的实验室环境中,操作物品种类有限、任务流程简短,还无法满足真实落地所需的环境复杂度、场景多变性与长时间稳定运行要求。从实验室演示到能在厨房、仓库、手术室稳定作业的商用机器人,中间仍存在巨大技术鸿沟。 

不过资本对规划赛道投入巨大,一批资金充裕的创业公司争相落地通用规划系统,头部基础设施厂商也选择在仿真技术栈之上搭建规划能力。能够自主规划的机器人才具备实用价值,全行业都在争先攻克这项技术。 

仿真技术是衔接渲染与规划的桥梁。如果说语言是世界的抽象概括、像素是世界的视觉投影,那么几何、物理与动力学规律就是世界本身。仿真器立足客观规律搭建底层结构,渲染所需的外观画面、规划所需的动作结果,都能从这套结构中衍生而来。 

掌握仿真能力的模型,既可以把对世界的理解转化为可供人类观看的像素画面,也能为实体智能体预判动作结果,而仅专攻渲染或规划其中一项的模型,则无法兼备上述两项能力。 

仿真的商业化市场空间十分庞大,仅英伟达的Omniverse,其面向工厂、仓储、供应链、数字孪生的潜在市场规模就被公司预估超万亿美元。机器人训练、自动驾驶测试、建筑可视化、工程研发、药物研发等领域,全都离不开仿真技术。 

AI领域诸多棘手的待解难题也集中在仿真赛道。标注了几何结构、材质属性、物理参数的三维数据集,体量远少于渲染模型训练所用的互联网视频素材。仿真与现实间的域差问题始终难以根除。 

生成式仿真还新增一项隐患:AI生成的几何模型看似正常,实则可能存在面相交、尺寸失真问题,进而导致物理运算结果违背常理。能够同时实现刚体、柔体、流体、织物交互的大规模多物理场仿真,算力成本远高于单一物理场景仿真。 

World Labs推出的Marble是我们布局仿真领域的首款产品。该产品接收文本、图片、视频、空间草图等多模态提示词,生成可交互探索的三维环境,同时输出用于视觉浏览的高斯泼溅数据、可供物理引擎运算的碰撞网格。 

不过随着渲染、仿真、规划的边界不断消融,Marble只是全行业技术演进长周期的开端。 

05 边界消融的现状与未来发展方向

行业的技术变革还在持续推进,当下最关键的发展趋势是三类模型正在相互融合。业界逐渐达成共识:实现环境渲染、物理仿真、动作规划所依托的底层世界知识高度同源。 

沿用前文杯子的例子:真正掌握杯子在桌面的几何形态、材质、受力规律的模型,既能从任意角度渲染杯子画面,也能仿真杯子被碰倒的全过程,还能规划机械手抓取动作。三类应用只是同一套底层世界认知的三种落地形式。 

▲大一统世界模型架构图(图源:World Labs)

举个例子,多家机器人实验室近期已有越来越多研究证实:从理论层面,预训练视频渲染模型可作为环境与动作联合预测的底层基座,用单一模型预判环境变化与对应动作,打通渲染器和规划器的技术壁垒。 

World Labs的Marble已实现单模型同时输出高斯泼溅画面与碰撞网格,打破渲染器和仿真器的界限。全品类产品都在从被动生成输出转向交互式系统:渲染器开始支持根据动作指令生成画面,仿真器产出的环境可调控、可修改,规划器也从被动应激式决策升级为自主推演式决策。 

技术演进的终极形态是大一统世界基础模型:单一基座模型既能生成照片级渲染画面、输出符合物理规律的环境结构,又能生成动作序列,可根据下游需求灵活切换输出形式。 

不过落地之路仍有重重挑战:各类模型数据储备不均衡,渲染模型坐拥海量互联网视频素材,仿真与规划模型却紧缺三维资源与机器人实操数据;优先优化视觉效果往往会损耗机器人、高精度仿真所需的物理精度。 

在同一套模型架构中平衡各项需求,是当前世界模型领域最核心的攻关课题,这也是World Labs迭代升级Marble的核心目标。 

但行业发展方向已然明晰。从上世纪80年代末延续至今的行业核心猜想,正驱动着新一代科研攻关:只要构建足够完备的世界模型,智能体就能够感知、搭建环境并在其中自主行动。 

这份猜想的落地底气源自三大技术路线的融合趋势:原本各自独立研发、且均已催生千亿级产业的渲染、仿真、规划赛道,正逐步融为一体。 

随着三者边界彻底消融,它们将重塑更深层的产业格局:机器智能与客观物理世界的交互关系,推动空间智能完成漫长的产业进化。 

语言让机器拥有了描述世界的能力,而世界模型终将让机器真正理解、构想客观世界,并与之推演、交互。 

本文来自微信公众号 “智东西”(ID:zhidxcom),作者:陈 佳,36氪经授权发布。

+1
1

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

Github 被自己养的东西压垮了。

59分钟前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业