世界模型怎么才算“能用”?李飞飞把它做成了 API
人工智能专家李飞飞创立的 World Labs 近期推出了核心产品 World API,标志着人工智能从生成视频内容向构建可交互三维空间的重大跨越。该平台利用多模态输入技术,能将文字或图像转化为具备物理规则与几何结构的数字世界,供机器人训练、游戏开发及虚拟现实使用。与传统的视频生成模型不同,这一工具旨在赋予机器空间智能,使其能够理解并进入一个可以自由移动和探索的真实环境。
真正的“世界模型”是什么?李飞飞说:不只是看,还要能走进去。
2026 年 1 月 21 日,她创立的 World Labs 上线了开放平台 World API。输入一张图、一段文字或一个视频,它就能生成一个 3D 世界。AI 可以在里面移动和探索,你也可以把它导出到游戏引擎或机器人仿真系统。
但在李飞飞眼中,World API 不只是一个生成工具。
1 月 28 日,在播客《Rethink Reality》上,李飞飞说:
“世界可以是抽象的,也可以是物理的。它可以大到宇宙,也可以小到一粒沙子。我们不只是在做一个模型,而是在重新定义,什么才算一个世界。”
就在几天前,彭博社曝出这家公司正与投资人谈判新一轮融资,估值或达50亿美元,是首轮融资时的五倍。
第一节|世界不是图像,是可交互空间
要理解 World API 为什么重要,先看它和现在主流的 AI 工具有什么不同。
Sora、即梦等生成的是视频流,本质是固定角度的连续画面。你看到一段影像,但无法走进去,无法绕到背后。这是给人看的内容。
World Labs 生成的是空间结构,是完整的几何模型加上物理关系。你可以走进去,可以绕到后面,可以导出到游戏引擎或机器人仿真系统。这是给机器用的环境。
这个区别为什么重要?
视频模型解决“看什么”,世界模型解决“能做什么”。游戏需要可探索的关卡、机器人需要可训练的仿真环境、VR 需要可沉浸的空间,这些都不是一段视频能解决的。
而要做到这些,AI 必须理解物体能做什么。
一张椅子不只是椅子,是可以坐的东西;一扇门不只是形状,是可以推开的入口。AI 如果不理解这些,就无法真正进入世界,更无法在里面行动。
所以,世界可以大到宇宙,也可以小到一粒沙子。关键不在尺度,在于它是否具备完整的空间关系、物理规则和可交互性。
AI的输出,正在从内容变成环境。
第二节|World API 的核心能力
这个环境是怎么造出来的?
1月21日上线的World API,把李飞飞对世界的定义变成了可调用的产品。从这个API的设计,可以看出两个技术判断:
1、多模态输入:用多种信息源还原空间
World API 支持文本、图片、视频、全景图作为输入。你可以给它一句话,也可以给它一段视频或几张全景照片,AI 会从这些不同信息里拼出一个 3D 空间。
为什么不像 ChatGPT 那样只用文本?
因为真实世界的信息是多维度的。语言描述空间结构效率很低,图像能提供视觉信息但缺少深度,视频有时间序列但视角受限。只有把这些信息融合,才能还原完整的空间。
World Labs 开发的模型是多模态的,包含语言、语义、几何,最终还有物理。
2、语义可编辑:AI要懂人话,不只是懂数字
比如这样一句话:在客厅中央放一张沉重的沙发。
这里的“沉重”、“中央”不是精确坐标,但人能懂,AI 也必须能懂。
类似的词还有很多:“滑”表示摩擦,“暗”表示光照,“易碎”带有预判。这些日常用语里都藏着物理信息。World API 的处理方式是:保留这些模糊性,不把它们转成精确数值,而是直接读懂语义。
这样创作者就可以用自然语言描述想要的世界,而不需要学建模软件或写代码。
配合自然语言,World Labs 还提供了可视化工具 Chisel(凿子)。用户可以放置几个方块来决定画廊的几何结构,AI 会基于这些约束生成完整场景。
这两个能力的组合,让World API成为了一个开放的空间基础设施。任何需要 3D 环境的系统,都可以直接调用它来构建场景,而不需要从零开发。
从产品定位看,这不是一个生成式AI应用,而是下一代空间智能的底层平台。
第三节|世界造出来给谁用?
产品能力已经清楚了,但更重要的问题是:这个市场有多大?
1、三类核心场景
游戏开发最直接。传统 3D 建模耗时数月,World API 可以在几分钟内生成可用关卡,设计师再用 Chisel 调整细节。原本花在重复建模上的时间,可以用来打磨玩法和叙事。
机器人训练依赖仿真环境。现在的做法是在Unity 或 Isaac Sim 里手工搭建场景,成本高、周期长。如果能从一段真实环境的视频直接生成可训练的 3D 仿真空间,机器人从实验室走向现实世界的速度会快得多。
VR和AR需要大量3D内容。但大多数创作者不会用 Blender 或Maya,World API降低了制作门槛。建筑设计、室内装潢、展览策划,都可以快速把概念变成可交互的空间原型。
李飞飞还提到了下一步的技术方向:动力学。树会随风摇摆、沙发能压出地毯形变、光照会随时间变化。这些不只是为了真实感,而是为了让生成的世界能真正用于物理仿真和机器人训练。
2、不同的赛道
World Labs 和 OpenAI、Google的重点不太一样。
OpenAI 当前主攻对话和通用 Agent,ChatGPT 帮你写文章、分析数据、执行任务,但重心不在空间理解。
Google 有 Genie 3 这样的世界模型,也能生成可交互 3D 环境,但主要用于游戏开发和agent训练,定位更偏向研究和特定场景。
World Labs 做的是可编程空间的基础设施,生成的不只是环境,而是可以直接接入各种系统的空间数据。任何需要 3D 环境的应用,都可以调用 World API。
这是基础设施和应用层的差异。就像10年前,做操作系统的和做应用的不是对手。
投资人看到的也是这个:如果可编程空间成为下一代平台,World Labs占据的是底层位置。API 上线后,公司正洽谈新一轮融资,目标估值 50亿美元,是此前 10 亿估值的五倍。
3、技术的另一面
李飞飞在对话中主动谈到了风险。
任何能重建空间的技术,都可能被用于监控、操控或制造虚假现实。她的观点很直接:技术本身是中性的,问题在于如何使用。
那怎么办?她的答案是:依靠法律、治理、社会规范、教育,还有人类自身的善意。
这个回答诚实,但也有限。因为技术一旦开放,控制权就不在开发者手里了。World API现在是给开发者用的工具,但最终这些生成的空间会被用在哪里、服务于什么目的,很难完全约束。
这不是李飞飞能解决的问题,也不是任何一家公司能解决的问题。但至少她没有回避,在大多数创业公司急于讲故事、冲估值的时候,愿意公开谈风险,这本身就是一种态度。
造世界的工具已经出现。机会很大,风险也很大。
结语|她做的不是产品,是入口
OpenAI 用对话框让 AI 接近语言,李飞飞 让 AI 进入空间。
对话框生成的是内容,World API 生成的是可交互的环境。前者是终点,后者是起点。
她给底层模型取名 Marble(大理石),工具叫 Chisel(凿子)。隐喻很清楚:世界等待被雕刻,工具已经给你,剩下的看你怎么用。
World API 已经上线,代码已经开放。
接下来,就看开发者用它造出什么世界。
参考资料:
https://www.youtube.com/watch?v=61VpIEpdZGg
https://www.bloomberg.com/news/articles/2026-01-23/fei-fei-li-s-ai-startup-world-labs-in-funding-talks-at-5-billion-valuation
https://www.worldlabs.ai/blog/announcing-the-world-api
https://x.com/drfeifei/status/2016201629121269831?referrer=grok-com
来源:官方媒体/网络新闻
本文来自微信公众号“AI 深度研究员”,作者:AI深度研究员,编辑:深思,36氪经授权发布。















