李飞飞揭大模型“死穴”:不会空间智能,再能聊也是纸上谈兵

亿欧网·2025年11月12日 19:45
语言模型绘智形,空间智能定落地!

当科技界仍深陷于大模型“参数内卷”时,斯坦福大学教授、World Labs联合创始人李飞飞教授指向了一个更本质的瓶颈:当前AI被困在由文本和二维图像构成的“扁平世界”里,它与我们生活其中的、立体的、受物理规律支配的现实严重脱节。

11月11日,在她刷屏的一篇长文中,李飞飞鲜明指出,空间智能,正是打破这层认知隔膜的关键。它不仅代表了人工智能演进的下一个前沿,更是AI真正融入物理世界、从“对话工具”蜕变为“行动伙伴”的转折点。

本文梳理了李飞飞在这篇长文中对于空间智能的技术路径与应用前景系统阐述,并结合多位产业实践者的洞察,共同展望这一变革性力量将如何重塑人机关系与产业生态。

从语言到世界,空间智能是AI的破晓之光

当前人工智能,特别是生成式AI已在创意、效率与沟通方面深刻改变了世界。

然而,李飞飞指出,当前AI在诸多关键领域应用的宏伟愿景还远未实现。自主机器人的发展尚未走出实验室与特定场景,其“融入日常生活”的愿景仍停留于概念推演;

在科学研究中,AI虽展现出潜力,但距离真正实现疾病诊疗、新材料研发与基础物理探索的效率革命,仍有相当距离;

在创意赋能方面,无论是辅助学生理解复杂抽象概念、支持建筑师进行空间构思,还是帮助创作者构建虚拟世界,AI仍缺乏对人类意图与场景需求的深度理解,难以实现真正意义上的认知协同。

她进一步强调,究其根本,在于AI缺乏人类与生俱来的空间智能。

空间智能是人类认知与文明的基石。它并非一种高级技能,而是我们通过“感知-行动”循环与物理世界互动的根本能力,驱动着我们的日常行为、非语言沟通、想象力与创造力。从历史上埃拉托斯特尼测量地球周长,到沃森与克里克发现DNA双螺旋,文明的重大突破往往源于对空间的操控、可视化与推理能力,这些是纯文本无法实现的。

遗憾的是,当前AI的空间能力存在根本性局限。

尽管多模态大型语言模型(MLLMs)通过海量多媒体数据训练,具备了基础的空间感知能力,能够分析图像、回答相关问题,还能生成超逼真图像与短视频;同时,借助传感器与触觉技术的突破,最先进的机器人已能在高度受限的环境中操控物体与工具。

但AI的空间能力仍远未达到人类水平。最先进的多模态大型语言模型在估算距离、方位、尺寸,或是通过新角度重建物体来实现“心理旋转”等任务上,表现几乎与随机猜测无异。它们无法走出迷宫、识别捷径,也无法预测基本的物理规律。AI生成的视频也往往在几秒后就会失去连贯性。

她分析道,这些模型对世界的理解是表面与割裂的,缺乏人类那种整体性、关联性和基于直觉的认知。人类对世界的认知是整体性的,不仅包括我们所见之物,还涵盖万物间的空间关联、其内在意义及重要性。

缺乏这种能力,AI就与其试图理解的物理现实脱节,无法有效为我们驾驶汽车、在家庭与医院中操控机器人、为学习与娱乐提供全新的沉浸式互动体验,也无法加速材料科学与医学领域的探索进程。

通过想象、推理、创造与互动(而非仅靠描述)来理解世界,正是空间智能的力量所在。

因此,李飞飞总结道,AI的未来在于超越语言的界限,发展强大的空间智能,这将是实现下一次飞跃的关键。

下一代AI的关键在于发展“世界模型”

李飞飞指出,构建具有空间智能的人工智能,需要超越当前大型语言模型的范式,转向发展一种更为根本的“世界模型”,这种模型的核心在于能够理解、推理并生成在语义、几何、物理和动态规则上都保持一致的复杂世界。

她进一步表示,实现这一目标需要世界模型具备三种基本能力:首先是生成式能力,即能创造在感知、几何和物理动态上完全一致的模拟世界,并深刻理解世界状态在时间上的连续性;

其次是多模态能力,能够自然处理图像、视频、文本、动作等各种形式的输入与输出;

最后是交互式能力,能够根据输入的动作预测世界的下一个状态,从而连接感知与行动的循环。

然而,构建这样的世界模型面临着远超语言模型的挑战。语言是人类认知中纯粹生成的现象,而“世界”遵循的规则复杂得多,其表征的维度与复杂性,也远非语言这种一维序列信号可比。

在World Labs,李飞飞及其研究团队致力于朝着以下目标取得根本性的进展:

一是定义一个新的通用训练目标函数,其地位应如同语言模型中的“下一个词预测”。然而,由于世界模型的输入与输出空间极为复杂,定义这样一个目标函数本身就面临巨大挑战。尽管前路尚不明确,但这一目标函数及其内在表征必须能够准确反映几何与物理定律,以反映世界模型作为现实与想象统一载体的本质

二是破解大规模训练数据难题,尽管互联网图像与视频构成了海量数据源,但核心挑战在于如何从这些二维信号中有效提取三维空间信息。研究的关键在于构建能充分利用此规模视觉数据的模型架构。同时,高质量合成数据及深度、触觉等多模态数据亦不可或缺,未来的发展取决于更先进的传感系统、更稳健的信号提取算法、以及更强大的神经仿真方法;

三是新的模型与表征架构,现有范式(如MLLM和视频扩散模型)将数据标记为一维或二维序列,难以胜任计数、长期记忆等基础空间任务。突破有赖于采用3D/4D感知、记忆机制等新型架构。例如,World Labs开发的RTFM模型通过引入空间相关的帧作为记忆单元,在保持世界持久性的同时实现了高效实时生成,展示了架构创新的方向。 

李飞飞认为,尽管挑战巨大,但这正是实现人工智能空间智能突破的关键路径。这项研究将催生新一代的创意与生产力工具,最终使人工智能获得与物理世界进行深度、有效互动的核心能力。

从创意工具到科学伙伴,空间智能的三阶段赋能之路

李飞飞阐述了其推动人工智能发展的核心动机与空间智能的应用愿景。她坚信,人工智能的根本目的必须是增强人类能力,而非取代人类,AI应当拓展人类的创造力、连接效率与生命充实感,并始终尊重人的自主性与尊严。在这一以人为本的理念指引下,空间智能被视为实现此愿景的关键前沿。

她指出,空间智能的应用将分阶段在多领域深化。

短期内,创意工具如World Labs的Marble平台正赋能创作者,使其能快速构建和迭代可探索的3D世界,从而变革电影、游戏、建筑及工业设计等领域的故事讲述与空间叙事方式,并催生全新的沉浸式互动体验。

中期而言,机器人技术是空间智能具身化的核心实践。针对当前机器人训练数据稀缺的核心瓶颈,李飞飞认为,世界模型通过生成高保真度的模拟数据,能极大扩展机器人学习的边界,快速缩小模拟与现实之间的差距,让机器人在海量的状态与环境中学习,从而实现可泛化的理解、推理与交互能力。

在此基础上,机器人要成为真正的人机协作伙伴,不仅要具备感知、规划与行动的空间智能,更要与人类的目标和行为保持同理心,在实验室、家庭等场景中既有效辅助人类,又充分尊重其自主性。

此外,李飞飞指出,世界模型将推动机器人突破人形局限、向纳米、软体等多元形态发展,通过一体化建模机器人感知、运动与环境,提供关键仿真训练与评测支持,解锁其特定场景全部潜力。

从长远视角看,空间智能的深远影响将辐射至科学、医疗保健与教育等关键领域。

在科学上,它能模拟实验、检验假设并探索极端环境,加速气候科学、材料研究等领域的发现。

在医疗领域,它将从分子相互作用的模拟、医学影像的辅助诊断到环境监测与机器人辅助护理等多个层面带来变革。

在教育方面,则能通过将抽象概念具体化、创造沉浸式与交互式学习体验,极大地提升学习效率与技能培训效果。

李飞飞最后强调,尽管应用场景无限,但所有这些发展的共同目标始终如一:即利用人工智能(尤其是空间智能)来增强人类的专业知识、加速人类的发现并深化人类的关怀,而绝非取代人类所独有的判断力、创造力与同理心。实现这一宏伟蓝图,需要整个人工智能生态系统的集体努力。

空间智能:重构人机关系与产业生态

李飞飞所描绘的“空间智能”蓝图,揭示其远不止于一项技术突破,而是驱动下一代人机交互革命的基石。传统AI常被定位为“工具”,依赖屏幕与文本来理解世界,而空间智能带来的,是让AI真正融入现实环境,成为能感知上下文、理解意图并主动协作的“场景伙伴”。

高德地图董事长刘振飞近期在云栖大会上指出,空间智能将如云计算一样,成为360行与物理世界交互的标配基础设施。他强调:“如果说语言大模型赋予AI思考能力,那么空间智能则赋予AI理解和预测物理时空的能力,推动AI从对话工具蜕变为行动伙伴”。

这一判断揭示了技术演进的核心方向:当AI不仅能理解指令,更能感知环境、预判需求并在三维空间中执行任务时,其价值创造方式将发生质的飞跃。

这意味着,智能的衡量标准将从处理速度转变为对现实场景的适应能力。无论是正处风口的VR/AR眼镜、被视为下一代计算平台的机器人,还是重塑交通的自动驾驶汽车,它们的本质,都是一个必须在三维物理世界中自主“生存”的智能体,需要精确地感知环境、理解物理规律、进行实时决策并执行灵巧行动。

尽管挑战重重,但李飞飞的理论框架正在与产业实践融合,勾勒出从技术突破到生态构建的发展轮廓。

“杭州六小龙“之一群核科技联合创始人黄晓煌明确指出,空间智能是继大语言模型之后至关重要的新领域,并将李飞飞研究的方向誉为“真正的空间智能”,认为其包含了工具、大模型和数据,而非上一代基于图像或视频理解的监控技术。

他将此视为机器从自动化迈向“具身智能”的必经之路,并预言未来机器人数量可能达到700亿台,远超人类。面对这一智能实体网络,商业模式也将从“向人收费”转向“为机器服务”。

群核科技已从互联网公司转型为空间智能公司,聚焦机器人“空间理解”能力,认为硬件已有企业布局,自身专注智能算法。

与此同时,英诺创新空间创始合伙人邓永强从投资与生态视角提出“AI新大陆”概念,将空间智能提升至文明演进的高度。他认为这不仅是技术革命,更是一个堪比工业革命的“超级周期”,核心是从“信息智能”向“具身智能”的根本跨越。

他特别强调,AI与传统领域之间“不是替代,而是共生共荣”,这一理念为技术发展提供了更具包容性的框架。邓永强预判,2025年将成为空间智能相关技术规模化落地的关键元年,而当前“技术范式尚未收敛”的窗口期,正是创新者参与定义下一代标准的战略机遇。

空间智能并非单一技术,而是涵盖三维环境感知与重建、定位与姿态估计、空间关系理解与场景解析、运动预测与路径规划、空间记忆与地图管理、人机空间交互的复杂技术体系,既包含对物理世界的深度理解,也涉及虚拟空间的创造性表达,更要求在二者之间建立无缝的连接桥梁。

从技术维度看,当前面临的挑战远超想象,李飞飞指出的“通用训练目标”“大规模数据获取”“新型架构设计”三大挑战,仅仅是这一宏大工程的初始挑战。

从产业维度看,黄晓煌预见的“向机器收费”模式虽然诱人,但前提是必须解决机器人的规模化部署、跨场景适应性和成本控制等现实问题。刘振飞设想的“空间基础设施”愿景,也需要克服标准化、互联互通和生态构建的行业性难题。

这条道路注定充满挑战,邓永强强调的“共生共荣”理念提醒我们:空间智能的发展不应是技术单方面的狂飙突进,而应该是技术、伦理与商业的协同进化。

在这个意义上,空间智能不仅代表了AI技术的下一个前沿,更是一次重新定义人机共生关系的集体探索。或许空间智能的真正价值不在于创造又一个技术热点,而是为我们打开了重新思考智能本质的窗口。

本文来自微信公众号 “亿欧网”(ID:i-yiou),作者:路永丽,36氪经授权发布。

+1
5

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

当市场的成功不再依赖于单一爆款,而是源于多元类型的“繁花竞放”,古装剧也有望进一步收获市场的积极反馈,挖掘出新的潜力与可能性。

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业