李飞飞万字长文爆了,定义AI下一个十年
AI的下一个前沿,是「空间智能」。
它是一项能让「看见」升华为「推理」,让「感知」蜕变为「行动」,让「想象」落地为「创造」的技术。
但「空间智能」究竟是什么?为何如此重要?该如何构建它?又该如何应用它?
今天,李飞飞撰万字长文分享了自己关于构建和使用「世界模型」以解锁空间智能的思考。
新文章中,她为真正具备空间智能的「世界模型」所需达成的目标勾勒了一个框架。
具体来说,构建这样的AI必须具备三大核心能力:
让AI拥有故事讲述家的想象力去创造,
拥有急救人员般的敏捷性去导航,
并拥有科学家的严谨去推理空间。
李飞飞与LeCun共识的一点是,「世界模型」是解锁空间智能的核心。
它必须能生成遵循物理定律、在空间上保持一致的世界,能处理从图像到动作的多模态输入,并能预测这些世界将如何演变或与之互动。
空间智能的应用疆域,正沿着一条清晰路径演进。
当下,它正赋能创意,World Labs Marble项目已经将这些能力交到了创作者和故事讲述者的手中。
下一步,它将驾驭物理世界,机器人实现感知与行动之间的闭环。
而最具变革性的科学应用,虽然需要更长时间,但有望对人类福祉产生深远影响。
哲学家维特根斯坦曾写道:「我语言的极限,意味着我世界的极限。」
李飞飞表示,「我不是哲学家,但我深知,至少对AI而言,世界远不止于文字」。
空间智能代表了超越语言的前沿——它是一种将想象、感知与行动融会贯通的能力,为机器真正提升人类生活开启了无限可能,从医疗健康到创意挥洒,从科学探索到日常辅助。
众多网友点评,这是李飞飞一篇非常重要的文章,空间智能必读之作!
以下是全文翻译,一起来拜读下。
从语言到世界:空间智能是AI的下一个前沿
1950年,当计算还只是自动化算术和简单逻辑的代名词时,阿兰·图灵提出了一个至今仍振聋发聩的问题:机器能否思考?能洞见他所预见的一切,需要非凡的想象力:智能有朝一日或可后天构建,而非与生俱来。
这一洞见,后来开启了一场名为「人工智能」(AI)的不懈科学探索。
在我投身AI领域的第二十五个年头,图灵的远见卓识依然激励着我。但我们离这个目标还有多近?答案并非一言以蔽之。
如今,以大语言模型(LLM)为代表的顶尖AI技术已开始改变我们获取和运用抽象知识的方式。
然而,它们仍是黑暗中的文字大师;能言善辩却缺乏经验,知识渊博却脱离现实的根基。
空间智能将改变我们创造以及与真实和虚拟世界互动的方式——为故事叙述、创意、机器人技术、科学发现等领域带来革命性的变革。这,就是AI的下一个前沿。
对视觉与空间智能的追求,是我踏入该领域以来始终指引我前行的「北极星」。
正因如此,我花费数年时间构建了ImageNet——首个大规模视觉学习与基准测试数据集,它与神经网络算法、图形处理器(GPU)等现代计算设备一道,成为催生现代AI的三大关键基石之一。
正因如此,我在斯坦福大学的学术实验室在过去十年里,始终致力于将计算机视觉与机器人学习相结合。
也正因如此,一年多前,我与联合创始人Justin Johnson、Christoph Lassner、Ben Mildenhall共同创立了World Labs:旨在首次将这一可能性淋漓尽致地变为现实。
World Labs创始人团队,左起依次为Ben Mildenhall、Justin Johnson、Christoph Lassner和李飞飞
在本文中,我将阐释何为空间智能、其重要性何在,以及我们如何构建能够解锁它的「世界模型」——其深远影响将重塑创意、具身智能与人类的进步。
空间智能:人类认知的基石
人工智能的发展从未如此激动人心。像大语言模型这样的生成式AI已经从实验室走向日常生活,成为数十亿人创意、生产力和沟通的工具。
它们展现了曾被认为遥不可及的能力,能轻松生成连贯的文本、浩如烟海的代码、逼真的图像,乃至短视频片段。AI是否会改变世界已不再是疑问。
无论以何种合理的标准衡量,它都已然做到了。
然而,仍有太多领域是我们力所不及的。自主机器人的愿景虽引人入胜,却仍停留在理论层面,远未成为未来学家们长期许诺的日常必需品。
在疾病治疗、新材料发现和粒子物理学等领域实现研究进程大飞跃的梦想,在很大程度上仍未实现。
而AI真正理解并赋能人类创作者的承诺——无论是帮助学生理解分子化学的复杂概念,协助建筑师构想空间,支持电影制作人构建世界,还是为任何寻求完全沉浸式虚拟体验的人提供支持——也依然遥不可及。
要理解为何这些能力仍难以实现,我们需要审视空间智能的演化历程,以及它如何塑造我们对世界的认知。
视觉长久以来都是人类智能的基石,但其力量源于某种更为根本的能力。远在动物学会筑巢、哺育后代、用语言交流或建立文明之前,感知这一简单的行为就已悄然点燃了通往智能的进化火花。
这种从外部世界(无论是一缕微光还是一丝触感)收集信息的看似孤立的能力,在感知与生存之间架起了一座桥梁,并随着代代繁衍而愈发坚固和精巧。层层叠叠的神经元从这座桥梁上生长出来,形成了能够解读世界并协调生物体与环境互动的神经系统。
因此,许多科学家推断,感知与行动的循环成为驱动智能进化的核心动力,也是自然界创造出我们人类——这一集感知、学习、思考与行动于一体的终极造物——的根基。
空间智能在定义我们如何与物理世界互动方面扮演着至关重要的角色。
每一天,我们都依赖它来完成最平凡的举动:通过想象保险杠与路缘之间不断缩小的间隙来停放汽车,接住抛过房间的一串钥匙,在拥挤的人行道上穿行而避免碰撞,或是在睡眼惺忪中不看一眼便将咖啡倒入杯中。
在更极端的情况下,消防员在浓烟弥漫、摇摇欲坠的建筑中穿行,对结构的稳定性和自身的生存在瞬间做出判断,并通过手势、肢体语言和一种无可替代的职业直觉进行交流。
而婴幼儿则在学会说话前的整段岁月里,通过与环境的嬉戏互动来认知世界。所有这一切都发生得如此直观、自然——这是机器尚未能企及的自如与娴熟。
空间智能同样是我们想象力与创造力的基石。故事讲述者在脑海中创造出异常丰富的世界,并利用从古老的洞穴壁画到现代电影,再到沉浸式视频游戏等多种视觉媒介,将这些世界呈现给他人。
无论是孩童在沙滩上堆砌沙堡,还是在电脑上玩《我的世界》,基于空间的想象力构成了真实或虚拟世界中互动体验的基础。在众多行业应用中,对物体、场景和动态交互环境的模拟,为从工业设计到数字孪生,再到机器人训练等无数关键商业用例提供了动力。
历史上充满了由空间智能扮演核心角色的、定义文明进程的时刻。
在古希腊,埃拉托色尼将光影转化为几何学——在太阳直射赛伊尼城的同一时刻,于亚历山大港测得7度的夹角——从而计算出地球的周长。
哈格里夫斯的「珍妮纺纱机」凭借一个空间洞见彻底改变了纺织业:将多个纺锤并排置于同一框架内,使得一名工人能同时纺织多根纱线,生产效率提升了八倍。
沃森和克里克通过亲手搭建3D分子模型发现了DNA的结构,他们不断摆弄金属板和金属丝,直至碱基对的空间排列「咔哒」一声完美契合。
在每一个案例中,当科学家和发明家需要操控物体、构想结构、推理物理空间时,空间智能都推动了文明的进步——而这些,都非文字所能单独承载。
空间智能是我们认知赖以构建的基石。无论我们是被动观察还是主动创造,它都在发挥作用。它驱动着我们的推理与规划,即便是面对最抽象的议题。
它对于我们互动的方式——无论是口头还是肢体,与同伴还是与环境本身——都至关重要。
虽然我们大多数人并非每天都能像埃拉托色尼那样揭示新的宇宙真理,但我们日常的思考方式与他并无二致——通过感官感知复杂的世界,再利用一种对物理、空间运作方式的直观理解来赋予其意义。
不幸的是,今天的AI还不能这样思考。
过去几年确实取得了巨大进步。多模态大语言模型(MLLM)除了文本数据外,还用大量的多媒体数据进行训练,引入了一些基本的空间意识,今天的AI可以分析图片、回答关于图片的问题,并生成超逼真的图像和短视频。
通过传感器和触觉技术的突破,我们最先进的机器人可以在高度受限的环境中开始操纵物体和工具。
然而,坦率的真相是,AI的空间能力仍远未达到人类水平,其局限性很快便会暴露无遗。
在估算距离、方向和尺寸,或通过从新角度生成图像来进行物体的「心理旋转」等任务上,最先进的MLLM模型的表现鲜有超过随机猜测的。它们无法走出迷宫、识别捷径或预测基本的物理现象。AI生成的视频——尽管初露锋芒,且的确酷炫——通常在几秒钟后便会失去连贯性。
虽然当前最先进的AI在阅读、写作、研究和数据模式识别方面表现出色,但这些模型在表征或与物理世界互动时,却存在根本性的局限。
我们对世界的看法是整体性的——不仅仅是眼前所见,还包括万物在空间上的相互关联、其意义以及其重要性。通过想象、推理、创造和互动——而不仅是描述——来理解这一切,正是空间智能的力量所在。
若无此能力,AI便与它试图理解的物理现实脱节。它将无法有效地驾驶我们的汽车,引导家中的机器人或医院的护理机器人,也无法为学习和娱乐开启全新的沉浸式互动体验,更无法加速材料科学和医学领域的探索发现。
哲学家维特根斯坦曾写道:「我语言的极限,意味着我世界的极限。」我不是哲学家,但我深知,至少对AI而言,世界远不止于文字。
空间智能代表了超越语言的前沿——它是一种将想象、感知与行动融会贯通的能力,为机器真正提升人类生活开启了无限可能,从医疗健康到创意挥洒,从科学探索到日常辅助。
AI的下一个十年:
构建真正具备空间智能的机器
那么,我们该如何构建具备空间智能的AI?
如何才能打造出能够像埃拉托色尼一样洞察深远、像工业设计师一样精雕细琢、像故事讲述家一样天马行空,并像急救人员一样敏捷自如地与环境互动的模型?
构建具备空间智能的AI需要比大语言模型更为宏大的构想:世界模型。
这是一种新型的生成模型,其理解、推理、生成以及与语义、物理、几何和动态上都极为复杂的虚拟或真实世界进行互动的能力,远非今日的LLM所能企及。
不过,这一领域尚处萌芽阶段,当前方法涵盖了从抽象推理模型到视频生成系统的各种探索。
World Labs正是基于这一信念于2024年初创立的:基础方法尚在建立之中,而这将成为未来十年的决定性挑战。
在这个新兴领域,最重要的是确立指导发展的基本原则。对于空间智能,我通过三大核心能力来定义世界模型:
1. 生成式:世界模型能生成在感知、几何和物理层面保持一致的世界
能解锁空间理解与推理能力的世界模型,也必须能生成属于自己的模拟世界。
它们必须能够生成无穷无尽、千变万化的模拟世界,这些世界遵循语义或感知指令,同时在几何、物理和动态层面保持一致性——无论其表征的是真实空间还是虚拟空间。
研究界正在积极探索,这些世界固有的几何结构应该被隐式表征还是显式表征。
此外,我相信,除了强大的潜在表征,一个通用的世界模型的输出还必须能为众多不同的用例生成一个显式的、可观察的世界状态。
尤其重要的是,它对当前状态的理解必须与其过去——即导致当前状态的先前世界状态——连贯地联系在一起。
2. 多模态:世界模型在设计上是多模态的
正如动物与人类一样,世界模型应该能够处理多种形式的输入——在生成式AI领域,这被称为「提示词」。
在给定部分信息——无论是图像、视频、深度图、文本指令、手势还是动作——的情况下,世界模型应能预测或生成尽可能完整的世界状态。
这要求它既能以真实视觉的保真度处理视觉输入,又能同样自如地解读语义指令。
这使得智能体和人类都能通过多样化的输入与模型与世界进行交流,并反过来接收多样化的输出。
3. 互动性:世界模型能根据输入的动作输出下一个状态
最后,如果动作和/或目标是给予世界模型的提示词的一部分,那么其输出必须包含世界的下一个状态,无论是隐式还是显式表征。
当仅给定一个动作(无论是否包含目标状态)作为输入时,世界模型产生的输出必须与世界先前的状态、任何预设的目标状态、其语义含义、物理定律以及动态行为保持一致。
随着具备空间智能的世界模型在推理和生成能力上变得日益强大和稳健,可以想见,在给定目标的情况下,世界模型本身将不仅能预测世界的下一个状态,甚至还能基于新状态预测出下一步的动作。
这项挑战的广度与深度,超越了AI以往所面对的任何课题。
语言是人类认知中纯粹的生成现象,而世界则遵循着远为复杂的规则。
例如,在地球上,引力支配运动,原子结构决定光如何产生色彩与亮度,无数物理定律约束着每一次互动。即便是最天马行空的创意世界,也由遵循其自身物理定律和动态行为的空间物体与智能体构成。
要将这一切——语义、几何、动态与物理——持续一致地调和起来,需要全新的方法论。表征一个世界的维度,远比像语言这样的一维、顺序信号复杂得多。
要实现能提供如人类般通用能力的世界模型,需要克服若干严峻的技术壁垒。在World Labs,我们的研究团队正致力于朝此目标取得根本性的进展。
以下是我们当前研究课题的一些示例。
· 一种新的、通用的训练任务函数:
定义一个像LLM中「预测下一个token」一样简洁而优雅的通用任务函数,长久以来都是世界模型研究的核心目标。由于其输入和输出空间的复杂性,这种函数的构建本质上更加困难。
尽管仍有待探索,但这个目标函数及相应的表征必须能反映几何与物理定律,尊重世界模型作为想象与现实之根基表征的本质。
· 大规模训练数据:
训练世界模型需要比文本整理复杂得多的数据。好消息是:海量的数据源业已存在。
互联网规模的图像和视频集是丰富且易于获取的训练材料——挑战在于开发能够从这些二维图像或视频帧信号(即RGB)中提取更深层次空间信息的算法。
过去十年的研究已证明了语言模型中数据量与模型大小之间的「规模定律」的力量;世界模型的关键突破在于构建能够以相当规模利用现有视觉数据的架构。
此外,我绝不会低估高质量合成数据以及深度、触觉信息等额外模态的力量。它们在训练过程的关键阶段对互联网规模的数据形成了重要补充。
但前路漫漫,这有赖于更好的传感器系统、更稳健的信号提取算法以及远为强大的神经模拟方法。
· 新的模型架构与表征学习:
世界模型的研究将不可避免地推动模型架构与学习算法的进步,尤其是在当前MLLM和视频扩散范式之外。
这两种范式通常将数据「token化」为一维或二维序列,这使得一些简单的空间任务变得异常困难——例如,计算一个短视频中不重复的椅子数量,或者记住一个小时前房间的样貌。
替代性架构或可助一臂之力,例如具备三维或四维感知能力的token化、上下文和记忆方法。
例如,在World Labs,我们近期关于一个名为RTFM的实时生成性帧基模型的工作就展示了这种转变,它使用基于空间的帧作为一种空间记忆形式,以实现高效的实时生成,同时在生成的世界中保持持久性。
显然,在我们能够通过世界建模完全解锁空间智能之前,仍面临着艰巨的挑战。这项研究不仅是一次理论演练,它是一类新型创意与生产力工具的核心引擎。而World Labs内部的进展令人鼓舞。
我们最近向少数用户展示了Marble的一瞥——这是首个能够通过多模态输入提示,来生成并维持一致三维环境的世界模型,供用户和故事讲述者在其创意工作流中进行探索、互动和进一步构建。我们正努力使其尽快向公众开放!
Marble只是我们创造真正具备空间智能的世界模型的第一步。随着进展加速,研究人员、工程师、用户和商界领袖都开始认识到其非凡的潜力。
下一代世界模型将使机器能够在全新层面上实现空间智能——这一成就将解锁当今AI系统中仍然普遍缺失的核心能力。
用世界模型为人类构建一个更美好的世界
是什么在激励AI的发展?这一点至关重要。
作为协助开启现代AI时代的科学家之一,我的动机始终明确:AI必须增强人类的能力,而非取而代之。
多年来,我一直致力于使AI的开发、部署和治理与人类的需求相契合。
如今,关于技术乌托邦和末日论的极端叙事甚嚣尘上,但我始终持有一种更务实的观点:AI由人开发,为人所用,由人治理。
它必须始终尊重人的能动性与尊严。它的魔力在于扩展我们的能力,让我们更有创造力、联系更紧密、效率更高、生活更充实。
空间智能正是这一愿景的体现——AI赋能人类的创作者、照护者、科学家和梦想家,去实现曾经的不可能。这一信念,是我将空间智能作为AI下一个伟大前沿并为之奋斗的动力。
空间智能的应用横跨不同的时间尺度。创意工具正不断涌现——World Labs的Marble项目已经将这些能力交到了创作者和故事讲述者的手中。
随着我们不断完善感知与行动之间的闭环,机器人技术将是雄心勃勃的中期目标。而最具变革性的科学应用虽然需要更长时间,但有望对人类的福祉产生深远影响。
在所有这些时间尺度上,有几个领域因其重塑人类能力的潜力而格外突出。这需要巨大的集体努力,远非一个团队或一家公司所能实现。
具体来说,它需要整个AI生态系统的参与——研究人员、创新者、企业家、公司,乃至政策制定者——共同为实现一个共享的愿景而努力。
但这个愿景值得我们去追求。以下是这个未来所蕴含的图景:
创造力:为故事叙述和沉浸式体验注入超凡动力
「创造力是智力在享受乐趣。」这是我最喜欢的 爱因斯坦名言之一。
早在书面语言出现之前,人类就已开始讲述故事——将其描绘于洞穴岩壁,代代相传,在共同的叙事之上建立起整个文化。
故事是我们理解世界、跨越时空建立联系、探索人性意义的方式,最重要的是,在生活中找到意义,在内心发现爱。
今天,空间智能有潜力改变我们创造和体验叙事的方式,既尊重其根本的重要性,又将其影响力从娱乐延伸至教育,从设计延伸至建筑。
World Labs的Marble平台将把前所未有的空间能力和编辑可控性交到电影制作人、游戏设计师、建筑师和各类故事讲述者的手中,让他们能够快速创造和迭代完全可探索的三维世界,而无需传统三维设计软件的沉重负担。
创造行为本身依然如故,充满人性的活力;AI工具只是放大和加速了创作者所能达成的成就。这包括:
新维度的叙事体验:电影制作人和游戏设计师正使用Marble凭空创造出整个世界,不受预算或地理位置的限制,探索在传统制作流程中难以企及的各种场景和视角。
随着不同形式的媒体与娱乐之间的界限日益模糊,我们正在接近一种全新的互动体验,它融合了艺术、模拟与游戏——个性化的世界,其中任何人,而不仅是工作室,都可以创造并沉浸在自己的故事中。
随着将概念和故事板转化为完整体验的更新、更快捷的方式的出现,叙事将不再局限于单一媒介,创作者可以自由地在无数的界面和平台上构建具有共同主线的大千世界。
通过设计的空间叙事:几乎每一个制造的物体或建造的空间,在其实体化之前都必须在虚拟三维环境中进行设计。
这个过程在时间和金钱上都高度迭代且成本高昂。有了具备空间智能的模型,建筑师可以快速构想结构,而无需投入数月时间进行设计,他们可以在尚未存在的空间中漫步——这本质上是在讲述我们未来可能如何生活、工作和聚集的故事。
工业设计师和时装设计师可以瞬间将想象转化为形态,探索物体如何与人体和空间互动。
新的沉浸式和互动体验:体验本身是我们作为一个物种创造意义的最深层方式之一。
在整个人类历史中,只有一个单一的三维世界:我们共同生活的物理世界。仅在近几十年,通过游戏和早期的虚拟现实(VR),我们才开始一窥我们自己创造的替代世界是何种滋味。
现在,空间智能与新的设备形态(如VR和扩展现实(XR)头显及沉浸式显示器)相结合,以前所未有的方式提升了这些体验。
我们正在接近一个未来,届时,步入一个完全实现的多维世界将像翻开一本书一样自然。
空间智能让世界构建不再是拥有专业制作团队的工作室的专利,而是个人创作者、教育工作者以及任何有愿景希望分享的人都能触及的能力。
机器人技术:具身智能在行动
从昆虫到人类,动物都依赖空间智能来理解、导航并与它们的世界互动。机器人也不例外。
自诞生之日起,具备空间意识的机器就一直是该领域的梦想,这其中也包括我与我在斯坦福研究实验室的学生及合作者们的工作。
这也是为何我如此兴奋,期待能用World Labs正在构建的这类模型将这一梦想变为现实。
通过世界模型规模化机器人学习:机器人学习的进展取决于一个可扩展的、可行的训练数据解决方案。
考虑到机器人必须学习去理解、推理、规划和互动的状态空间极其庞大,许多人推测,需要结合互联网数据、合成模拟以及对真实世界人类演示的捕捉,才能真正创造出具备泛化能力的机器人。
但与语言模型不同,当今的机器人研究缺乏训练数据。世界模型将在此扮演决定性角色。
随着它们在感知保真度和计算效率上的提升,世界模型的输出可以迅速弥合模拟与现实之间的鸿沟。这反过来将有助于在无数的状态、互动和环境模拟中训练机器人。
伴侣与协作者:机器人作为人类的协作者——无论是在实验室工作台上协助科学家,还是在家中帮助独居老人——都可以在急需更多劳动力和生产力的领域扩展我们的劳动力。
但这需要具备感知、推理、规划和行动的空间智能,同时——这是最重要的——与人类的目标和行为保持共情式的对齐。
例如,一个实验室机器人可以处理仪器,让科学家能专注于需要精细操作或推理的任务;而一个家庭助理则可以帮助一位老年人做饭,而不会削弱他们的乐趣或自主性。
能够预测下一个状态,甚至可能预测出符合这种期望的下一步动作的、真正具备空间智能的世界模型,对于实现这一目标至关重要。
扩展具身形式:人形机器人在我们为自己构建的世界中扮演着一定角色。
但创新的全部益处将来自更多样化的设计:输送药物的纳米机器人、在狭小空间中穿行的软体机器人,以及为深海或外太空打造的机器。
无论其形态如何,未来的空间智能模型都必须整合这些机器人所处的环境以及它们自身的具身感知与运动。但开发这些机器人的一个关键挑战是,在这些五花八门的具身形态上缺乏训练数据。
世界模型将在模拟数据、训练环境和基准测试任务等方面为这些努力发挥关键作用。
更长远的图景:科学、医疗与教育
除了创意和机器人应用,空间智能的深远影响还将延伸至那些能以拯救生命、加速发现的方式增强人类能力的领域。
我下面重点介绍三个可能带来深刻变革的应用领域,当然,空间智能的用例在更多行业中同样是广阔无垠的。
在科学研究中,具备空间智能的系统可以模拟实验、并行测试假设,并探索人类无法触及的环境——从深邃的海洋到遥远的行星。
这项技术可以改变气候科学和材料研究等领域的计算建模。通过将多维模拟与真实世界的数据收集相结合,这些工具可以降低计算门槛,扩展每个实验室所能观察和理解的范围。
在医疗健康领域,空间智能将重塑从实验室到病床边的每一个环节。在斯坦福,我的学生和合作者多年来一直与医院、养老院以及居家患者合作。
这段经历让我坚信空间智能在此处的变革潜力。AI可以通过在多维空间中建模分子相互作用来加速药物发现,通过帮助放射科医生在医学影像中识别模式来提升诊断水平,并能实现环境监测系统,在不取代治愈所必需的人类情感联结的前提下,为患者和照护者提供支持。
更不用说机器人在众多不同场景下帮助我们的医护人员和患者的巨大潜力。
在教育领域,空间智能可以实现沉浸式学习,使抽象或复杂的概念变得触手可及,并创造出对我们大脑和身体学习方式至关重要的迭代式体验。
在AI时代,更快、更有效的学习和技能再培训对于学龄儿童和成年人都尤为重要。学生可以在多维空间中探索细胞的运作机制或亲历历史事件。教师可以利用互动环境获得个性化教学的工具。
从外科医生到工程师的专业人士,都可以在逼真的模拟中安全地练习复杂技能。
在所有这些领域,可能性是无限的,但目标始终如一:AI增强人类的专业知识,加速人类的发现,并放大人类的关怀——而不是取代作为人类核心的判断力、创造力和同理心。
结论
过去十年见证了AI成为一种全球现象,以及技术、经济乃至地缘政治的转折点。
但作为一名研究者、教育者,如今又是一名创业者,最能激励我的,仍然是图灵75年前提出的那个问题背后的精神。
我依然怀有他那份好奇与惊叹。正是这种感觉,每天都激励着我迎接空间智能的挑战。
历史上第一次,我们有望构建出与物理世界如此协调的机器,以至于在我们面临的最严峻挑战中,可以将它们视为真正的伙伴。
无论是加速我们对实验室中疾病的理解,彻底改变我们讲述故事的方式,还是在我们因疾病、受伤或年老而最脆弱的时刻给予支持,我们都正处在一项新技术的风口浪尖,这项技术将提升我们最珍视的生活的方方面面。这
是一个更深刻、更丰富、更强大的生活愿景。
在大自然于远古动物身上释放出第一缕空间智能的近五亿年后,我们有幸成为可能很快就能赋予机器同样能力的这一代技术专家中的一员——并有幸利用这些能力为世界各地的人们谋福祉。
我们关于真正智能机器的梦想,没有空间智能是不完整的。
这项探索,就是指引我的北极星。我邀请你与我同行。
参考资料:
https://x.com/drfeifei/status/1987891210699379091
https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence
编辑:好困 桃子
本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。















