具身智能还需要一个「五年耐心」

极客公园·2025年09月17日 16:11
具身智能需五年耐心,数据瓶颈待仿真突破,特斯拉具优势。

上个月又飞了一趟硅谷,与具身智能领域的科学家和创业者们进行了一些交流。总结起来一个核心的体感是:具身智能这个宏大的故事,还需要我们有个「五年耐心」。这个判断,源于对它当下所处阶段、核心瓶颈以及未来演进路径的拆解。

火热的「产线故事」与冰冷的现实

具身智能赛道最热的毫无疑问是人形机器人。

而人形机器人进产线,是国内很多具身智能公司都在讲的故事和前景。但我和几位国内外不少具身智能领域的创始人深聊过,大家普遍的担忧是:拿一个尚不成熟的通用机器人,硬塞进一个以精准和效率为核心的工业产线里,这件事现在的挑战其实非常大。

机器人追求通用,就必须走出过去机械臂等「专用」的编程控制的技术路线,需要机器人有大脑和小脑,有自主的推理和控制。而把机器人做成「人形」,最大的好处也是为了「通用」人类已有的工具设施、社会环境和生产场景。但是今天机器人的大脑还没有发展到位,当前的技术即便可以做到「运动像人」(Motion like a human),但还远远做不到「决策像人」(Decision like a human)。机器人可以在受控环境下模仿出流畅、拟人的动作,但在面对真实世界的动态变化和意外情况时,其决策能力还非常脆弱。

这个时候的通用机器人,本质上是用「通用性」在交换「精准性」和「效率」,而由于生产线上的以精准和效率优先的机械臂早就批量应用了,所以远未成熟的人形机器人进产线,把「通用性」用到最需要高精准、高效率的场景中,多少是有些错位的。

基本可以断言的是,今天的通用机器人进入所有需要把「精准」、「效率」、「成本合算」作为底线的场景,挑战都非常大。很多时候创业公司宣传的落地某个场景大多是「展示性」、「实验性」,甚至「融资支撑性」的,并不真的是足够理性、市场化和算得过账的交易。

说得坦诚一些,在今天,具身智能中的通用机器人,特别是人形机器人能提供的核心价值,更像是一种「情绪价值」——用不断的能力进步,来引领社会共识期待,进而获得更多资源推动技术加速进步。

不能说这是没有意义的,就像 1960 年代阿波罗登月计划本质上就是一个在技术和商业上当时都「不合理」计划,也并没有很快带来商业化落地的价值。他的本质目标就是特定历史条件下的「情绪价值」。但其推动的资源汇聚,构建的人才和技术生态,对航天科技的发展意义重大,带来了几十年后航天领域的巨大商业价值。

具身智能领域,特别是人形机器人至少目前还更像一个不断成长的孩子。其每一点进步,都能点燃我们对未来的想象和信心。但问题是,「家长」要有正确的认知,即便一个孩子显示出了惊人的潜力和超预期的进步,长身体、见世面依旧是这个阶段的重心。这时候过早地就去考核其是否能扛起养家的重担可能就有问题了。如果「家长」把 Demo 里的信心,当成了商业部署的决心,过度透支它的未来,那很可能,对这个孩子的赞许就会变成批判。比如,到明年当很多「产线故事」无法兑现时,行业可能会迎来一定程度的顿挫。

那什么是可能正确的预期呢?通用机器人这个问题,或许我们可以用大语言模型(LLM)的发展做类比。我收集到的一个合理预期是,一到两年内,具身智能有望迎来它的「GPT-3.0 时刻」——是指在实验室环境下,圈内人将看到机器人的通用模型(大脑+小脑)明显的技术突破,并对主流技术路线达成共识,就像当年 GPT-3 诞生时给业内带来的震撼一样。

但从 3.0 到能让公众可以在一些需求上用起来的 3.5(Chatgpt),甚至到开始构建新的产业生态的 4.0,路还很长,可能还需要有个「五年耐心」。

迈向「GPT-3.0 时刻」的一个关键:能否将数据问题转化为算力问题

从当前这个「情绪价值」为主的阶段,迈向下一个让业内人士兴奋的技术突破阶段,也就是我们所说的「GPT-3.0 时刻」,核心要解决什么问题?

我听到的一些核心从业者认为,关键在于突破数据瓶颈。虽然模型路线尚未完全收敛,但因为模型架构的切换,可能就是几百行代码的事,一旦有人思路对了,其他人很快就能跟上,难以形成长久的壁垒。所以真正的鸿沟,在于如何获取规模化的、高质量的、多样性的数据。

具身智能领域的一种数据来源方式,是从现实世界中采集。由人类操作员像玩 VR 游戏一样进行遥操作(Teleoperation),或者通过示教来记录动作。

这种「现实数据」的生产,存在三个局限:其一,规模上不去;其二,成本下不来;其三更关键,多样性不够: 你只能采集你物理上能布置出来的场景。想让机器人练习一万次拿起桌角一个特定角度的苹果?在现实中几乎不可能。更不用说那些危险的、极端的「Corner Case」了。

这种数据困境,与另一个大规模的具身智能领域——自动驾驶,形成了鲜明对比。自动驾驶是目前唯一不存在「预训练数据瓶颈」的领域。每一辆在路上行驶的汽车,无论是否开启自动驾驶功能,其摄像头和传感器都在源源不断地采集着真实世界的驾驶数据。这使得车企能够以极低的边际成本,获得海量、多样且真实的预训练数据。而通用机器人领域则完全不具备这种优势,其数据获取的窘境也因此显得尤为突出。

正是这些局限,让数据成为了整个具身智能赛道最窄的那个瓶颈。

最近的全球不少团队正在面对这个问题推动一种范式转移:通过高精度的物理引擎,将「数据问题」有效地转化为一个「算力问题」。

在一个足够真实的模拟器里,你可以用代码,而不是人力,去创造无限的数据。想换个桌子材质?一行代码。想改变光照方向?一行代码。想让一个物体以微秒级的差异从不同角度掉落一万次?一个循环就够了。过去需要一个团队花几个月才能采集到的多样性数据,现在可能只需要一堆显卡跑一个晚上。

这就完成了从「手工生产」到自动化「数据工厂」的进化。数据不再是稀缺的、需要辛苦「采集」的资源,而是可以根据需求、由算力「生成」的工业品。这就是将「数据问题」转化为「算力问题」的核心内涵。

我听到的主流预期,是业内有机会在未来 1-2 年可能看到具备泛化能力的模型,并对主流技术路线达成共识,就像当年 GPT-3 诞生时给业内带来的震撼一样。这是从 0 到 1 的关键一步。

从「GPT-3.0」到「4.0」之间还是一条长路

从这个令业内人兴奋的 3.0 时刻,到能让公众安全、可靠使用的 4.0 阶段,才是五年耐心中最漫长的部分。这背后是具身智能独有的、残酷的物理约束:

首先,仿真的边界决定了它无法独自完成从 3.0 到 4.0 的跨越。 仿真数据不是万能灵药。一个业内普遍的共识是,仿真可以高效地解决模型从 0 到 90% 的问题,但最后那「从 90% 到 99.999%」的鸿沟,还是得靠真实世界的数据来填补。

仿真世界再逼真,也只是对现实世界的「近似」。它可以完美模拟牛顿定律,教会机器人这个世界的「物理学 101」,比如物体会下落、碰撞会反弹。靠着海量的仿真数据,机器人能建立起对世界运行规律的「通识」。但现实世界充满了仿真的「噩梦」——那些难以被数学公式精确描述的「长尾细节」。比如,一块软布是如何在桌角褶皱的?一个捏扁了的易拉罐,其表面的摩擦力和形变有多复杂?一滩水的反光和流动,又如何影响视觉判断?

仿真能解决 90% 能力的「广度」问题,像一个完美的驾校,教会机器人通用能力。但决定 100% 可靠性的,是那最后 10% 的「长尾细节」——那些仿真无法完美复刻的真实物理世界。这个「仿真到现实的差距」(Sim2Real Gap),必须靠真实数据来弥合。

因此,业界一个日趋清晰的理想路径是:用规模化的仿真数据,去构建机器人对物理世界的基础认知和通用能力(解决  90% 的问题);然后,用高价值的、聚焦特定场景的真实数据,去进行最终的「精调」(Fine-tuning),弥合「仿真到现实」的差距,解决那些最棘手的 Corner Case,攻克最后的 10%。

这也带来了第二个约束:具身智能的「试错成本」与「物理世界的回环速度」和大模型就不在一个量级。大模型可以在一秒内进行数千次「虚拟试错」并快速迭代。但机器人的一个「幻觉」——无论是错误的力控制还是路径规划——都可能导致任务失败、财产损失,甚至造成安全事故。每一次物理世界的试错,不仅成本高昂,更重要的是耗时漫长。一个动作执行需要几秒钟,一个任务序列可能需要几分钟。这种以秒甚至分钟为单位的「物理回环速度」,与数字世界以毫秒为单位的迭代速度相比,慢了数个数量级。

此外,LLM 从 3.0 进化到 4.0,一个关键步骤是引入了大规模的人类反馈(RLHF)。这依赖于软件可以被瞬间分发给数百万用户。但机器人要获得大规模、多样化的真实世界反馈数据,前提是必须先拥有大规模部署在真实环境中的机器人硬件。但要让市场接受大规模部署,机器人又必须先达到极高的可靠性和性价比。这个「先有硬件部署,还是先有成熟智能」的矛盾,是软件世界不存在的巨大商业和工程障碍。

现实世界还有更肥、更长的长尾。语言的长尾问题已经足够复杂,但物理世界的长尾问题,其复杂性上升是指数级的。例如,同一个「开门」任务,门的重量、把手的形状、阻尼的大小、甚至环境光线的微小变化,都可能导致模型失败。物理世界充满了连续、高维、且充满噪声的变量,这意味着其「极端案例」(Corner Case)的分布,远比文本世界要密集和致命。

回想一下自动驾驶,这个在相对受限场景下的「轮式具身智能」,即便拥有海量真实数据的加持,在解决了 99% 的问题后,至今仍在为了最后 1% 的长尾场景苦苦挣扎了近十年。而通用机器人的任务空间,需要与无数形态各异的物体进行物理交互,其复杂度远超仅在二维平面上的自动驾驶。

因此,「五年之约」并非一个随意的数字。它是一个基于上述物理约束、硬件瓶颈和商业现实的理性预期。我们需要至少一到两年,去迎接那个激动人心的「GPT-3.0 时刻」的到来;然后,我们还需要至少三到四年,用以硬件的逐步铺开、真实数据的漫长积累和对物理世界无尽长尾问题的艰苦攻克,才能真正迈向那个可靠、可用的「GPT-4.0 时代」。

所以,对这件事抱有五年甚至更长的耐心,是一个理性的预期。

谁能跑完这场马拉松?

具身智能是一条漫长且充满挑战的道路,什么样的参与者,才可能跑完全程?谁更有可能夺冠?

结合前面的分析,可以大致勾勒出终局玩家所必需的几个要素:

1.世界一流的 AI 团队:

能够通过高精度的物理引擎,将「数据问题」有效地转化为「算力问题」,加速达到 90% 的阶段。

2.海量的真实世界数据:

用以弥合 Sim2Real 的鸿沟,解决各类 Corner Case 的长尾问题,实现 90% 到 99% 的最后 10%。

3.顶级的工业制造能力:

用以破解硬件部署的悖论,能以可控的成本和可靠的品质,大规模生产并部署机器人「真身」到物理世界中。

4.雄厚的资本与坚定的信念:

用以忍受物理世界缓慢的回环速度,支撑长达数年甚至十年的高昂投入和不确定性。

当我们拿着这张清单去审视当下的所有玩家时,说起来有点俗,发现目前能同时集齐这四张王牌的,最突出的还是马斯克。他不仅拥有顶级的 AI 团队、雄厚的资本和几乎无人能及的个人信念,更关键的是,他在「数据闭环」和「工业制造」这两项上,已经展现了世界级的统治力,具有结构性优势,是最不容忽视的头部玩家。

当然,即便这是今天的现实,认识它也不是为了简单接受,我反而期待更多新的力量成为变量,颠覆这一套逻辑。未来还未被书写,新的历史从来也不是靠推理就能注定的。

本文来自微信公众号“张鹏科技商业观察”,作者:张鹏,36氪经授权发布。

+1
6

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

9 月 16 日,OpenAI 正式推出一款新模型 GPT-5-Codex ,这是一个经过微调的 GPT-5 变体,专门为其各种 AI 辅助编程工具而设计。

4小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业