同与异:具身智能的未来世界线(上)
嘉宾介绍
*姓氏首字母排序,不分先后
我们在聊
• 具身智能方向在学术界和工业界的共识和非共识是什么?
• 具身智能的实现路径是什么?
• 仿真到底能提供什么价值?未来会不会有一家公司真的能出一个大而全的仿真软件?
• 通用硬件的形态会是什么样子?硬件在具身智能发展的过程中扮演的是什么角色?
• 解耦是否意味着相同的大脑在不同的机器人形态上都可以应用?
• 不同形态的机器人,不同场景的数据,对于训练通用具身智能的帮助是什么?
• 对硬件有深入的积累和理解的团队,在具身智能创业中能带来的最大的优势是什么?
• 硬件出身的创业者会不会被惯有思维限制?
精彩观点
• 学术界的“共识”在于数据也是机器人 Scaling Law 的源泉,而“非共识”在于数据的来源
• 具身智能的实现路径,宏观来说是在任务上有不同的层级。层级的分解属于共识,包括 Figure、Tesla Optimus 等。中间层的任务执行规划是大家研究的核心问题
• 具身智能什么时候来,就看数据到底能被用得多好,以及获取数据的成本有多低
• 仿真不是一个 Scalable 的路线,人不可能写无限量的代码,使得它无限量地逼近现实。从仿真器里学到的知识的上限就是代码的长度
• 仿真的关键是要把它抽象到什么程度,或者要具体到什么程度,在仿真到现实应用实现闭环之前,甚至没人知道仿真环境应该具体到什么程度
• 软件加硬件的落地周期是远远长于纯软件,落地的具体形态还是受限于硬件的客观规律
• 合适的场景和合适的构型是强相关的,短期内很难有一个通用的形态
• 智能和硬件是解耦的
• 凡是牵扯到实体产品都与生产成本有关
• 需要知道当前硬件性能的边界在哪儿,才能找到真正的需求点和大批量落地的可能性
• 硬件背景创业路径惯性包括技术性的依赖和商业思维的依赖
绿洲:咱们请高老师开个头,在实现具身智能或者通用机器人方向上,目前学术前沿的共识和非共识有哪些?
高阳:我认为 共识是数据也是机器人 Scaling Law 的源泉,而非共识在于数据的来源。 有些 观点主张利用仿真生成数据,有些则主张采集远程操作的数据,有些认为要从互联网采集数据,还有人认为应该让机器人自行产生数据……不同的团队持有不同的观点。我个人更倾向于互联网数据和远程操作采集的数据,然后让机器人通过强化学习自行采集数据。我不是特别相信仿真等方式生成的数据。
绿洲:您 Vila(RoboticVision-Language Planning)的工作收到了 Figure CEO 的点赞,具身智能新框架 CoPa(Robotic Manipulation through Spatial Constraints of Parts)在精确规划与操作能力上也很惊艳,您觉得具身智能的实现路径和解决方案是怎样的呢?
高阳:具身智能的实现路径,我觉得宏观来说,应该是在任务上有不同的层级。比如要做个汉堡,需要分成十个步骤,拿出面包、做肉饼、放上肉饼、加上菜……这些步骤是第一层,叫任务分解;再往下是每个任务的具体执行,即中层级的任务轨迹规划,从自然语言具体化的命令,到具象化的机器人末端执行器的轨迹;最底层是传统机器人控制,执行轨迹。这个层级式的分解属于共识,包括 Figure、Tesla Optimus 等。这三层中,问题最大的是中间层,迄今为止没有特别好的解决方案,也是大家研究的核心问题。
我个人觉得解决方式应该是把所有的能用起来的数据都用起来,第一类就是互联网数据:譬如人类的视频,这些视频量非常巨大,包含了人类在现实中可能看到的各种场景。但这些数据没有那么好用,毕竟拍摄的目的不是为了服务机器人。
第二种数据来源是针对机器人去做的遥操作数据。最近发展特别快,比如说Mobile ALOHA ,宋舒然老师的 通用操作接口 UM I( 将技能从人类演示直接转移到可部署的机器人策略) ,以及李飞飞老师 的便携式手部动作捕捉系统 De xCap,这些都属于遥操作类别的技术。我觉得这些技术可能是最近最大的一个 game changer。
Mobile ALOHA 是一款由斯坦福符博士领导的华人团队研发的通用机器人
宋舒然团队 UMI ,照明环境发生剧烈变化也丝毫不受影响
李飞飞团队便携式手部动捕系统 DexCap
第三种数据来源更靠后期,当机器人已经有了较好的能力,在真实环境里去做任务,有自己的数据闭环,这种是最理想的数据源。
具身智能什么时候来,就看这些数据到底能被用得多好,以及获取数据的成本有多低。
绿洲:韩总,站在工业界的角度,共识和非共识是什么,您怎么思考这些问题呢?
韩峰涛:我觉得非共识是“该怎么走到终点”。从大逻辑上讲,软件加硬件的落地周期是远远长于纯软件的。涉及到硬件、涉及到交互就很难。我觉得可以简单地类比自动驾驶,你有一个自动驾驶软件,在模拟环境里开,别撞车、顺着车道走,相对 OK。一旦上真车,物理环境一变化,落地时间就很长了。我觉得落地的具体形态还是受限于硬件的客观规律。
现在问题在于,现在数据的很多问题只解决了一部分,得接着解决数据。如果说通用人工智能是 10 分,在聊天的层面刚刚及格,具身层面大概在 3-4 分。硬件如果按照纯通用的要求来衡量,可能是及格的水平,但是大家的期望是 10 分,所以仅仅及格的硬件很难具备完全的通用性,需要分场景。 而究竟是什么场景,这是非共识。走路、扫地、工厂、服务?这就回到路径依赖的问题了,原来做腿的研究腿、做上肢的研究上肢。之前没什么积累的,找到什么背景的团队做什么(笑)。
我觉得第一,合适的场景和合适的构型,是强相关的,短期内我觉得很难有一个通用的形态,但是未来肯定可以。第二要从原来用过机器人的场景去切入。之前的问题只是机器人的智能性不够,导致能用但效果不好。当然如果某个行业从来没用过机器人,那就不光是技术问题,还有成本问题、对机器人的接受度、环境是否合适等一系列问题。
刘琪:高老师,为什么您刚才说不信仿真呢?
高阳:主要的问题在于做仿真本身就很困难。比如说仿真瓶盖拧开的动作,非常麻烦。如果不去设置合适的材料刚度以及摩擦力,很可能就拧不开或者盖子直接飞到外太空。仿真很微妙,很多任务在仿真里能做到,但是如果为了“能做到”去专门建一个仿真,计算量可能是巨大的。在仿真环境里面做 contact reach 的操作不是特别适合。
韩峰涛: 仿真在传统机器人领域被广泛应用,因为机器人需要与物理世界进行交互。在 AI 领域仿真用得反而不多。譬如在自动驾驶等领域,虽然有些简单的,对建模精度不高的场景可以通过仿真来模拟,但对于需要高精度模型的密集物理交互等场景,仿真并不适用。换个角度,建一个仿真环境来模拟自动驾驶比创建一个通用机器人仿真环境要简单得多,但为什么自动驾驶现在大家不全用仿真,而选择实跑?所以仿真目前只是手段之一。
高阳:我还看过一个有趣的观点。大家都讲 Scaling Law,Scale 的是信息,仿真是人手写的代码,从代码表现出来的行为去学习新的信息,那么这类信息能不能 Scale?人写的代码的信息量能不能越来越大?由此产生了一个观点: 仿真不是一个 Scalable 的路线,因为人不可能写无限量的代码,使得它无限量地逼近现实。从仿真器里学到的知识的上限就是代码的长度, 这个观点还挺哲学的。
刘琪:我反驳一下,也存在通过一个简单的方程描述整个物理过程的情况?比如你描述液体的流动,就一个运动方程。
高阳:这个我同意, 减到最后就是几行量子力学方程。
冷哲:还是看仿真到底能提供什么价值?或者我们看现在哪些东西在用仿真。自动驾驶里面最常用的仿真之一,是车辆动力学仿真,它的价值在于这个场景足够复杂,无法判定采用某种设计会在这个场景里产生什么效果,因此用仿真去尝试。但是它不能代替现实实验,因为仿真做得再好,和现实环境还是有差异的。 流体力学有两个分支,实验流体力学和理论流体力学。理论流体力学希望从第一性原理出发,通过一套方程把流体的运动情况准确地计算出来,但现在在大部分情况下根本做不到。所以才有实验流体力学,它从实验测量着手,建立一些仅仅适用于特定条件的近似方程。这些近似方程有时无法用理论解释各个参数的含义或者方程的结构,但会告诉你这个东西大概会是什么样子。因为人类对客观世界的理解深度不够,所以对于复杂问题是没有办法非常准确地去仿真的。
目前刚体或者固体的仿真做得还不错。但在真实世界的物料,比如瓶盖,施加不同的力,它的变形不是线性的,而是三维的扭曲,甚至考虑到它的内部结构,可能是更高维度的变化。把这些变化都仿真出来,将是个非常恐怖的工作量。软件仿真不太可能不做一定的抽象。
我的看法是仿真关键的问题是要把它抽象到什么程度,或者要具体到什么程度。在仿真到现实应用实现闭环之前,甚至没人知道仿真环境应该具体到什么程度。未来会不会有一家公司真的能出一个大而全的仿真软件?我觉得近期是不现实的。好莱坞做头发特效,只要头发飘起来看着有点像真实情况就行,但真实环境中这么长、这么粗的头发,在风中运动,真的是这样的吗?不一定。但为了让大量的物品、材质达到“看着像”的效果,好莱坞已经投入了巨大的资源,发了无数的文章。想象一下,做一个从底层开始大而全的、高度贴近真实情况的仿真模型需要投入的资源,必然是一个更加恐怖的数字了。
当然,创业公司做这件事情能不能让投资人或者市场部分满意?有可能。如果在有限场景里做,譬如只操作某一类物品,避开不擅长的东西,是有可能的。
绿洲:刚才大家都聊了数据,市场上对硬件也有不同的声音,有些团队觉得一出来就应该是足够通用的硬件,比如人形。各位对通用硬件的形态怎么看呢?
韩峰涛:我觉得 智能和硬件是解耦的。健康的人和肢残人士的大脑是一样的,缺了胳膊就不用这个胳膊。 同样在生产线上,无论男女、高矮胖瘦,到了具体的任务大家都是用手抓。手的长短、力气大小,可能不影响最终完成任务,只是因为硬件能力不同,执行的效率不同。
冷哲:任何一个实体产品,都有成本的问题。一个足够通用的产品能够适应所有的场景,再加上通用智能,是不是就能适合所有应用?不是的。凡是牵扯到实体产品的,都要考虑生产成本。生产成本最后是要客户来买单的。我认为无论产品的形态如何,肯定要从具体的场景出发,先把智能机器人在一个具体场景下以某种专用的设计来落地,这才是关键。上来就做一个通用的设计,我觉得可能结果就是无论放在哪儿都不太经济。
而且通用设计的总研发成本一定是高于专用设计的。当然,理论上,通用设计也许在具体应用领域里面不需要太多的针对性的研发工作,那么它可以横跨多个应用领域,摊薄研发成本。这是专用设计做不到的。所以存在这么一种可能,就是当通用设计真的能通用于多个领域的时候,平摊后的研发成本反而会比专用设计低。这时,如果通用设计的研发成本优势可以抵消掉零部件成本的劣势,那么它也许会有总成本上的优势。但我觉得这个条件过于理想了,短时间内没有公司能做到这一点。
韩峰涛:做一个类比,Windows 操作系统很全面,还分专业版和企业版等等,但是大家用电脑的目的不一样,商用?玩家?长续航?轻薄?
孟鹏飞:我们认为硬件的最终形态一定是人形,其他形态可能意义不大。具体是不是完全能做到通用,要看后续持续获取资金去落地的能力。任何事情都要回到商业本质,如果做得特别高大上,始终落不了地,没有商业场景,也不行。类似的事情在历史上发生过太多次。
刘琪:虽然我觉得没有一个形态能够适用所有场景,但我认为人形会是一个主导性和更通用的形态。人形机器人可以更好地利用人的数据,人可以告诉机器如何操作、如何运动,能够解决生活中 90% 的场景。现在硬件也不贵,那为什么不做成人形呢?可以有不同的版本,比如轮式或者足式。如果用一个形态,能解决大部分的问题这是最好的,不需要去分散精力去做各种适配。
韩峰涛:大家在回答这个问题的时候往前看的时间节点不同,可能分近期和远期的情况。普适需求可能一个一米七的人形就可以了。但要去搬砖,肯定要更强壮一点。要下海捞鱼,需要长得像鱼可能才比较合适。
刘琪:我觉得形态设计出来是来取代人的,不是用来取代机器的,该有的机械设备还应该存在。我比较看好的是类似苹果手机的模式,持续优化一个形态就好。
绿洲:硬件在具身智能发展的过程中扮演的是什么角色?
韩峰涛:硬件是大脑的载体,如果不把硬件卖出去,大脑就没人用,数据转不起来。数据从哪来呢?刚才说数据,一部分数据会从硬件收集上来,只是说收集上来的数据,再把它转换成大脑技能的时候,要和硬件解耦。就像最开始特斯拉卖的是 Model3,但收集的数据可以用到其他车型上。
绿洲:是否在通用形态上积累的数据,未来才能够更好地去做映射?
高阳:我觉得绝大多数情况下是解耦的,比如猴子要喝水,也是拿个瓶,虽然它的关节和人类的不一样,但它拧瓶盖的运动是一致的。以物体为中心去看,它是一个通用的,跟执行机构关系不太大。所以我觉得对于物体来说它是通用的,但是对于特定的一个硬件形态,怎么抓握会有区别。即使是一个非人形的机器人,它也可以积攒非常多的数据,覆盖之后的全人形形态,可以有一些抽象的级别,使得它可以共享这个数据。
绿洲:不同形态的机器人,不同场景的数据,对于训练通用具身智能的帮助是什么呢?
高阳:不同形态,不同场景的数据能丰富具身智能训练的数据集,最终使得具身基座模型更加可泛化和鲁棒。但是具体我们能拿到哪些场景和形态的数据取决于商业化落地的顺序。我认为肯定是简单形态、简单场景会首先落地,那么这些数据就会最先被具身大模型利用起来,而后会落地形态、场景更加复杂的机器人。届时这些数据就会继续被利用起来训练具身大模型。这会是一个渐进式的过程。
绿洲:我们听说 Physical Intelligence 也在探索不同具身形态的 robotics foundation model, 解耦是否意味着相同的大脑在不同的机器人形态上都可以应用?
注:Physical Intelligence 成立于 2024 年 3 月,由 Sergey Levine 创立,首轮获 OpenAI、Thrive Capital、Sequoia Capital 等机构 7000 万美金的投资,致力于开发基础模型和学习算法,创建一种通用的机器人系统
高阳:这件事情在学术上的确还在探索。但是就大部分场景而言,比如拿一个水杯,我们不关心底盘是轮式还是双足,机器人形态可能有千万种,但核心要解决的那件事情其实是类似的,可能最大的区别在于二指夹爪还是五指夹爪,夹取的方式不同。无论二指还是五指,抓住了之后,就变成了一个整体的刚体了。目前学术界研究问题的出发点,是从人类的数据里面去学到东西,map 到机器人上。大家发现如果能比较精确地从人类那获取数据,那 map 的过程就没有那么复杂,尤其假设你的下游是一个五指,就可以做得很好,最大的难度可能就是五指和二指的区别。
绿洲:对硬件有深入的积累和理解的团队,在具身智能创业中能带来的最大的优势是什么?
韩峰涛:需要知道当前硬件性能的边界在哪,这样才能找到真正的需求点和大批量落地的可能性。如果没做过硬件,不知道硬件在干什么,也不知道硬件下一步突破的地方在哪,就找不到硬件和实际需求的结合点到底哪儿。即便做出硬件,也很难卖出去、很难用得好。要么成本高,要么已经有更好的解决方案。
绿洲:做硬件的人会不会因为存在一些惯有思维,反而对创业有影响?
韩峰涛:因人而异。但我觉得最有可能的惯性思维是路径依赖。比方说有的人原来做胳膊,就不去做腿,或者觉得机器人就应该是个高大上的东西,造个人形机器就得卖 50 万、100 万,但是真的能上量的机器人可能就 2-3 千元。这种路径惯性包括技术性的依赖和商业思维的依赖。有很多人会觉得研究技术这么久、这么深,让我做扫地机器人我不去。但从商业上看,可能第一个能成功应用的场景就是扫地机器人。
绿洲:大家觉得现在什么方向的发展或者突破,对于通往具身智能的路是有极大帮助的呢?
韩峰涛:其实主要的卡点还是在 AI 上,或者叫通用智能上。这波 AI 的进步,一个就是泛化能力变强、通用能力变强;另一个是智能化水平。原来是每一个小模型在垂直领域里做到比较好的效果,现在变成在很多领域里效果都还不错的大模型。机器人是一个非常典型的硬件和软件分步迭代的东西。现状是机器人的硬件水平远高于软件,当软件再发展到新阶段,发现硬件的功能不够了,比如触觉、灵活度等,硬件会进一步迭代。两者在未来很长一段时间内都是更迭发展,能找到好的结合点就能做得好。
冷哲:我感觉很多做具身智能的公司没太想清楚落地场景应该是什么,带来的问题是不知道做出来的硬件应该是什么样子。产品的成本往往会对产品的单元经济模型产生决定性的影响。每一个产品的成本,包括软件、硬件、调试、数据学习等,其中实体零部件的成本占一大块。对这块成本的准确评估,是我觉得韩总之前提到硬件出身的团队的一个很关键的优势。
现在做机器人目的是要替代人做的事情,天然就有两个竞品——人类、专机(非标自动化设备)。 如果单位成本比人要高,或者比专机高,那肯定是落不了地的。所以从一开始就需要考虑成本。整个 AI 系统的成本的确是可以摊薄的,但如果硬件(机械、电路等)本身的成本很高,高过“竞品”,无论以后怎么摊薄,成本都是不可能被接受的。
韩峰涛:我们团队硬件有很大优势的,但客观来讲这只是一个先发优势,要想做好,肯定是强 AI、强硬件、强落地兼备。如果有一个团队,本来强 AI、没有硬件,但通过公司慢慢发展,招了一个牛的人过来也是可以的。
高阳:我很关注数据。我们刚才讲有各种各样的数据源,到底如何极致地去利用每一种数据源,到底该如何排数据源的优先级,使得具身智能的大模型能够去满足 Scaling Law 的数据的需求。其他比如具身智能的大模型到底是怎样输入、输出的格式?到底是一个 RGB 还是 RGB-D,怎么在工程上有一个比较好的取舍,又便宜又快速能够上数据量?我最近主要就在关注这些问题,以及背后需要的一系列模仿学习和强化学习的算法。我认为具身智能的 Scaling Law 本质是数据的 Scaling。那么求解这个问题的核心就是如何尽可能地让数据更可 Scale。有多重数据源,每种数据源有不同的性质,技术上就需要确定好各个数据源的优先级,而后按照次序去从技术上把每种数据的 Scaling 做好。
(未完待续)
本文来自微信公众号“緑洲资本 Vitalbridge”(ID:Vitalbridge),作者:参赞生命力,36氪经授权发布。















