8位具身智能顶流聊起“非共识”:数据、世界模型、花钱之道

富充·2025年11月24日 08:54
即便在国内顶尖从业者之间,非共识依然存在。不同的回答折射出每位创业者心目中的“第一性原理”与战略重心。

文|富充

编辑|苏建勋

“如果给你的企业100亿元来推进具身智能的发展,这笔钱你会怎么花?”

在11月20日举行的2025智源具身Open Day圆桌论坛上,主持人抛出了这样一个开放性问题。

面对这个问题的嘉宾,来自8家国内具身行业的顶流企业机构:

智源研究院院长王仲远

智元机器人合伙人、首席科学家罗剑岚

北京大学助理教授、银河通用创始人王鹤

清华大学交叉信息学院助理教授、星海图联合创始人赵行

加速进化创始人兼CEO程昊

自变量创始人兼CEO王潜

招商局集团AI首席科学家张家兴

中国科学院大学教授赵冬斌

“我觉得100亿元不太够。”加速进化创始人兼CEO程昊笑着回应道,观众席也发出默契的笑声,“如果只有100亿,应该会找更多朋友一起推动具身行业。比如把钱投到智源研究院。”

智元机器人合伙人罗剑岚倾向于用这笔钱解决当前的数据瓶颈:“我会去构建世界上最大的自我进化、自我闭环的数据飞轮。100亿元可以说很多,也可以说不多,但是第一个用100亿去做这个事情的人和机构还不存在。”

除了“怎么花钱”,8位嘉宾还讨论了世界模型等业内关注的话题,也对当下主流采用的VLA范式提出了反思和改进思路。

为增强观点间的碰撞,本次圆桌论坛上设置了一个有趣的“举牌表态”环节:嘉宾需要通过举起1、2、3号牌,表达同意、中立或不同意。

从举牌结果来看,即便在国内顶尖从业者之间,非共识依然存在。分歧最为明显的,是“数据稀缺”问题的解法。

星海图联合创始人赵行和招商局集团AI首席科学家张家兴,主张真实物理世界数据的重要性;银河通用创始人王鹤则强调,在真实数据难以采集的地方,合成数据将发挥重要作用。

自变量创始人兼CEO王潜认为可以使用融合的数据,但要根据不同的任务选取合适的数据来源。

如何选取和组合数据才能实现量变到质变的飞跃?不同的回答折射出每位创业者心目中的“第一性原理”与战略重心。

以下是《智能涌现》从论坛中选取的精彩内容,对话经作者整理:

△2025智源具身Open Day“具身模型会客厅”圆桌论坛,图源:智源研究院

主持人:大家认为,世界模型会是具身智能的关键技术吗?

王鹤(同意):我只能说这取决于对世界模型的定义。经过Sora等一系列视频生成模型的加工以后,世界模型原本在强化学习里的定义已经变得越来越模糊了。

当前一个主流思路是,让机器人通过人类行为的视频来学习。但这里存在一个根本问题:机器人的身体结构与人类差异巨大——无论是轮式底盘还是双臂,其灵巧度和活动空间都与人不同。

因此,即便模型能生成逼真的人类动作,这类数据对机器人的实际帮助也相当有限。

然而,放眼未来,预测能力对具身智能而言不可或缺。机器人必须要能像人一样,根据未来的目标,推理出当前应执行的动作,进行动作的规划。

所以结论是:世界模型所代表的预测能力是核心,但它的训练数据必须来自机器人自身。只有通过大量机器人数据,我们才能训练出真正适用于机器人的、有效的世界模型。

王仲远(同意):世界模型对具身智能来讲肯定是有作用,但它并不一定是具身智能必须的一个基座。

我们所理解的世界模型,不仅仅是一个视频的生成。视频生成的时候,固然也产生了下一帧的画面,但人类实际上需要的是世界模型可以基于前续的时空状态,去预测下一个时空状态。

就比如说刚才我要回答的时候,我需要基于主持人提问,可能会基于王鹤老师的回答,来组织我的答案,并做出拿起话筒的决策。

主持人:在通用大模型领域,Transformer这样的统一架构催生了ChatGPT的爆发,但具身智能的模型并没有进入到“一个大模型打天下”的局面,目前有分层的具身大模型、有端到端的VLA、有世界模型等等。

大家认为,具身智能模型最终会收敛到由某个统一架构主导吗?

张家兴(中立):我认为具身智能真想走向明天的话,模型层面其实并不能沿着过去三年LLM到VLM的这条路走下去。具身智能需要一个完全属于自己的架构。

就像人的智能,是先有了动作,然后再有了视觉,最后才有了语言。VLA结构是在这个视觉跟动作之间夹了一个语言,其实这个并不符合我们真正的人类的我们操作的这个本质。

比如我们开车的时候,可以一边聊天,一边听东西,一边看路。(语言没有参与开车这件事情本身)这说明Vison跟Action是打通的,并不需要Language一定在参与。

现在一些头部团队,尤其是硅谷的一些头部团队,正在做新的多模态大模型架构。在这个架构下,原来Language First的状态,将有可能变成Vision First或者是Vision Action First,这是值得我们期待的一个突破。

赵行(同意):我非常同意我们需要一个平行于大语言模型的基础模型。

这个基础模型更大概率是一个Large Action Model,然后这个Large Action Model又依赖于视觉,因为视觉是世界上最通用的感知传感器信息。在此之上,我们再去加入语言。

这和生物进化的规律是蛮像的。这个世界上先有了能运动的动物,然后他们有了视觉,最后出现了人类这种高智慧的生物。

然后我再多说一句,我觉得具身的模型和大语言模型需要有一个特别不一样的地方,就是我希望它会是一个闭环模型。

大语言模型更多的还是一个开环模型。也就是说,大语言模型是一问一答:你告诉它问题,然后让它给出答案,中间它自己会有一些思维链,如果答对了就结束了。

但是具身智能不一样,具身智能不是经过一系列的思考然后做一个动作,而是在做一个动作以后立刻得到了一个世界的反馈,然后立刻调整我自己的动作再去做下一个动作。

罗剑岚(同意):我觉得现在具身智能最终会被一个一体的系统去解决,这个系统里面包括VLA、世界模型、强化学习,而不是靠一个单一的模型。

这里解释一下,我非常同意刚才张家兴说,现在这个VLA可能不是一个最终范式,但我觉得它未来还是有Vision的,也是有Language的,也是有Action的。也就是说VLA这个大趋势是对的,但是并不见得长成现在这个样子,所以我还用VLA这个词。

同时,它也需要有一个世界模型,能够反思,能够做预测,能够在Latent Space(潜在空间)上做Imagination(想象)。当然这个系统里还需要强化学习。

这些要素共同组合以后,再配合真实世界里的数据飞轮,具身智能就可以不断自我进化,持续学习。

王仲远(同意):首先智源研究院肯定相信,从终极状态来看,一定要有一个相对统一架构的模型来解决具身智能里的各种问题。这也是我们布局多模态世界模型的一个很重要的原因。

当然,这所需要的数据量显然是要非常非常大的,甚至我觉得都不一定是三年、五年就能够完全出现。

更好的具身大模型,可能要等大量机器人在真实场景中解决具体问题、累积出“具身智能互联网”级别的数据之后,才会出现。

王鹤(同意):我觉得从架构的角度上讲,我们今天所说的Transformer作为一个跨模态的Attention机制,是很通用的。比如你发现它吞吐文模态、视频模态、声音模态都是可以的。

不过,今天具身的问题是,我们人有眼、耳、口、鼻、舌,这么多“觉”,虽然从Attention的角度,把这些“觉”Token化以后都能放到Transformer里,但是它在输出上好像不是那么的对。

所以如果我们把这些问题慢慢解决,架构上我觉得未来是可以有一个很统一的范式的。

但我觉得对于当下来说,更长效的的挑战是数据。我非常认同仲远博士刚刚讲的,今天不论是视频生成的模型,还是对话模型,它本质都是非常天量的互联网大数据。

那么当下我们要想去研究出一个Action First的模型,其问题在于现在地球上的人形机器人居民太少。这样少的一个数量,不足以撑起探索出一个Action First的架构和模型。

所以我的看法是,短期内我们要靠合成数据来摸索这个方向,它会比用真实数据更快。先用这种方法让具身智能的能力点增长,然后它的人口才能增长,才能孕育出一个真正非常Powerful的大模型。

程昊(同意):我们因为做运控多一些,所以更多从机器人运控视角上思考具身智能模型。

我们希望能有一个具身模型,它能基于需求,基于环境,时刻输出未来100帧的动作。我们脑补一下,这可能是一个机器人运动的动画。

这个模型一旦跑通的话,整个具身智能就会非常好落地了。

为什么我们会比较关注世界模型?因为这里面一个挺核心的点,就是世界模型会预测接下来到底会发生什么,这既包括机器人本体主动地想做什么,还有就是这个事件会发生什么。

比如做饭就是一个非常难的事情,但可以先用一些分层的方法让机器人先落地:先拿个快递、拿个箱子,这些就是比较简单的事情。

不过这确实很有挑战,实现起来比较远。所以我们中间会觉得可能先用一些分层的方法,先做一些Agent,先落地。

就像刚才王鹤老师说的,只要一落地,机器人公民一定会增多。因为落地就会创造价值,然后大家就都有动力、有钱、有意愿去造非常多的机器人公民,然后采集大量数据。

然后这些数据回来,我觉得会反哺整个具身智能大模型的开发。

王潜(同意):我觉得问题中Transformer这个说法稍微有一点点误导。今天我们即使语言模型里面,也不一定都用Transformer的架构。

当然我理解这个问题是在讨论我们会不会有一整套完善的,类似于当年GPT的一个完整的基础模型。从这个角度上来,我觉得还是有的。

我们能从语言模型身上学到两件特别重要的事。

第一是数据很重要,但不是简单的“越多越好”。在语言模型时代我们已经看到,单纯堆数据规模未必带来最好效果,高质量、高效率的数据才是决定性因素。

所以虽然我们也做合成数据,但现在仍然以物理世界的真实数据为主,因为我们认为在具身场景里,数据质量比数据总量更能拉开一个量级上的差距。

第二是 要做Foundation Model(基础模型) 。我认为必须要有一套物理世界的基础模型,它平行于或者是独立于虚拟世界。

原因在于,虚拟世界和物理世界的特性差异太大。物理世界中摩擦、接触、碰撞等精细物理过程,本身很难用语言或传统合成数据准确描绘。所以最终我们需要的是一个直接在物理世界上学习的基础模型,能够去描绘所有这些细致和复杂的物理过程一个模型。

它应该既能控制机器人,同时也是一个世界模型。所以,在我们的实践里,世界模型、VLA 这些概念并不是互斥的:同一个模型既可以输出动作,也可以输出视频等等,我们把这整体看作“物理世界的基础模型“。

至于为什么要做通用模型,原因是通用模型学到的是跨任务的共性结构,也就是某种“常识”或“本质规律”。在具身,这可能是牛顿定律、物体属性,在语言里是逻辑和常识。

我反而认为,最终是不是我们要继承现在的多模态模型,用它来作为具身模型的基础、基座;而是5至10年之后,来自具身的多模态模型有可能成为主导。也就是说,我们用物理世界中收集到的数据做出来的多模态模型,可能会反过头来吞并今天以虚拟世界的数据为主做出来的多模态模型。

这其实也符合人类认知:我们一生接触到的多模态数据远少于互联网规模,却能形成很强的世界理解。其中一个关键原因就是具身智能可以在动作中完成交互感知和主动感知,更好地从而在时间和因果的维度上抓住物理世界的规律。

△现场嘉宾举牌情况展示了对于具身智能问题的非共识,图源:智源研究院

主持人:刚才几位嘉宾不约而同强调了数据的重要性,现在能否用一两句话介绍一下你们是采用了什么样的策略去面对数据瓶颈的问题?

张家兴:我们的数据理念是,第一,相信真实物理世界采集的数据,这个重要性刚才王潜说过很多次了。

第二,在整个数字金字塔中,我们接下来更偏重于以人自身作为本体去采集的数据。这是成本最低,量最能上得去的数据,主要用于预训练。

赵行:我们也是以真实数据为基础。然后有三个切入点。

第一个切入点是真实性、质量。所以我们从真实机器人的数采作为起点。

第二个关注的点是多样性。比起数采厂,我们更多去到真实的场景里去做数采。

然后第三个方面,再去关注数量。扩大采集规模,降低采集成本。

罗剑岚:我们也是坚持真实数据,然后也会很重视数据质量。

我觉得我们有两个点会想突出一下,一是刚才赵行老师也说了,要在真实场景采集真实数据,而不是仅仅是在数据采集厂里面去采集。

另外一点我想说的是,我觉得未来整个数据飞轮的构建,还是通过机器人自主地去产生数据。这不是仅仅靠遥操作,而是要把大量的机器人部署在真实场景里面,然后机器人与环境交互,产生非常广泛、非常多元化的数据。

王仲远:我们还是坚持从视频数据中,去做基座模型的学习。

因为刚才也提到了,视频数据是我们可以海量获得,又同时模拟真实世界的一个数据。然后通过真机采集的数据做微调,再通过强化学习去做反馈,去不断提升模型能力。

这一套逻辑其实跟现在小朋友刷手机来认识世界是一个原理:先通过视频学习到这个世界,再通过真实的交互体验来提升他们的技能。这也符合第一性原理。

王鹤:可能在座的人里头,我是很强调仿真的。

并不是说真实世界我们能采到的数据,我要故意去仿真它,而是我们发现很多底层的控制都是通过大量的强化学习习得的,而真实世界做这样的强化学习比较困难。

比如我们今天看到的所有人形的足式行走、跳舞,包括各种复杂身体的控制,全部是通过仿真器习得的。

我们最近看到的趋势,来自我们跟清华大学合作的灵巧手项目。到今天所有做手内操作的灵巧手工作,也都是用仿真器习得的,而不是通过遥操作。

因为大家可能发现,遥操控制一个灵巧手时,你不知道那个手的手指碰到没碰到,扎到没扎到,受多少力,这很难操作。

所以我的看法是,模拟器并不是说我们否定真实世界,而是这些丰富的物理交互,从模拟器为始,它给我们一个很好的Base Controller,让我们能在真实世界里能把数据飞轮转起来。这个是我觉得是合成数据的使命。

程昊:我们现在实际上是用仿真数据会多一些,因为确实是用仿真数据比较快。

但我们现在用仿真数据训的目标,其实是为了让具身智能快速先落地,落地之后能获得很多真实数据。

也许获得真实数据之后,整体能力再有提升,可能会发现有些情况下真实数据成本太高,后面可能又开始大量用仿真数据,我觉得它可能是一个螺旋上升的过程。

最后就是视频数据肯定是最多的,只不过现在视频数据很多时候训出来效果不那么好而已。但这个问题我觉得从历史来看,肯定是有解法的。

所以终局的解法我们觉得,很有可能还是融合的数据,哪个阶段哪个数据好用,就先用哪个。

王潜:我们是什么数据都用,但是我们可能用的这个地方有侧重点。

就像我刚才说的,这个不同数据的分布差异还是蛮大的,比如说我们也用大量的互联网数据,基本上互联网上能爬的数据,我们肯定都会都会去爬一遍的。这个可能主要用来做预训练,学一些常识。

我们仿真也做,但是可能不会用它来做这种接触(Contact)、取物(Reach)的操作,可能只会用来做导航、规划这些。那操作可能主要还是以这个物理世界的真实数据为主。

赵冬斌:我想自动驾驶应该也是具身的一个非常重要的例子。自动驾驶是落地了,从自动驾驶的经验来看的话,他把车卖给用户到C端,然后每个司机在每天在路上去开车,就把数据收回来了。

什么时候我们的这些机器人能卖到或者租赁到真实场景,边工作边收数据,数据量就会更快涨起来。

主持人:所以每位嘉宾能否用一句话解释,你们在做决策时的第一性原理是什么?

张家兴:我比较相信去年图灵奖获得者的说法:让机器自己去发现,让机器自己去探索。

赵行:我们在星海图刚创立的时候,就有一句话是“In Scaling Law We Trust“。就是我们还是相信数据的规模化,能够反向的驱动我们模型的进化和智能的实现。

罗剑岚:我觉得我们要做难而正确的事情,风物长宜放眼量,很多事情短期看是负担,长期来看它是会产生巨大的价值。

王鹤:银河通用致力于让数据飞轮转起来。即使现在我们做的不是别人认为最炫酷的东西。

程昊:我们在决策的时候会关注说他到底能不能落地,某个方向是不是对落地有帮助。

王潜:我们的判断标准就是能不能从一个比较长的时间周期上给客户和消费者创造真实的价值。

赵冬斌:从研究上来看的话,智能驾驶跟具身智能会存在交互的支持。

主持人:具身智能很吸睛,但是也很花钱。一个快问快答的问题,如果给你的企业100亿元来推进具身智能的发展,这笔钱你会怎么花?

王潜:我觉得我首先把这个市场上能吸纳的好的人才,都吸纳过来。其次肯定是算力和数据源。

程昊:首先我觉得100亿不太够(笑)。然后如果我只有100亿的话,应该会找更多的朋友一起推动具身行业。比如投资到智源研究院,吸引全球的研究的人才来心无旁骛地做比较长期的技术突破。

王鹤:我觉得100亿其实并不重要,重要的是你怎么能够用你的事业和你坚定的进展吸引到人才加入。我们不希望大家为了钱每天睁开眼睛,而是为了一个未来人与机器人共生的世界。

我也认为,会用这十亿美金支持智源研究院。

罗剑岚:我觉得我会去构建世界上最大的自我进化、自我闭环的数据飞轮。100亿这个钱可以说很多,也可以说它不多,但是第一个用100亿去做这个事情的人和机构还不存在。

赵行:我也想会去构建一个最大的数据引擎,能把物理世界的信息全都数字化下来。

张家兴:我是希望能够设计属于我们的机身智能的基础模型,然后能够做大规模预训练,真的能够Scale Up上去。

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

不止烟火气,更有硬科技。

24分钟前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业