英伟达高层与王兴兴、王鹤罕见同框,深聊人形机器人的“命门”与“钱途”
智东西8月12日报道,2025世界机器人大会期间,NVIDIA Omniverse和仿真技术副总裁Rev Lebaredian,与宇树科技创始人、CEO兼CTO王兴兴,北京大学助理教授、银河通用创始人兼CTO、智源学者王鹤一起,在一场小型媒体会上详细解答了人形机器人的大规模商用难点、关键挑战、技术瓶颈与风向、人形与双足设计的必要性、中国企业做物理AI和机器人优势、预计率先普及的应用场景等焦点话题。
NVIDIA是当前最全面的机器人基础设施供应商,芯片和平台均已在机器人企业中广泛应用,并正与阿里云、北京人形机器人创新中心、傅利叶、加速进化、优必选、银河通用、宇树科技、智元机器人等企业共同推动中国在人形机器人和AI解决方案方面的发展。
宇树科技是国内知名度最高的机器人独角兽之一,今年7月18日启动IPO,已为其新型人形机器人R1部署了NVIDIA全栈机器人技术。R1售价3.99万元,现货可供,预计年底前量产。宇树科技还自研灵巧手,希望在未来一到两年内实现自然交互,其格斗机器人的技术目标是实现任意动作的任意实时生成。
作为具身大模型通用机器人独角兽代表,银河通用成立两年来已完成超过20亿元融资。银河通用G1 Premium是首批搭载NVIDIA Jetson Thor的人形机器人之一,采用轮式底盘。其下一代人形机器人项目将采用纯双足设计。
智东西梳理出15个有信息量的问答及分享,并在文章靠后部分分享了NVIDIA、宇树科技、银河通用在机器人产业的重点布局与进展。
01.人形机器人商用难点不是成本,落地工厂需克服速度挑战
1、现阶段推动人形机器人规模化商用存在哪些难点?
王兴兴:对于人形机器人商业化来说,成本和硬件并不是关键问题。某种意义上,一台机器只要能用,10万甚至100万,照样还是有很多场景能用起来的。过去一两年,硬件已经足够了,当然可靠性、成本等各方面要做得更好,但是它并不是限制性因素。
当前最棘手的问题是具身智能模型不够泛用性,实用性还有待更大的提升。
2. 限制人形机器人规模化部署的关键技术瓶颈是什么?
王鹤:很简单——就是机器人干活的能力还不够强,能完成的任务类型比较有限。但如果能在这些有限的技能范围内实现非常通用的水平,就能一下子赋能很多场景。
银河通用现在最主要的突破是“抓取”和“移动”。只要机器人能抓住任何物体,能够在场景中实现下肢移动和上肢伸展,最后还能准确放置物体,很多应用场景就能实现。
背后需要有一个真正精准的目标识别和定位系统,我们目前是通过合成数据在推动这项技术。
当然,即使解决了这个关键问题,仍有很多任务,机器人暂时无法完成。但只要目标识别和定位的问题能被攻克,人形机器人市场至少有千亿级规模,并且在五年内可见成效。
解决了这个关键技术瓶颈后,基于如此巨大的市场投入,机器人必然能解锁更多技能,迈向万亿市场的步伐。
3. 人形机器人真正能在工厂车间投入工作,需解决哪些关键挑战?
王鹤:今年,许多人形机器人已经开始在汽车工厂进行训练。我们看到绝大多数公司在工厂推广人形机器人时,主要集中在两个方面:一是搬运,二是分拣。
搬运方面,银河通用最近展示的机器人视频里,其搬运速度已经接近人类水平,计算下来每小时搬运的数量与人类相当。这个阶段已经非常接近实际工厂的部署,我预计今年年底可能会有几十台银河通用的机器人进入工厂车间实际应用。
但是,搬运只是第一步。除了搬运,还需要实现码垛的闭环能力,只有搬运和码垛都完成闭环,机器人才能真正胜任整套工作流程,否则做一半的任务,效果并不理想。
分拣则是更大的挑战,还未达到人类工人的水平,仍需要一定时间的技术迭代和突破。
无论是从传送带上拿,还是从货架上取货,目前最大的难点是速度。熟练工人拿取物品的速度非常快,机器人目前在模型和硬件层面还难以达到这种效率。
我们做零售机器人时,拿货架上或桌面上的物品,技术本质上与工业分拣类似,只是零售对节拍要求较低,拿错货的后果也较轻。但在工业场景,比如汽车制造厂,一条产线停机一分钟可能就意味着损失上万元,因此分拣的精度和速度要求极高。
4. 如何应对物理AI(特别是机器人领域)的能耗、热管理和体积限制挑战?
Rev Lebaredian:NVIDIA每一代产品都会大幅提升每瓦性能和每美元性能。单靠摩尔定律已经不足以解决我们面临的许多问题。我们预见到,摩尔定律在CPU和通用计算机上的效用会逐渐终结。为此,我们致力于打造针对特定算法的专用计算机。
这种专用计算机不仅仅是芯片层面,更需要算法、软件以及应用层面的整体优化,才能发挥最大性能。这并非靠单一因素,比如芯片变小或变快,而是通过全栈优化实现的。
这是一项非常艰难的工程,也正是NVIDIA的核心竞争力所在。
我们最初应用这套方法于计算机图形渲染(尤其是游戏领域),随后推广到其他领域。CUDA推出后,我们开始应用于物理仿真,后来深度学习和AI在GPU上兴起,我们不断专门化处理器。每一代产品,在相同功耗和成本下都实现了显著的性能飞跃,未来仍会持续,因为我们的创新之路还远未走完。
02.机器人非得设计成“人形”、“双足”吗?未来人形机器人规模将超过工业机械臂总产值
5. “人形”的机器人是否必要?
王鹤:从长远来看,人形机器人一定要能够融入人类生活。从终局观念来看,如果机器人又能干活,手能伸到1米~2米这么高,还能在咱们这样的环境里穿梭,除了人形态,没有别的形态。
未来几年,人形机器人是从一种移动复合机器人向着终局不断迈进。
如果是一个定点机器人,它能够干的事情就只能是它面前的事情,局限性很大,所以移动是必然的。移动的小车只能承载货物,不能做任何操作。我们今天打造的机器人,就是在一个移动的台子上,再让它变成可升降、可折叠的,有两根机械臂,两只手才能抱箱子。
我认为未来十年,人形机器人占比不会小,但得看跟谁比。工业大机械臂全球总产值也就1000亿人民币,并不高,一个头部车厂一年就能卖价值1000亿的车。
我预计未来每三年人形机器人的产值会乘10,我们现在头部是卖1000台,三年后就是10000台,再三年后就是10万台。10万台级的量,如果卖几十万元一台,干活的就达到了1000亿,超过了一家公司,也超过了整个工业机械臂的总产值。
未来十年,我们将看到的是一个能够超越当前所有工业机器人量的机器人市场。再往后十年,可能是超越汽车、手机市场量的万亿市场。所以不能低估它,但也没有大家想的那么快,明天就达到汽车市场的额度是不可能的。
王兴兴:某种意义上,我将人形机器人视为通用机器人的重要载体。真正的通用AI在执行任务时,必然离不开机器人,尤其是通用型机器人。
目前人形机器人是最理想的专业机器人形态,虽然看上去较为复杂,但实际结构本质上是由若干关节电机串联而成,因此整体设计相对简洁。履带式小车或其他形式的机器人反而更复杂。
我一直相信,当通用AI大规模成熟后,每个人都可以轻松制造一台人形机器人,就像今天人们可以购买电脑零部件组装一台电脑一样。未来若AI足够强大,对硬件的要求会越来越低。
6. 机器人为什么要做双足?
王兴兴:为什么不做双腿,反而是一个值得思考的问题。因为做双腿相对方便,最重要的是提供了更多的通用性能力。运动能力在某种程度上是较弱的AI能力,例如小动物甚至蚂蚁、虫子走路都非常好,但它们的AI能力很弱。所以我一直觉得,真正通用且能干活的具身AI模型,移动能力或者腿的能力其实是附属的。
如果机器人能干活了,那腿的控制自然不会差;如果连腿都控制不好,说明它还没达到大家想象中的非常通用的AI模型阶段。
另外,因为双腿相对简单,我们公司本身就是做腿的,所以对我们来说,这是顺理成章且有趣的事情,大家普遍也很喜欢这个方向。而且如果大家都做轮式底盘,会导致同质化竞争,没必要。
我觉得轮式和腿式是有差距的,在不同时间点,机器人下半身方案会有不同。
我们公司专注于腿部,希望提升机器人整体的运动和干活能力。我自己也做轮式底盘。目前轮式底盘在工业开阔场景和货架间穿梭非常稳定且能耗低,但在复杂环境中可能通不过。如果底盘做得更小,稳定性会丧失。
我坚信腿是未来,因为它能实现上半身所有可达空间,并且能灵活调动腰部的灵活度。
但在不同阶段,会有最适合落地应用的形态,我们也不会局限于单一方案。我们同时用轮式底盘和宇树的人形机器人做下半身甚至全身的控制研究。
03.中国在物理AI和机器人领域有独一无二的优势
7. 怎么看中国物理AI和机器人的需求和实践中的挑战?
Rev Lebaredian:中国既是一个重要的市场,也是AI技术和产品的生产基地。在物理AI和机器人领域,中国拥有独特的规模优势,结合人才优势,形成了独一无二的生态系统。
机器人是把计算和人工智能带进真实世界的桥梁,中国是实现这一跨越的最佳地点,因为这里具备独一无二的条件:
一是顶尖AI人才:中国有顶尖的AI高校,有大量聪明、受过良好教育且充满热情的AI研究人员和开发者,全球近一半的顶尖AI人才都集中于此。
二是电子与计算技术能力:中国不仅有技术研发能力,还有全球无可匹敌的电子制造产业。中国在制造电子硬件和机器人所需关键部件方面具备深厚的专业能力,这样的生态体系和制造规模是其他国家难以匹敌的。
三是庞大的制造业基础:这里有大规模部署和测试机器人的真实场景,可以快速收集数据、迭代算法,让机器人不断进化。
这使得像银河通用、宇树科技这样的企业,能够大规模制造机器人,快速学习和迭代。中国独特的综合条件为物理AI和机器人产业的快速发展提供了坚实基础。
04.家用机器人最大难题不是技术,机器人数量不直接影响生育率
8. 未来机器人在哪些场景会迎来大规模普及?
王兴兴:未来肯定会走向更实用,无论是工业、服务业还是家用领域,整体时间周期会更长一些,尤其是家用领域。家用机器人的最大难题不是技术,而是伦理、安全等方面的要求极高,这导致家用机器人的普及门槛要高得多。
每个产业的成熟都需要较长周期。十几年前大家也觉得新能源车会发展得很快,但整体成熟花了不少时间。
现在用的新技术,跟十几、二十年前完全不同,硬件和软件都发生了巨大变化。但很多人提机器人时,喜欢拿十几、二十年前的东西来说,觉得这个行业已经发展了很久。
现在新一代人形机器人或通用机器人技术,实际上才发展了两三年,还需要更多时间。不过从当前发展速度来看,我个人感觉行业仍在快速成长,很有可能实现未来几年人员和出货量每年翻倍。
基于此,如果未来出现更强大、更通用的AI大模型,这些模型将能让机器人在工厂、家庭等更多通用场景中表现更好。因为越通用,普及的难度就越小。相反,如果不通用,推广会更困难。
9. 机器人能取代很多工作,之后的生育率会不会降低?
Rev Lebaredian:我认为人们是否选择生育,并不会与机器人数量直接相关。但有一点是确定的:每当社会人口增长时,GDP和生产力都会增长。一个社会的产出能力与其人口规模直接相关。
目前大多数国家面临的人口缩减趋势将导致经济不增长,甚至可能萎缩。如果不采取措施,我们的经济将走向衰退。
因此,打造机器人以创造“人工人口”,辅助完成各类工作、提升生产力,是刻不容缓的任务,不仅要维持现有生产力水平,还要推动社会进一步发展。
05.机器人算力、模型、数据挑战:提高能效,架构统一与对齐,补充多模态数据
10. NVIDIA Jetson Thor与之前的Jetson平台有何区别?如何特别适用于机器人?
Rev Lebaredian:Jetson Thor与之前版本最大的不同是:(1)具备了足够的计算能力,能运行更大、更强的神经网络和模型,支持更复杂的推理任务;(2)拥有更高的带宽,能更快处理来自各种传感器的大量信息,使机器人能够快速反应,在动态变化的环境中高速移动和操作。
我们努力最大化每一代Jetson产品的计算能力,因为智能问题本身就是一个非常复杂的计算难题。在机器人领域,这一挑战更大:计算必须非常快速,且在极为苛刻的环境中进行。机器人往往在现场实时运行,需要在紧凑的循环内完成计算,电力有限,因此要尽可能降低功耗以延长电池寿命,同时还要考虑散热等问题。这些因素都极大地增加了难度。
11. 目前机器人领域的大模型架构尚未统一,宇树科技主要聚焦哪些方向的具身智能基础模型探索?
王兴兴:我一直觉得目前的模型架构确实非常不统一,这导致目前进展比较缓慢。如果模型架构能更加统一、方向明确,结合当前行业热度,大家能更快取得突破。
我们公司探索了很多方向。比如我们去年尝试的一个用视频生成模型作为“世界模型”,来驱动并对齐机械臂的项目,这个尝试取得了一定效果。但由于视频生成模型训练规模极大,考虑到我们公司的算力和投入,难以进行大规模训练。而且我们尝试后发现,这类模型的泛用性还不能完全满足预期,因此后来基本没有继续使用。
但最近谷歌发布了一个新的视频生成模型,其物理对齐效果非常好,并且他们公开尝试把视频生成模型作为世界模型,直接用于机械臂和通用智能。这让我觉得这个方向非常值得重新探索。
由于公司规模和算力、人才限制,我们只是初步探索,没有深入推进。但谷歌的成果证明这个方向很有潜力。
视频生成模型在时间内容、数据源以及效果方面,已经达到不错的预期。举例来说,如果控制视频生成模型生成一个机器人打扫全屋的视频,而且效果不错,理论上只要把视频与机器人动作对齐,也能实现类似效果。
不过,目前对齐工作仍然非常复杂且具有挑战性。这个方向无论是对机器人应用,还是纯视频生成技术本身,都是非常主流且值得投入的。即便不用于机器人,视频生成技术也会持续被大公司加大投入、不断优化。
除此之外,还有其他方案。随着基础模型能力快速提升,很多潜力尚未被充分挖掘。
我们发现,如果在基础模型后训练时加入机器人指令控制和空间理解训练,效果能明显提升。比如王鹤老师团队展示的一些基于基础模型的机器人控制效果就非常不错。
我们公司的策略很简单:不断尝试各种新模型和新想法。今天可能有一种想法,明天可能会调整,这很正常。我认为大家都应该大胆尝试新兴技术,AI领域充满了可能性,往往一个灵光一闪的创意就能带来突破。希望鼓励更多人去探索,或许下一个创新就出自你手。
12. 大模型扩展定律(Scaling Law)是否遇到挑战?
王鹤:目前大模型类型繁多,有纯文本大模型、图文大模型,图文大模型又分为视觉理解和视频生成,具身智能VLA也是一种大模型。所以说,大模型扩展是否遇到瓶颈,无法简单地用一个统一的结论来概括。
我理解,在当前纯文本阶段,我们主要的数据源是互联网公开数据,但很多私域知识并不在网上,这导致模型的推理能力实际上需要的数据与公开数据有差异。除非能通过某种可控的方式获得额外数据增强,否则单靠公开数据提升模型能力是有限的。
这部分能力的增长,并不会自然地通过单纯扩大模型规模实现。
但不能低估推理模型的进展,比如在IMO国际数学竞赛上,文本模型获得金牌,面对从未见过的题目表现出色,这说明文本大模型的能力在不断提升。
多模态大模型(比如VLM和VLA)目前还处于比语言模型稍弱的阶段,核心原因是数据不足:文本数据非常丰富,而文本-图像配对数据相对较少,再加上动作数据更少,因此视觉理解能力和基于视觉的动作操作能力还有较大差距。
这也是为什么合成数据和仿真技术非常重要。正如Rev所说,仿真能够将真实世界场景和动作复现到虚拟环境,生成大量带动作、图像和语义配对的数据,这将极大促进图文、多模态大模型及具身智能大模型的发展。如果完全依赖真实数据,进展会受到很大限制。
我相信,充分利用仿真技术,将是多模态大模型和具身大模型应对数据瓶颈的最有效途径。
06.仿真是构建安全机器人系统的唯一方式,三大路径可弥合仿真与现实之间的差距
13. 如何确保用仿真数据训练的机器人具备可靠性和安全性?
Rev Lebaredian:如果你想构建一个能够在现实世界中行动且安全可靠的机器人系统,唯一的选择就是使用仿真。
因为现实世界测试过慢、成本高且危险,我们不希望机器人在现实世界先失败。换句话说,如果我们无法让仿真足够准确以测试机器人,那么我们将无法制造出可靠的机器人。
以自动驾驶为例,我们绝对不希望车撞到人或者孩子,但当街上出现小孩时,车辆的大脑该如何反应、如何获取训练这类系统的数据呢?我们绝不可能将孩子置于汽车前作为训练样本,这样做是不道德的、危险的,而且耗时且昂贵。所以,仿真是能够应对很少发生的特殊情况的唯一办法。
即使训练完系统,在将它部署到现实世界之前,也需要在这些相同场景中进行测试,确保在真正发生类似情况时,它能够正确反应。
幸运的是,目前已有非常准确的仿真器。不过,这些仿真器计算量大且成本高昂,我们面临的真正挑战是如何提升仿真速度,使其在大规模系统构建中具有成本效益,这也是我们一直努力的方向。
14. 未来几年,驱动AI机器人的仿真领域,有哪些关键技术趋势将改变整个行业?
Rev Lebaredian:我认为目前最大的趋势,是所有在常规AI领域出现的技术和发展,正被应用到物理AI中。
其中最重要的突破是推理能力的提升。比如DeepSeek将推理能力带入了开源领域,现在我们也看到了其他各种模型。
可能在今年年底或明年,机器人将能更自然地与人互动,并完成复杂的多步骤任务。而将这种能力与仿真结合,我认为这是一个可能还未被广泛理解,但将成为重大突破的点。
目前我们面临的主要问题是AI极度依赖数据,而获取合适的数据非常困难。我们现有的推理模型,尤其是对物理世界的推理,可以帮助我们改善数据生成和数据创建的流程。
如今我们生成的数据,即使是合成数据,也需要大量人工参与,人工去构建虚拟世界和仿真环境,判断该生成哪些数据才能让智能系统更聪明。
但是,如果我们把正在开发的AI技术用在数据生成流程中,就可以实现自动化,打造“自动驾驶”的合成数据生成。如果我们拥有一个自动驾驶的合成数据生成工厂,就能直接将其接入训练流程,实现训练过程自动化,减少人为干预,让机器人大脑更聪明。
我认为中国企业已经在积极探索和应用这些仿真技术。
王鹤:仿真引擎、并行渲染器大大降低了合成数据的困难程度。人形机器人行走、跳舞、叠衣服、做导航等技能背后的数据,离不开好用、并行的渲染器。所以这些确实非常感谢NVIDIA作为一个生态方,从芯片到仿真平台对整个生态的托举。
15. 如何弥合仿真与现实之间的差距?
Rev Lebaredian:如果我们依赖仿真来构建和测试AI,就必须确保仿真尽可能接近现实,否则我们无法信任它。我们构建的AI如果是在一个“卡通世界”里训练的,是无法真正理解现实世界的,因此,测试时必须确保仿真场景与现实相符。
弥合仿真与现实之间的差距,可以通过多种方式:
首先,提升仿真器本身的精度。
我们几十年来一直在构建物理仿真算法,且验证了这些算法能够较好地反映现实世界的物理规律。比如,我们利用仿真设计飞机机翼和汽车,确保空气动力学性能,并验证仿真结果与真实世界匹配。问题是,这些高精度仿真计算成本极高,通常需要在大型计算机上运行数小时。挑战就在于如何将仿真速度提升到足够快,能够嵌入AI训练流程中,实现大规模、高效的数据生成和测试。
为此,我们正在利用AI本身作为提升仿真速度和精度的工具。AI能够近似任何数学函数,我们可以将物理仿真函数转换为AI函数,构建AI模拟器完成仿真。只要提供足够的示例数据,AI就能学习仿真功能。
这正是我们正在开发的“Cosmos”项目,这些“世界基础模型”是能理解世界物理规律的AI模型,我们可以将真实世界数据和可信仿真数据输入这些模型进行训练。一旦有了这样理解世界的AI基础模型,就可以将其与传统仿真结合,构建更精准、更高效的仿真器。
其次,即使拥有高质量的仿真器,构建代表现实世界的数据也非常困难。
以这个房间为例,虽然仿真器可以模拟物理现象,但我们还要创造带有正确物理参数(如摩擦系数、材料特性)的桌布和桌子,这类信息采集非常复杂。目前,全球只有少数专业人士(通常是游戏或电影行业的艺术家)具备这类能力。但随着我们构建具备物理理解能力的AI,这些AI可以辅助生成这些虚拟环境,成为“机器人艺术家”,帮助我们高效创建真实感十足的虚拟世界。
第三种方法是直接捕捉现实世界。
我们也利用物理AI技术将现实环境(例如我们身处的房间)数字化、导入仿真环境,确保虚拟场景与现实高度一致。
NVIDIA正在这三个方向全面发力,打造相关技术,但这项工作远超过任何一家公司的能力。我们正与整个生态系统的合作伙伴协同推进,争取在这三条路径上共同攻关。我们已经积累了不少成果,现有的仿真器已经能够生成足够高质量的数据,助力我们提升AI性能。
07.NVIDIA:为机器人打造三台计算机,提供完整软件栈和世界模型
Rev Lebaredian说,NVIDIA的使命是打造专门针对“最难问题”的计算机。机器人就是其中最难的问题之一。为此,NVIDIA认为必须打造三台计算机:
(1)机器人本体计算机:嵌入在机器人内部,例如自动驾驶汽车或人形机器人中的计算机。专门为人形机器人打造的Jetson Thor便属于这一类,今年在世界机器人博览会上,就可以在银河通用和其他展出的机器人上看到它们的身影。
(2)AI工厂计算机:在使用机器人本体计算机之前,必须先开发它的“大脑”。需要依赖DGX和HGX系统,处理海量原始数据,生成物理AI算法、物理AI模型和神经网络,再部署到机器人上。
(3)仿真计算机:物理世界的数据无法直接从互联网获取,只能通过两种方式获得:真实世界传感器采集、基于物理定律和世界规则进行计算机仿真生成。仿真不仅能生成数据,还能在部署前测试机器人,确保它们在真实环境中安全运行,且测试速度可快于现实时间。
NVIDIA Jetson Thor是一款专为物理世界中的智能推理Agent(特别是机器人)打造的超级计算机,黄仁勋称它为“实时推理机器”。其性能亮点包括:
计算能力是上一代Jetson Orin的7.5倍;
每瓦性能提升多达3.5倍;
CPU性能提升多达3.1倍;
I/O吞吐量提升多达10倍,满足高带宽感知需求。
在机器人领域,NVIDIA拥有完整的Isaac平台,它结合了硬件与三台计算机所需的软件栈,包括运行时和计算环境、仿真工具、训练框架。Isaac平台还包括NVIDIA的模拟器与仿真框架:
Isaac Sim:环境和传感器仿真、机器人测试、生成合成数据。
Isaac Lab:强化学习的仿真平台。
NVIDIA Cosmos:世界基础模型及框架,支持构建理解物理世界的AI,并与Omniverse等模拟器结合,生成更精确、更大规模的数据。
世界基础模型虽然还处在起步阶段,尚不能完全理解世界,但已经非常有用,并为机器人研发带来了全新能力。
08.宇树科技:晒机器人“全家福”竞争力,未来一两年实现自然交互
王兴兴分享了宇树科技的几款重要机器人产品。
足式人形机器人方面,宇树科技去年5月发布的一款人形机器人,当时售价约9.9万元,至今依然具备很强的市场竞争力。它的关节数量和灵活性表现优秀,且在发布后,其架构已成为全球较为主流的设计构型。
去年下半年及今年,不少新兴机器人公司的新产品在架构上与这款相似,仅在外观上存在差异。
宇树科技设计的造型流畅且结构简单,而其他造型可能更复杂且不够美观,因此该产品在市场上竞争力较强。
近期,宇树科技又发布了新的版本,虽然涂装稍显花哨,但宇树科技希望客户可以自由改装和喷涂外观,例如更改颜色或增加个性化装饰。许多客户在户外直播时会为机器人穿衣、戴帽或假发,创造出多种造型。外观和造型的可定制性对于客户体验至关重要。
宇树科技最新发布的R1人形机器人,重量约25千克,轻便且安全。虽然体积较小,但动力性能强劲,主要面向工业应用,售价约3.99万元,全球竞争力强且性能表现出色,现货可供,预计量产在年底前完成。
机器狗方面,宇树科技近期发布了A2机器狗,它最大特点是在紧凑轻量化设计下实现了较大负载能力。自重约37千克,持续负载可达30千克,空载续航可行驶20公里。其外观吸取了以往的设计经验,更具科幻感,且具备防尘防水性能。
宇树科技一直希望机器人能在工业场景中替代人类完成繁重、危险或重复性工作。宇树的机器狗在一些公益项目中已实现24小时不间断运行,具备自动充电和巡逻检测功能。
轮式机器人方面,宇树科技去年年底升级了轮式机器人,这款产品较大,自重约70~80千克,因此部分场景不便使用。为此,宇树科技推出了更小型且防尘防水的版本,适用于室内外多种场景,虽然体型较大,但灵活性依然优秀。通常小型机器人灵活性更强,而大型机器人灵活性较差,但宇树科技在较大尺寸下依然保证了良好的运动性能。
多机协作方面,今年1月,宇树科技的机器人登上央视春晚,最大亮点是全自动编队跳舞。它在头部配备3个激光雷达,可自动建图并变换队形。宇树科技将后台控制权交给舞台控台,使音乐与动作实现毫秒级同步。此次演出共有16台机器人,统一连接至宇树科技后台服务器,再接入舞台系统。该项目的最大挑战在于多机协作及复杂的编程维护。目前,这些机器人在澳门美高梅每日进行表演。
动作学习方面,宇树科技通过采集人体动作数据并结合深度强化学习进行训练。不同于语言模型训练,动作训练只需少量真实数据,其余由强化学习完成。宇树科技主要使用NVIDIA Isaac Sim平台进行训练,已掌握舞蹈、跳跃、空翻等多种动作。
当前限制机器人执行更复杂动作的最大因素并非算法,而是硬件物理极限。例如,要将奔跑速度从每秒3~4米提升到10米,对硬件的改进需求极高。
硬件方面,宇树科技重视机器人上肢和手部的研发,目前已自主开发一款约20自由度的灵巧手,目标是让机器人真正能够执行日常任务,而不仅是完成展示性动作,希望在未来一到两年内实现自然交互,例如在没有预先适配的情况下,直接指令机器人去为某人倒水。
今年5月底,宇树科技与央视合作举办了一场机器人格斗赛,时长约1.5小时,包含4个团队参赛。格斗赛的算法复杂度高于舞蹈或功夫表演,因为动作组合是随机且存在强干扰,要求动作衔接流畅并可自由组合。其目标是在未来实现“任意动作的任意实时生成”。
09.银河通用:无人药房、无人零售已落地,下一代机器人将采用双足设计
王鹤谈道,今天在场的所有机器人公司,共同目标都是打造通用机器人。这样的通用机器人将成为下一个价值数万亿美元、数万亿人民币市场的关键性、革命性产品。
这种革命性产品背后包含多个核心要素:一是机器人本体,二是驱动它运转的具身智能模型,三是模型背后则是数据支撑——什么样的数据能训练出这样的能力。
银河通用与其他公司的不同之处在于,其机器人并非完全人形,而是轮式+双臂+双手的形态,采用轮式底盘,主打高续航、工业级安全性,可实现大规模、高可靠交付的能力。
其G1机器人于2024年5月首次亮相,经过一年多迭代,目前在自动充电、运行流畅度与稳定性方面均已达到大规模自主商用的标准。
银河通用率先在中国将NVIDIA Jetson Thor芯片部署于人形机器人之中,也是全球最早收到该芯片的公司之一,并在本届世界机器人大会上实现了现场部署。
在演示中,配备该芯片的机器人展现出丝滑的运动性能以及实时的货箱视觉处理与运动规划能力,速度显著提升,被现场观众评价为“最快的人形机器人”。这背后离不开强大芯片的支撑。
银河通用的机器人之所以能够在复杂环境中高效导航,源于银河通用长期研发的大规模具身大模型VLA。其中,导航大模型只需一句话指令,即可在场景中自主运动。
“六一”儿童节前夕,银河通用全球首发了无需建图、可在任何复杂场景中跟随人的TrackVLA,能够自然语言交互、穿梭障碍物,全程自主运行,即使在人流干扰下也能稳定跟随。
上半身操作方面,银河通用全球首发了抓取基础大模型Grasp VLA,实现了抓取动作的实时闭环生成,在各种光照条件和挑战性背景下,均能实现指定物体的零样本抓取,且无需事先训练该物体。这为未来“自然语言+即时执行”奠定了基础。
基于Grasp VLA,银河通用打造了零售场景应用,无论瓶装、袋装、散装、挂装或软体物品,均可由同一模型完成抓取与递送。这是全球首个可应对50多种不同物体摆放、从刚体到软体全覆盖的端到端零售大模型。
银河通用能在全球率先推出多款基础大模型,并能在真实商店场景稳定应用,得益于NVIDIA提供的全套仿真引擎。
“我们与NVIDIA一致认为,合成数据是推动具身智能快速落地的关键。”王鹤说。
他谈道:“目前,真实世界数据仅占我们训练数据的1%,其余99%均为合成数据。我们将自研机器人模型、大量物体与材质资产输入合成管线,经NVIDIA引擎完成仿真验证与物理渲染,生成全球首个百亿级抓取操作大数据集,以及全球首个百亿级柔性物体操作大数据集。这些数据使我们的模型在真实环境中具备极高的鲁棒性与泛化能力。”
银河通用还与NVIDIA联合官宣了基于Isaac平台的下一代人形机器人项目。
目前银河通用的机器人为轮式形态,下一代将采用纯双足设计,基于OpenWBT_Isaac进行数据采集与遥控控制。无论在仿真环境还是现实环境,该平台可训练并部署多种任务能力,例如推车、拾取地面物体等。
银河通用的多项技能已实现完全商用,例如推出了全球首个24小时无人药房解决方案,在北京、上海、深圳等地签约超过100家药店。用户通过App下单后,由机器人在店内完成取药并交付外卖员,该方案已吸引多位政府领导与外国元首参观。
2024年,银河通用还官宣了24小时无人零售店项目,将在10个城市的百处核心商圈和旅游景点部署银河通用“太空舱”零售终端,销售饮品等商品,目前已在北京海淀区大融城落地。
10.结语:让计算的力量进入100万亿美元市场,机器人与AI技术发展需要全球协作
Rev Lebaredian分享道,过去三四十年里,计算机产业和IT产业放大了各行各业的能力。但计算的影响大多还停留在“信息空间”——也就是可以数字化的内容,比如语言和各种可编码的信息。互联网的出现,让计算技术真正走进每个人的生活,把所有人连接起来,并带来了几十年的增长。
从全球市场规模来看,IT行业的总规模约为5万亿美元,这与全球所有行业超过100万亿美元的总量相比,只是很小的一部分。其它行业之所以更有价值,是因为它们处理的是真实世界的“原子”——交通、制造、供应链、物流、医疗、制药等涉及物理世界的领域。
而今天,随着AI出现,我们终于有了让机器具备“物理智能”的能力,可以把物理世界和信息世界真正连接起来。换句话说,计算的力量不再只局限于那5万亿美元的信息市场,而是可以进入那100万亿美元的物理世界市场。
这个桥梁,就是机器人。
有了机器人,我们可以把计算和AI带进真实世界,创造出能理解并改变物理环境的智能体。
王鹤总结说,银河通用通过与NVIDIA的一j系列合作,从仿真到可落地的产品,利用合成大数据赋能的VLA驱动工业级机器人。银河通用将继续与NVIDIA等合作伙伴携手,打造服务千行百业、千家万户的通用机器人。
王兴兴谈道,回顾过去,AI与机器人技术的发展始终是全球协作的成果。包括NVIDIA在内的多方力量一直推动机器人与AI领域的全球合作。
在他看来,在通用智能大模型和真正能执行任务的机器人普及之前,我们仍需共同努力,推动人类进入下一个科技时代。他相信,AI与机器人技术将像电力与蒸汽机的发明一样,使人类文明迈向新的高度。
本文来自微信公众号“智东西”(ID:zhidxcom),作者:ZeR0,编辑;漠影,36氪经授权发布。