Generalist发现具身智能的Scaling Law,还让模型能同时思考与行动
Generalist是Google DeepMind高级研究科学家Pete Florence创立的具身智能模型公司。近日,它发布了一款叫GEN-0的新型具身基础模型,这个模型能够随着物理交互数据,而非仅仅是文本、图像或模拟数据的增长而可预测地扩展,在训练这个模型的过程中,他们还一定程度证实了具身智能的Scaling Law。
Generalist的早期投资者包括Spark Capital、NVIDIA、Boldstart Ventures、Bezos Expeditions、NFDG等投资机构,但金额未披露。
DeepMind和波士顿动力的专家一起探索具身智能的Scaling Law
Generalist由Google DeepMind高级研究科学家Pete Florence联合创立,他在Google带队研发了PaLM-E,RT-2等视觉或具身智能模型,Google学术的引用数超过19000次。
与Pete Florence共同创立Generalist AI的还有Andrew Barry(CTO)和Andy Zeng(首席科学家)。Andrew Barry此前在波士顿动力任职,Andy Zeng则与Pete Florence一起在Google做了PaLM-E等工作。Generalist的核心团队,还有来自OpenAI、Waymo等顶尖公司的资深研究人员,他们都曾做过高质量的工作。
Generalist想做的是通用机器人,创始人Pete Florence表示:“我们的目标坚定不移,那就是创造出无所不能的机器人。所以,请想象这样一个世界:体力劳动的边际成本降至为零。”
目前,Generalist首先聚焦于机器人的灵巧性,它们在模型和数据等方面,不断探索前沿。
Generalist的第一个阶段性成果是全新的具身基础模型——GEN-0,这个模型基于高保真度原始物理交互数据的多模态训练。它的架构在借鉴视觉和语言模型优势的基础上实现了超越,其原生设计旨在捕捉人类水平的反应反射与物理常识。
“和谐推理”
GEN-0的核心特征之一是“和谐推理”(Harmonic Reasoning),即模型被训练成能够无缝地同时进行思考与行动。对于语言模型,在回应前花更多时间思考是可行的,但对于在现实世界中行动的物理系统而言,模型必须即时反馈,反应时间越短,越好。
例如你扔一个玻璃杯给机器人,如果机器人的反应时间过长,那杯子就直接摔烂了。或者在物流机器人场景中,如果机器人在车流或人流中行进时,反应稍慢,那就很容易发生碰撞。
为了解决机器人在物理世界的快速推理(反应)问题,已经有不少解决方案,例如Figure的Helix采用了“系统1(快思考)+系统2(慢思考)”架构,但它仍需要显式设计切换逻辑。
“和谐推理”则可以实现在连续时间中思考与行动,模型可以同时维护两个异步、连续时间流:
感知流:持续接收传感器数据
行动流:持续输出控制指令
这两个流在连续时间域中"和谐"交织,无需显式同步点。这可以让模型无需使用更复杂的系统1(快思考)+系统2(慢思考)架构,并且能扩展到非常大的规模。
具身智能模型智能的规模“相变”点
Generalist的规模化实验表明,GEN-0模型必须足够大,才能吸收海量的物理交互数据。
在这个训练扩展的过程中,它们发现了模型智能容量中的“相变”点。
1B(10亿)参数模型在预训练期间难以吸收复杂多样的感知运动数据——模型权重随时间推移逐渐无法吸收新信息。
6B(60亿)参数模型开始从预训练中受益,并展现出强大的多任务能力。
7B(70亿)以上参数模型能够内化大规模的机器人预训练数据,并仅需数千步后训练即可将能力迁移至下游任务。
扩展GEN-0模型尺寸能够提升模型在一个完全未见(即零样本)的长序列下游任务中的性能,性能指标为下一动作验证预测误差(y轴,越低越好)。
这是首次在具身智能领域观察到模型的固化现象。固化现象此前曾在高数据量环境下的大语言模型文献中被观察到,但涉及的模型要小得多,参数量级在千万级而非十亿级。在具身智能领域,这一相变发生在远大于语言模型的参数规模上,这一观察也呼应了莫拉维克悖论:人类觉得轻而易举的感知和灵巧动作,其计算复杂度远超抽象推理。
此后,Generalist将GEN-0的规模扩展至10B(100亿)以上参数,并观察到模型能以越来越少的后训练数据快速适应新任务。
具身智能模型的Scaling Law
在训练过程中,GEN-0模型展现出较为明显的Scaling Law,即更多的预训练数据和计算资源,能够持续且可预测地提升模型在众多任务中的下游后训练性能。
具体来说,在模型达到足够大的规模后,可观察到预训练数据规模与下游后训练性能之间存在着强大的幂律关系。这适用于各种机器人的测试任务,包括来自服装、制造、物流、汽车和电子等多个工业领域的应用场景和工作流程。
Generalist在论文中还拟合出了预测公式:
其中:
L(D) 是给定预训练数据量D时下游任务的验证误差
Dc是特征数据规模常数
αD是缩放指数
有了这个公式,可以回答关键问题:“要达到特定的下一动作预测误差,我们需要多少预训练数据?”或“增加预训练数据量可以为我们节省多少(针对特定任务的)后训练数据?”等问题。
论文指出,结合Scaling Law,这些结果可以预测任何下游后训练任务的最优计算和数据分配。
既然已经证明具身智能模型的Scaling Law,数据的量和质就非常重要。GEN-0模型在一个巨大的自有数据集上训练,这个数据集包含了在全球数千个家庭、仓库和工作场所中,从多样化活动中收集的27万小时真实世界操控轨迹,并且这个数量还在加速增长。
GEN-0的训练所使用的真实世界操控数据量,比迄今为止存在的某些最大规模的机器人数据集要高出几个数量级。
通过大规模实验,Generalist发现数据质量和多样性比纯粹的数据量更重要,精心构建的数据混合可以产生具有不同特性的预训练模型。
因为数据和GEN-0模型架构的设计优势,它可以适用于不同的机器人,这个模型已在6自由度(DoF)、7自由度以及超过16自由度的半人形机器人上成功进行测试。
具身智能模型还在发展早期,但每一个突破都让它们离落地更近一步
机器人的基础模型,之前已经有不少顶尖创业公司在探索,其中Physical Intelligence走的是和Generalist类似的基础模型+微调路线,它的模型已经迭代到π 0.6,新模型可以制作浓缩咖啡,完成从浇注/磨豆/擦拭的全过程,而且能够从早到晚连续制作,这体现了它的连续长序列任务完成能力和鲁棒性。
Skild AI的模型则强调泛化性,它支持多形态机器人(人形、四足、臂等)泛化,在演示中能完成爬楼梯、平衡恢复、杂乱环境抓取等任务。
这两个公司的模型还有一个共同技术特点,就是根据机器人实际运行过程中积累的“经验”,自主进化。
Figue前文已经提到,它的Helix采用“系统1(快思考)+系统2(慢思考)”架构,能够支持机器人在工厂的实际环境中完成复杂操作,并实现多机器人的协作。
可以看出,尽管已经有众多顶尖公司投身具身智能基础模型,但是这个领域的技术思路还没有收敛,数据也还不够丰富。而且,目前为止,具身智能在实际的商业化和落地上,仍然缺乏足够多的案例。
但是,我们可以看到,曙光越来越近。具身智能的Scaling Law已经一定程度上被发现,模型的多形态泛化,动作延时,连续长序列任务的完成等等难题,也已经或正在被攻克。
每攻克一个问题,整个具身智能行业的潜力就会更大,未来的商业化落地的前景就更好。
中国的创业者,在具身智能领域创业具有优势,中国的硬件产业链更成熟,场景丰富,数据来源有很大的开发潜力。若创业者们能够同时发展硬件和软件(包括但不限于模型),软硬件结合的创业,并且能在一两个具体场景中持续创造出价值,就有可能脱颖而出。
本文来自微信公众号“阿尔法公社”(ID:alphastartups),作者:阿尔法公社,36氪经授权发布。















