500万次围观,1X把「世界模型」真正用在了机器人NEO身上
还记得那个穿着「Lululemon」紧身衣、主打温柔陪伴的家用人形机器人 NEO 吗?
上次聊到它时,大家还在吐槽其「远程操控」的隐私安全问题,调侃每个机器人的背后可能都是一个「印度小哥」。
昨天,1X 公司带着它的全新「大脑」亮相:1X World Model。这一次,NEO 似乎准备把「背后的操作员」给解放了。
简单来说,现在的 NEO 不再只是死记硬背动作,它学会了像人一样「想象」。通过观看海量的网络视频和人类第一视角的实操录像,它理解了物理世界是如何运作的:东西掉了会下落,门是可以推开的。
他们把类似 Sora 的视频生成技术装进了 NEO 的脑子里,接到指令时,它会先在脑海里生成一段「自己成功完成任务」的视频,然后倒推身体该怎么动,才能把这段想象变成现实。
不过,官方博客中也表示,有时候会出现「脑子学会了,手没学会」的情况:脑补出的视频很完美,但实际动作可能会抓空。
那么这一次是「瑜伽服」下的真功夫,还是只存在于 Demo 里的「剪辑魔法」呢?不管技术落没落地,热度已经先爆表了。到截稿时间,官方推文浏览量已突破 500 万。
看来,在经历了 AI 时代各式各样炫酷 Demo 的轮番轰炸之后,大家还是忍不住想看看:这一回,它是真长脑子了吗?
以下是 1X 技术团队对这颗「新大脑」的硬核拆解:
家庭机器人要真正走进现实环境,必须具备常识性的行为能力以及对物理世界的深刻理解。
当前许多机器人基础模型采用的是 VLA 范式:即在一个预训练的 VLM 之上,增加一个用于预测机器人动作的输出头(例如 PI0.6、Helix、Groot N1.5)。VLM 能够从互联网规模的数据中学习到丰富的知识,但其训练目标更侧重于视觉与语义理解,而非对物理动态过程的预测。
因此,即便是对人类而言非常简单的任务,模型往往也需要数万小时、成本高昂的机器人数据才能学会完成。此外,为了进一步强化模型对物理交互中空间关系的理解,研究者通常还需要引入各种辅助训练目标(如 MolmoAct、Gemini-Robotics 1.5)。
在这篇博客中,1X 介绍了基于视频预训练的世界模型——1XWM,并将其集成进 NEO 机器人作为其控制策略。
与 VLA 模型直接从静态的图像-语言输入中预测动作轨迹不同,世界模型驱动策略是通过文本条件下的视频生成来推导机器人应采取的动作。借助互联网规模视频中蕴含的真实世界动力学规律,该世界模型能够在无需大规模机器人数据预训练、也不依赖任何相关的遥操作演示的情况下,即可泛化到全新的物体、运动方式和任务场景。
这标志着机器人智能范式的一次转变:机器人开始直接受益于视频预训练规模化带来的能力跃迁,而这一切得以实现,离不开一整套为高保真人类具身到机器人具身迁移而设计的硬件系统支持。
从视频知识到世界模型
如今,诸如 Veo 和 Sora 等前沿文生视频模型已经能够生成极其逼真的视频内容。然而,这些模型在零样本生成场景下并未与机器人具身形态对齐,因而在控制任务所需的多个关键维度上往往存在不足,表现在以下几个方面:
视觉/空间层面:生成的视频是否与机器人的相机内参和自我中心视角一致?是否能够准确保留操控任务所需的深度信息以及精确的空间关系?
运动学层面:生成视频中的机器人动作是否在该具身形态下可实现,是否遵循其结构特性、关节极限、速度约束以及执行器能力?
物理层面:生成过程是否避免了物理上不可能的结果(例如物体瞬移),从而保证其能够转化为现实世界中的成功执行?
原始视频能够提供看起来会发生什么,但并未给出如何去做。为了将视频知识转化为真正可用于控制的世界模型,1X 借助自身的端到端系统架构,采用了一种两阶段的对齐过程,思路与 DreamGen、UniPi 等已有工作一脉相承:
世界模型主干:这是一个文本条件扩散模型:先在互联网规模的视频数据上进行预训练,随后在人类第一视角视频数据上进行中期训练,并最终在 NEO 专属的传感器-运动日志上进行微调。该模型能够高保真地预测场景随时间演化的过程,在视觉、空间和物理一致性方面表现出色。
逆动力学模型(Inverse Dynamics Model, IDM):通过训练 IDM,将像素空间与执行器控制连接起来,使其能够预测在生成帧之间完成状态转移所需的精确动作序列。同时利用 IDM 的评估指标和拒绝采样机制,对生成结果施加运动学约束,从而确保动作在具身层面上的可行性。
在推理阶段,系统接收一个文本指令和一帧初始画面:世界模型负责生成符合意图的未来场景演化,逆动力学模型从中提取所需的动作轨迹,最终由机器人在现实世界中执行该动作序列。
1XWM 的训练与推理流程
1XWM 的主干模型基于一个 140 亿参数的生成式视频模型。为了使该模型适配 NEO 的具身形态,1X 还采用了一种多阶段训练策略:
第一视角中期训练:使用 900 小时的人类第一视角视频数据进行训练,使模型对第一人称的操作任务产生对齐。在这一阶段,模型能够学习到通用的操作行为模式,但仍然难以生成由 NEO 执行具体任务的视频。
具身微调:随后,使用 70 小时的机器人数据进行微调,使模型进一步适配 NEO 的视觉外观与运动学特性。
以 DALL·E 3 等工作为例,已有研究表明,通过使用更具描述性的视觉文本标注进行训练,可以显著提升视觉基础模型对提示词的遵循能力。然而,许多第一视角数据集仅包含简要的任务描述。为此,1X 利用一个 VLM 生成更加详细的描述性字幕,并通过字幕上采样的方式将其用于训练。
此外,IDM 在 400 小时未经过滤的机器人数据上进行训练,其中既包括随机探索数据,也包含与任何具体任务无关的运动轨迹。这使得模型能够在任意状态下对 NEO 的运动进行准确追踪。
在测试阶段,系统接收一帧初始画面以及一条指导 NEO 执行动作的文本指令。1XWM 负责生成未来的视频序列,随后由 IDM 从生成视频中提取对应的机器人动作轨迹,并将其直接下发至机器人执行。为保证轨迹的平滑性,IDM 的输出会在多个初始噪声样本和滑动窗口维度上进行时间平均处理。
NEO 后训练数据集主要包含高质量的抓取和放置数据(98.5%),这些数据经过筛选,仅包含桌面操作且手部可见的场景。通过利用基础视频模型的网络级预训练,1XWM 模型可以泛化到各种未曾见过的物体、环境和任务。
1XWM 到底能做啥
研究团队进一步评估了 1XWM 在任务泛化方面的能力,重点关注其是否能够完成 NEO 从未经历过的任务,以及生成视频与真实机器人执行之间的一致性程度。
在实验中,搭载 1XWM 的 NEO 被用于执行多种超出既有经验的任务,包括:
抓取分布内与分布外的物体;
操作此前从未见过、但具备复杂可供性的物体;
完成需要全新动作模式的全新任务。
实验结果显示,1XWM 生成的视频与真实世界中的执行过程整体高度一致。将模型生成的视频与机器人实际完成任务后拍摄的视频进行并排对比,可以发现二者在视觉表现上非常接近。这表明,1XWM 在空间结构理解、运动学约束建模以及物理一致性等方面已经具备较强能力。
抓取:
新动作:清洁
接下来,1X 尝试需要双手协调和人机交互的任务。这些能力并未包含在训练数据集中。这表明此类知识来源于视频预训练和以第一人称视角进行的人机交互训练。由于 NEO 的身体结构与人类非常相似,因此从人类视频数据中学习到的功能可以直接迁移应用。
研究团队还通过系统性的实物实验评估了 1XWM 在分布内(ID)与分布外(OOD)任务上的表现。每类任务均重复执行 30 次。结果显示,1XWM 在多种动作原语上都保持了稳定的成功率,不过部分对精细操作要求较高的任务(例如倒液体、绘图等)仍然具有一定挑战性。
能否将视频质量与任务成功率联系起来?
如果可以,就能使用视觉指标来衡量和改进视频质量,并估计实际任务成功的可能性。
有时,生成的视频是否可能成功一目了然。例如,向 1XWM 模型输入拉取纸巾指令,有时会生成 NEO 机器人拿起纸巾盒而不是拉取纸巾的视频。执行这些错误生成的视频时,成功率几乎为 0%。
1X 团队注意到像测试时计算这样的方法可以提高任务成功率。受此启发,他们尝试并行生成多个视频,并执行其中质量最好的一个。这个选择过程可以手动完成,但也可以使用 VLM 评估器进行自动化。
第一视角数据与高质量字幕的重要性
基于此前假设:生成视频的质量与任务成功率之间存在相关性,研究团队对若干训练选择进行了视觉层面的消融分析,重点考察了字幕上采样以及第一视角人类数据训练这两项因素的影响。
实验共使用了三个评测数据集,每个数据集均包含 500 组起始图像–提示词对:
分布内数据集:包含与机器人训练数据分布一致的复杂任务和场景,主要是杂乱环境中、物体位置较为困难的抓取与放置任务。
新任务数据集:由一组全新的任务构成,例如搅拌碗、抽纸、相对尺寸判断(选择更大的物体)、双手协同操作等,数据采集于真实世界中的简单背景场景。
分布外 T2I(OOD T2I)数据集:完全由抓取任务组成,其初始帧由文生图模型生成,随机采样分布外的家庭物体与背景场景。
下面是新任务数据示例:
团队还要求人工标注员审查每个生成的视频,并根据物理合理性、任务完成情况以及与 NEO 的形态和能力的一致性来决定接受或拒绝该视频。
字幕上采样在所有评测数据集上都能提升视频生成质量,因为更细致的字幕与视频模型预训练时的文本条件更加匹配,也能更清晰地引导具体动作生成。
引入第一视角人类数据则显著提升了新任务和分布外场景下的生成质量,说明这类数据为操作任务提供了可迁移的通用先验,且与 NEO 的类人具身高度契合。
不过,在已有大量 NEO 数据覆盖的分布内任务上,额外加入第一视角数据可能会稀释后训练数据分布,对效果提升有限,甚至略有负面影响。
参考链接: https://www.1x.tech/discover/world-model-self-learning
本文来自微信公众号“机器之心”,36氪经授权发布。















