世界模型驱动:具身智能告别“盲动”时代
具身智能正在经历一场静默的范式转移。
2026年初,蚂蚁灵波继空间感知模型、具身大模型与世界模型“三连发”后,又开源一款具身世界模型LingBot-VA。LingBot-VA首创“自回归视频-动作”世界建模框架,使机器人能够像人一样“边推演、边行动”,截止至目前,任务成功率较国际顶尖的Pi-0.5提升20%。 生数科技联合清华大学开源的Motus首次实现了“看-想-动”闭环,在50项通用任务的测试中,绝对成功率比 Pi0.5 提升了 35%。
几乎同期,斯坦福、英伟达团队等联合发布Cosmos Policy,实现了“仅用视频生成模型就能学会机器人动作”;英伟达再发布DreamZero,通过“联合预测未来视频 + 对应动作(视觉计划 ↔ 运动命令强对齐)”来学习物理与技能。
学术界的声音与上述模型的研究方向隔空呼应。图灵奖得主、深度学习先驱 Yann LeCun 认为,只有具备了像人类一样“预测未来”的能力,AI才能进行复杂的规划。技术路线分野已现,Sim-to-Real仿真派与“互联网数据+真实数据”派并行,“一脑多机”的软硬件解耦趋势加速。海内外系列开源模型为具身智能研究新范式提供了可复用、可验证的技术基座。
01. “边推演边行动”:解决具身智能的“长时漂移”难题
世界模型,源于认知心理学中关于“假设性思维”的研究,其核心目标是让智能体能够构建环境的内部表示,并预测自身行为将如何改变环境状态。
早期的世界模型,侧重于对视频帧等感知信号进行压缩和预测。现代的具身世界模型直接与物理世界的规则和约束对齐。这意味着,一个训练好的世界模型不仅能预测下一个画面是什么,更能理解一个球被抛出去会如何下落,机器人手臂抬起杯子时液体是否会洒出。
这种“预测未来”的能力,正是Yann LeCun所强调的复杂规划的前提。2026年初,这一理论构想开始转化为可验证的技术现实。
LingBot-VA 首次提出“自回归视频-动作”世界建模框架,将大规模视频生成模型与机器人控制深度融合,模型在生成“下一步世界状态”的同时,直接推演并输出对应的动作序列,使机器人能够像人一样“边推演、边行动”。
Motus 首次将 VLA(视觉语言动作模型)、世界模型、视频生成模型、逆动力学模型以及视频–动作联合生成模型等五种主流具身基础模型范式统一到同一框架中,构建起贯通“感知、推理、行动”的统一建模路径。
英伟达与斯坦福的Cosmos Policy提供了不同的技术路径。该模型的核心在于强大的规划能力,能更精准地预测动作的后果。在面对困难任务时,模型不会只给出一个动作,而是先提出建议:策划模型先提出N个可能的动作系列;再想象未来:利用世界模型为每个动作想象出执行后的未来画面;后评估打分:利用价值函数给这些未来画面打分;进而择优执行:选出得分最高的那个动作去执行。
实验表明,这种基于模型的规划,在极具挑战性的任务中,比单纯的执行动作成功率高出许多,复杂任务的成功率提升12.5%。
当Cosmos Policy在海外刷新纪录,国内的LingBot-VA也将旧纪录甩在身后。
在真机评测中,面对制作早餐、拾取螺丝等长时序任务,插入试管、拆快递等高精度操作,以及叠衣物、叠裤子等柔性物体操控,LingBot-VA仅需30—50条演示数据即可完成适配,成功率较Pi-0.5平均提升20%。在仿真层面,其在双臂协同基准RoboTwin 2.0上首次将成功率提升至90%以上,在长时序终身学习基准LIBERO上达到98.5%,均刷新行业纪录。
酷哇科技近日推出COOWA WAM 2.0时,从另一个角度讲述了推理的重要性。
过去十年,深度学习的成功主要建立在“大规模真实数据驱动的自监督学习”之上,语言系统的词汇与语法规则虽然庞大,但终究是有限的,新样本大多落在既有的语义流形之内。但物理世界中,状态与交互的组合近乎无限,且动作的后果无法仅由历史共现模式推断。
由于物理世界的不可逆性,具身智能无法像训练AlphaGo那样在真实世界中进行无限次的试错。通用机器人必须引入反事实推演(Counterfactual Reasoning)能力——即机器人在执行动作之前,在脑海中预演“如果我这样做,世界会变成什么样”,这是WAM 的意义。
DreamZero 提出的WAM,就是跳出了 VLA (视觉语言动作模型)的框架,通过联合预测未来视频帧和机器人动作,从视频中学习世界的物理动力学先验,从根本上解决了物理运动泛化差、依赖重复演示数据、跨形态迁移难、空间感知与动力学缺失问题。酷哇科技也是从“动作复现”转向“规划推理”的推崇者,完成了从模仿者向思考者的跃迁。
02. 互联网数据+真实数据:一条更难但更正确的路
种种迹象表明,“从模仿执行到先思后行”正成为具身智能的共识方向,另一个默契出现在数据路线选择上。
回看曾经的主流选择Sim-to-Real(从仿真到现实):先在虚拟环境中海量训练,再将习得的策略迁移到真机。这一路径的优势显而易见,仿真数据便宜、可无限试错。瓶颈在于仿真的“盲区”,流体动力学、柔性物体形变、传感器误差——这些真实世界的物理细节,仿真很难精确建模,解决周期可能比降低真实数据采集成本更久。
更根本的问题是,物理世界的组合复杂性近乎无限,仅靠历史共现模式无法推断动作后果,累积误差会在长序列决策中被不断放大。
蚂蚁灵波首席科学家沈宇军直言:“Sim-to-Real不是我们的主技术路线”。蚂蚁灵波的解法是互联网数据+真实数据。
“我们发现,利用物理世界的数据叠加一层预训练,对具身模型能力的提升非常有帮助”,沈宇军表示。这一策略在LingBot-VLA上得到验证——基于九种主流构型的超两万小时高质量真机数据预训练,该模型在权威评测中超越一系列国际顶尖基线。
COSMOS Policy也提供了关键佐证,该模型是一个由视频生成模型做主干的SOTA机器人控制策略,即将视频生成能力转化为动作控制,而不是基于图像-文本做预训练。
团队在模拟环境和真实世界中进行了广泛测试。具体到模拟环境测试的LIBERO 榜单,COSMOS Policy达到 98.5% 的平均成功率,刷新了纪录。在真实机器人上,Cosmos Policy挑战了四个高难度任务,表现出色,特别是在最难的“把糖果放入密封袋”任务上,能够精准抓住袋子边缘。这证明最好的机器人大脑可能是看了万卷录像带的视频模型。
同时,互联网数据+真实数据的配合让Scaling Law(规模法则)在物理世界显现。
LingBot-VLA研究显示,当训练数据从数千小时扩展到2万小时量级时,模型泛化能力出现明显跃迁,比如可呈现为跨任务/跨物体/跨环境的成功率提升。这意味着具身智能不再仅靠“手工调参 + 单点 demo”,而在向“可规模化训练 + 可迁移基座”的工程路径靠拢。
Motus的真机测试也证明了这一法则。
在 Data Scaling实验中,相比国际领先的 VLA 模型 Pi0.5,Motus能够从更广泛的数据类型中学习,并有效融合更多预训练基座模型所提供的先验能力。在50个任务的平均成功率上,Motus相较于Pi0.5实现了35.1%绝对成功率的提升。同时在相同性能水平下展现出 13.55 倍的数据效率。通过引入更丰富、更异构的多模态先验,Motus 在 Scaling Law 作用下,能更高效地形成更通用的智能能力。
LingBot-VLA、Motus 和 COOWA WAM的测试成绩同时指向一点:真实世界的反馈闭环不可或缺。这也解释了近期多款大模型采取边推演边动作机制的原因:不靠死记硬背仿真数据,而是尝试理解物理规律。
03. 开源铺路,具身智能的“安卓时刻”是否到来?
技术突破只是前半场,产业分工的重构才是终局。
传统机器人行业深陷“重复造轮子”的困境:每换一个任务、换一种本体,就要重新采数据、调参数,工程成本极高。硅谷 AI 产业新闻枢纽之一的MarkTechPost 编辑兼CEO Razzag指出,这正是机器人难以从试点走向大规模部署的核心障碍:“反复训练/再训练”的隐性成本被严重低估。
“一脑多机”与软硬件解耦,正在打破这一僵局。
“我们更侧重基模研发,初期就坚定选择了跨构型的路径,通过与行业内相关数据提供商深入合作来满足模型训练数据多样性的需要。”蚂蚁灵波 CEO 朱兴表示。
目前,蚂蚁灵波的LingBot-VLA基座已适配九种主流机器人构型,证明了跨本体迁移的可行性。这意味着,少数通用具身大脑可以驱动多类机械臂、底盘、灵巧手,中小硬件厂商得以聚焦执行器精度与耐用性,软件能力通过调用基座获得。研发范式由每家从零训练走向在基座上做适配。
这一趋势与智能手机的“安卓时刻”高度相似:操作系统层统一软硬件接口,应用层释放创新活力。区别在于,具身智能的操作系统尚未定型,开源成为加速收敛的关键变量。
蚂蚁灵波的策略是“饱和式开源”:一周内连续发布LingBot-Depth(空间感知)、LingBot-VLA(智能基座)、LingBot-World(世界模型)、LingBot-VA(具身世界模型)四款核心模型。通过提供高效的“后训练工具链”,让硬件厂商能用更低的数据量和 GPU (图形处理器)成本,将“大脑”适配到自己的“身体”上。朱兴的逻辑很清晰:“在路线尚未收敛的早期阶段,开源是推进行业进步的最优解。”
国际开源生态的响应同样积极。 英伟达与斯坦福联合发布的Cosmos Policy已开源模型与代码;英伟达DreamZero开源了模型权重、推理代码,以及真实世界 / 仿真基准的运行代码。谷歌开放了Genie 3体验平台,
这些工作与蚂蚁灵波、清华生数Motus形成全球范围内的开源共振,共同推动“世界模型驱动具身智能”的技术基础设施建设。
“该系统已经在 Franka Research 3 上得到验证。LingBot-VLA 展示了如何将基于视频的预测与 Franka 这样的机器人相结合,使机器能够学习、适应并可靠地执行复杂任务。”机器人公司 Franka 通过官方账号宣布。
在国内,LingBot-VLA 已与星海图、松灵、乐聚等机器人厂商完成适配,验证了模型在不同构型机器人上的跨本体迁移能力。
“真实世界纷繁复杂,充满物理性和因果关系,而如今的大语言模型(LLM)几乎无法触及这些。真正的智能必须能像人类一样,在脑海中进行推演,只有具备了这种预测未来的能力,AI 才能进行复杂的规划。”Yann LeCun已经指路。
要让这一愿景照进现实,需要行业的铺路人——从英伟达/斯坦福的Cosmos Policy与DreamZero,再到清华的Motus,开源社区正在共同啃下最硬的骨头,铺出最宽的路。具身智能的基础设施,正在全球协作中加速成型。















