定义新一代具身大脑:酷哇CooWAIM 2.0发布,让机器人拥有“交互式物理推演”本能
一台在早高峰十字路口作业的轮式机器人,或者一只正准备跨越不规则台阶的四足机器狗,在执行动作前,是否需要对物理世界进行预演?
过去几年,随着视觉-语言-动作大模型(VLA)的发展,机器人在理解指令与输出动作之间建立了有针对性的映射。但在复杂的城市开放场景中,例如面对前方突然逆行的非机动车,或者作业路线上滚落的杂物,传统模型往往容易遭遇决策瓶颈。
究其原因,目前业内的世界动作模型(WAMs)在架构设计上存在一定的局限:它们倾向于将“预测世界如何演变”和“决定智能体如何动作”分离为两个独立的分支。这种 “先预测,后规划”(Predict-then-Plan) 的流水线模式,在很大程度上忽略了物理世界中至关重要的互惠性(Reciprocity)——环境的未来状态,实际上取决于智能体当下采取的干预动作。
世界动作模型技术范式
为解决这一行业技术痛点,酷哇科技(Coowa)技术团队正式发布全新一代交互式世界模型 CooWAIM 2.0。作为 Coowa WAM 的跨代际演进版本,CooWAIM 2.0 从底层架构上彻底突破了前代模型“预测与规划分离”的局限。 该模型基于团队最新研发的 DAWN(Denoising Actions and World iNteractive model)架构 ,论文和代码均已开源:
论文题目:The DAWN of World-Action Interactive Models
论文链接:https://arxiv.org/html/2605.11550v1
DAWN 架构的提出,为交互式物理推演带来了新的“黎明”。CooWAIM 模型首次将隐空间物理推理深度融入决策闭环,让世界预测与动作生成在推理过程中实现协同演化,为具身智能世界模型的发展提供了极具前瞻性的解法。
论文题目:The DAWN of World-Action Interactive Models
论文链接:https://arxiv.org/html/2605.11550v1
01. 架构重构:构建“交互式”双向推演机制
02. 隐空间的极致压缩:Auto-Encoder Resampler
在端侧设备上实现高频的递归推演,对算力分配提出了极高要求。如果像传统的视频生成模型那样,每次都预测高分辨率(512*256)的未来像素图像,将带来难以接受的延迟。
因此,DAWN 架构的前端采用了强悍的视觉主干网络提取特征,而真正的优化核心在于其独创的 Auto-Encoder Resampler(自编码器重采样模块)。
在处理密集视觉特征时,Resampler 执行了深度的空间压缩 :
论文的消融实验(Ablation Studies)揭示了一个极其反直觉的结论:更多的隐变量 Token 并不意味着更好的规划效果,这意味着Token空间是存在冗余的。
实验团队对比了将密集特征压缩为 16 个 Token 和 64 个 Token 的表现。结果显示,虽然 64 个 Token 将 PDMS 评分微弱提升了 0.4 分(从 82.8 提升至 83.2),但推理延迟(Latency)却暴涨了近 3 倍(从 331.3ms 飙升至 963.6ms)。
基于此,CooWAIM 2.0 最终选择将繁杂的视觉数据提炼为 16 个潜变量 Token 。它有效地过滤了光影变化等冗余噪声,精准保留了路网几何、障碍物拓扑等决定规划质量的“核心物理语义”,为高频递归推演留足了算力冗余。
03. 短时推演效能:预测时间与精度的平衡
在世界模型的研究中,一直存在不同的探索方向:要么像 Fast-WAM 那样执行“Zero-rollout”(完全放弃显式未来推演,只靠隐空间直觉),要么执行长达十余秒的全周期未来预测。
DAWN 的实验数据为这一议题提供了实证参考:过长的预测不仅是算力的浪费,更是幻觉的温床;而完全放弃预测,则无法应对复杂交互。
根据论文中基于 NAVSIM 数据的世界推演视野(Rollout Horizon)消融实验:
• 完全无推演(0s):PDMS 评分为 82.8
• 短时推演(2s):PDMS 飙升至 87.3
• 满视野推演(4s):PDMS 为 87.9
WAIM交互式世界动作模型通过在隐式空间中进行短程推演,与不推演(Fast-WAM)和全程推演后再执行动作预测的两个极端相比,取得了效果和效率上的最佳平衡
数据表明,最核心的性能跃升集中在 2-3 秒的“短时潜变量推演”上。CooWAIM 2.0 无需消耗过量资源去模拟过度长远的未来,它只需要在隐空间里往后“看”一眼,确认接下来的动作不会引发连锁物理崩溃,这就足以支撑生成极高质量的长程轨迹。
04. 揭秘 CooWAIM 2.0 的四阶渐进式训练法则
如此复杂的双向交互架构,如果一开始就端到端联合训练,极易导致梯度爆炸或模式崩溃。为此,DAWN 架构设计了一套严密的四阶段渐进式训练法则(Stage-wise Recipe):
1. 视觉预训练(Vision Pretraining): 汲取 OpenScene、DrivingDojo 等海量互联网视频数据,让 V-JEPA 2 视觉编码器建立对真实物理世界的底层感知先验。
2. 重采样器训练(Resampler Training): 冻结视觉编码器,训练 Auto-Encoder Resampler,强迫模型学会如何将庞大的视觉特征转化为最紧凑的动作导向 Token。
3. 世界预测器训练(World Predictor Training): 引入大量真实数据集(如 nuScenes),让 Causal Transformer 学习在给定当前状态下,如何滚动推演物理世界的演变逻辑。
4. 世界-动作联合训练(Joint world-action training): 将世界预测器与基于 DiT 的动作降噪器联合,在这一阶段,模型共享特征权重,彻底打通世界推演与动作修正的闭环互动。
05. 公开权威基准测试SoTA
在最严苛的几项量化评估中,基于 DAWN 架构的 CooWAIM 2.0 世界模型展现了卓越的综合性能:
• NAVSIM v1 基准测试: 在无感知(perception-free)设定下,取得 89.1 的最高 PDMS 综合得分,远超 Drive-JEPA 等前沿模型,并在碰撞时间(TTC)、自车进展(EP)等安全刚性指标上全面霸榜。
• nuScenes 闭环规划测试: 平均轨迹 L2 误差史诗级降低至 0.33m(行业此前最强基线为 0.47m),在 3秒长视界的误差也压低至 0.52m。此外,在极度复杂的交互场景中,其平均碰撞率逼近 0.11%,真正做到了拟人级的主动安全规避。
06. 赋能全形态终端,重塑 Robocity 城市全景智能
DAWN 架构解决的并不是特定硬件的控制问题,而是“动作”与“环境演变”之间的通用博弈逻辑,这赋予了 CooWAIM 2.0 卓越的跨硬件平台泛化能力。
目前,酷哇科技正逐步将这套模型部署至旗下多元化的具身智能产品矩阵中,以适应不同复杂度的工作环境:
• 轮式底盘与智能小巴: 在城市主干道与复杂街区中,车辆面临着高度动态的交通参与者。搭载 CooWAIM 2.0 的X系列智能清扫机器人与L4级无人小巴Coobus,能够在隐空间内实时推演行人、非机动车的行为意图,并在汇入车流或贴边作业时,进行更具交互感的自适应博弈,提升城市服务过程中的行驶平顺性与安全性。
• 四足机器狗: 相比于轮式设备,足式机器人的动作空间包含了更高频的关节力矩与地面反作用力计算。在面对台阶、松软草坪或散落物时,CooWAIM 2.0 展现了对非结构化地形的强大适应力,机器狗能够通过短时隐空间推演预判足端接触面的物理反馈,从而提前规避失稳风险,深入传统轮式设备难以触及的末端场景。
• 泛人形机器人: 面向未来智能制造与家庭物业服务场景,人形机器人需要进行精细的接触式操作(如抓取、擦拭、协同搬运)。CooWAIM 2.0 的自我进化闭环,将持续助力人形机器人在复杂的双臂协同与环境交互中,实现更稳定、更泛化的作业能力。
结语
从自动驾驶到具身智能,从轮式底盘到四足与人形,酷哇科技始终聚焦"让机器人与美好生活共进"这一核心命题。CooWAIM 交互式世界模型的发布,标志着酷哇在通用具身智能底座上的技术深度已构筑起坚实壁垒。
未来,酷哇将继续以世界模型为技术中枢,推动多形态机器人在更广泛的城市场景中实现规模化、经营性落地。















