华为小米,走上同一条技术路线
ADS 5发布前夕,华为与上海交通大学合作,发了这样一篇成果:
一个框架,2B模型,统一VLA和世界模型。
这意味着华为正在探索新的技术方向。
华为车BU CEO靳玉志此前曾表示,VLA是“取巧”方案,华为选择的WA(世界行为模型)路线才能实现自动驾驶。
然而就在ADS 5即将上线之际,华为参与的这项工作,尝试把VLA和世界模型融合了。这条路线与很多玩家不谋而合,比如小米和理想。
华为与上交大,统一VLA和世界模型
作者团队认为,VLA和世界模型这两大主流范式,各有各的短板。
VLA擅长推理,一看路就知道现在该怎么开,但问题是,VLA无法预测执行决策后,下一秒周围环境会怎么变。理解当下能力强,预测未来不行。
而世界模型预测能力不错,它能根据眼前的路况,推测出下一秒的环境变化,但也有问题,它只负责预测,不对预测结果进行反思推理,确定结果是否安全。
因此这篇论文的关键,不是单独增强VLA或世界模型的能力,而是把“预测未来”和“反思未来”形成闭环。
为了将两者优势融合,团队提出了VLA-World,在执行驾驶任务时,会先进行短期预测,生成对未来0.5秒的预测帧,然后对自己生成的这个未来帧,进行反思,预判其中的风险,最终输出驾驶决策,以及未来3秒的预测轨迹。
为了打通从感知到预测,再到反思的链路,团队设计了三阶段训练流程。
首先,团队选择Qwen2-VL-2B作为基模,然后进行多视图未来帧预测预训练,并强制不同视角生成图片的一致性,激活模型的视觉生成能力。
第二步,对模型进行监督微调,利用nuScenes-GR-20K数据集,进行多任务混合训练,把驾驶概念注入模型。
最后,采用GRPO算法对模型进行强化学习,增强模型的高级推理和决策能力。其中,奖励函数由五个部分组成:
- 格式奖励:确保输出结构规范
- 短期预测奖励:鼓励准确的短期轨迹预测
- 视觉约束奖励:确保生成的视觉token数量正确且合理
- 动作奖励:基于F1分数评估高层动作决策
- 轨迹奖励:确保轨迹精度与运动学一致性
通过上述方法,模型同时获得了预测想象和反思推理能力。除此之外,还验证了自动驾驶模型的Scaling Law。
团队发现,将基模换成7B大小后,L2误差即模型预测值和真实值的差距,明显降低。
不过,这项工作还有一些潜在问题,比如生成的未来帧分辨率只有128X192,不太清晰,可能会损失一些场景信息,影响模型决策。
另外,目前模型的推理链条比较长,可能会影响驾驶任务的实时性。
最后简单介绍一下作者团队,这篇论文由上海交通大学和华为合作完成。第一作者单位是上海交通大学人工智能研究院,主要作者Wang Guoqing 、 Ren Xiangxuan和Tang Pin都是上交大的博士。
通讯作者马超是国家优青、上海交通大学教授、博导,谷歌学术被引次数超1.4万次,长期和华为合作,研究成果此前落地了华为达芬奇芯片和辅助驾驶MDC平台。
此次他们和华为诺亚方舟研究室的Zhao Guodongfang、Feng Bailan合作,共同提出了VLA-World。
走向融合
这项成果押注的方向,最近隐隐成为了行业趋势。
比如不久前在英伟达GTC上,理想VLA负责人詹锟就在演讲中介绍了MindVLA-o1,通过引入预测式的隐世界模型,让模型能够预判未来几秒的场景变化,做出更好的决策。
几乎同时,小米XLA认知大模型负责人陈龙也透露,小米最新的XLA将VLA和世界模型融合了,通过潜空间推理,推演当前场景的变化。
主机厂在模型层面实践,推动VLA和世界模型融合。供应商也从更宽广的行业视角,见证了这一趋势。
数据基建玩家光轮智能的创始人谢晨,最近在采访中透露,很多客户正在把世界模型作为基座模型,提升VLA的能力。
两条路线的评价基准,也正在融合。比如有一家叫ENACT的公司,就基于VLA的评价体系,打造了世界模型的评价体系。
“如果两件事的评判标准越来越接近,那这两件事,将来可能就会是一回事”
论文传送门:
https://arxiv.org/pdf/2604.09059v1
参考资料:
https://valser.org/article-729-1.html
https://www.bilibili.com/video/BV1sLX9B4EqD
https://www.bilibili.com/video/BV148w9zJEyh
https://www.21jingji.com/article/20260413/herald/1b037cb81459b85b426769d75c3bcf35.html
本文来自微信公众号“智能车参考”,作者:一凡,36氪经授权发布。















