华为小米，走上同一条技术路线

智能车参考·2026年04月15日 17:43

连华为都在融合VLA

ADS 5发布前夕，华为与上海交通大学合作，发了这样一篇成果：

一个框架，2B模型，统一VLA和世界模型。

这意味着华为正在探索新的技术方向。

华为车BU CEO靳玉志此前曾表示，VLA是“取巧”方案，华为选择的WA（世界行为模型）路线才能实现自动驾驶。

然而就在ADS 5即将上线之际，华为参与的这项工作，尝试把VLA和世界模型融合了。这条路线与很多玩家不谋而合，比如小米和理想。

华为与上交大，统一VLA和世界模型

作者团队认为，VLA和世界模型这两大主流范式，各有各的短板。

VLA擅长推理，一看路就知道现在该怎么开，但问题是，VLA无法预测执行决策后，下一秒周围环境会怎么变。理解当下能力强，预测未来不行。

而世界模型预测能力不错，它能根据眼前的路况，推测出下一秒的环境变化，但也有问题，它只负责预测，不对预测结果进行反思推理，确定结果是否安全。

因此这篇论文的关键，不是单独增强VLA或世界模型的能力，而是把“预测未来”和“反思未来”形成闭环。

为了将两者优势融合，团队提出了VLA-World，在执行驾驶任务时，会先进行短期预测，生成对未来0.5秒的预测帧，然后对自己生成的这个未来帧，进行反思，预判其中的风险，最终输出驾驶决策，以及未来3秒的预测轨迹。

为了打通从感知到预测，再到反思的链路，团队设计了三阶段训练流程。

首先，团队选择Qwen2-VL-2B作为基模，然后进行多视图未来帧预测预训练，并强制不同视角生成图片的一致性，激活模型的视觉生成能力。

第二步，对模型进行监督微调，利用nuScenes-GR-20K数据集，进行多任务混合训练，把驾驶概念注入模型。

最后，采用GRPO算法对模型进行强化学习，增强模型的高级推理和决策能力。其中，奖励函数由五个部分组成：

格式奖励：确保输出结构规范
短期预测奖励：鼓励准确的短期轨迹预测
视觉约束奖励：确保生成的视觉token数量正确且合理
动作奖励：基于F1分数评估高层动作决策
轨迹奖励：确保轨迹精度与运动学一致性

通过上述方法，模型同时获得了预测想象和反思推理能力。除此之外，还验证了自动驾驶模型的Scaling Law。

团队发现，将基模换成7B大小后，L2误差即模型预测值和真实值的差距，明显降低。

不过，这项工作还有一些潜在问题，比如生成的未来帧分辨率只有128X192，不太清晰，可能会损失一些场景信息，影响模型决策。

另外，目前模型的推理链条比较长，可能会影响驾驶任务的实时性。

最后简单介绍一下作者团队，这篇论文由上海交通大学和华为合作完成。第一作者单位是上海交通大学人工智能研究院，主要作者Wang Guoqing 、 Ren Xiangxuan和Tang Pin都是上交大的博士。

通讯作者马超是国家优青、上海交通大学教授、博导，谷歌学术被引次数超1.4万次，长期和华为合作，研究成果此前落地了华为达芬奇芯片和辅助驾驶MDC平台。

此次他们和华为诺亚方舟研究室的Zhao Guodongfang、Feng Bailan合作，共同提出了VLA-World。

走向融合

这项成果押注的方向，最近隐隐成为了行业趋势。

比如不久前在英伟达GTC上，理想VLA负责人詹锟就在演讲中介绍了MindVLA-o1，通过引入预测式的隐世界模型，让模型能够预判未来几秒的场景变化，做出更好的决策。

几乎同时，小米XLA认知大模型负责人陈龙也透露，小米最新的XLA将VLA和世界模型融合了，通过潜空间推理，推演当前场景的变化。

主机厂在模型层面实践，推动VLA和世界模型融合。供应商也从更宽广的行业视角，见证了这一趋势。

数据基建玩家光轮智能的创始人谢晨，最近在采访中透露，很多客户正在把世界模型作为基座模型，提升VLA的能力。

两条路线的评价基准，也正在融合。比如有一家叫ENACT的公司，就基于VLA的评价体系，打造了世界模型的评价体系。

“如果两件事的评判标准越来越接近，那这两件事，将来可能就会是一回事”

论文传送门：

https://arxiv.org/pdf/2604.09059v1

参考资料：

https://valser.org/article-729-1.html

https://www.bilibili.com/video/BV1sLX9B4EqD

https://www.bilibili.com/video/BV148w9zJEyh

https://www.21jingji.com/article/20260413/herald/1b037cb81459b85b426769d75c3bcf35.html

本文来自微信公众号“智能车参考”，作者：一凡，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

华为小米，走上同一条技术路线

华为与上交大，统一VLA和世界模型

走向融合

最近内容

36氪AI测评

36氪寻求报道

下一篇