世界模型来了,旧的自动驾驶芯片开始失效

汽车之心·2026年05月25日 09:34
自动驾驶芯片,TOPS 时代正在结束。

过去几年,汽车行业有一个越来越明显的变化:车企开始亲自下场造芯片。

特斯拉有 FSD 已迭代至第五代;蔚来推出神玑 NX9031;小鹏自研 AI 图灵芯片;理想造了马赫 M100;比亚迪、吉利、Momenta 也被频繁点名。

表面上看,这是一场「去英伟达化」的运动。

但如果只看到这一层,就太浅了。

真正的问题是:自动驾驶模型本身,已经开始变了。

从 CNN,到 Transformer,再到 DiT 与世界模型,模型范式在切换,而旧时代的芯片逻辑,未必还能接住下一代自动驾驶。

这才是车企重新造芯片的真正原因。

01

不是省钱,是抢控制权

自研还是外采,表面是商业决策,骨子里是对技术路线的判断。

自研或外采取决于车厂对自动驾驶路线的判断,芯片研发周期比较长。

从完整定义设计目标到芯片上量产车型,中间需要 2-4 年。海外厂家更长,可能是 3-5 年。

这意味着芯片厂家在今天落笔,押注的其实是 5-8 年后的技术走向。

预测错了,要么芯片生命周期大幅缩短,要么干脆没人用。

做汽车数字类芯片,赌性确实很大。

车企自研芯片,某种意义上是在说:我比供应商更清楚自己五年后要跑什么模型。

5 纳米甚至 3 纳米,一次性工程费用加对外采购 IP 高达数亿人民币。一次性工程费用加 IP 授权,动辄数亿人民币。

出货量不够,账面上一定是亏的。但这笔钱可以进整体研发成本,还能拉高市值、强化科技品牌。

账算到最后,商业逻辑是通的。

技术门槛方面,随着 IP 生态成熟、EDA 工具链完善,以及索喜这类专门服务车厂定制芯片的中间商涌现,工程难度正在快速下降。

真正难的部分,已经转移到软件栈、编译器和长期模型适配上,这恰恰是芯片供应商最难替你定制的部分。

02

模型变了,

芯片的逻辑也得变

先搞清楚现在的自动驾驶,在跑什么模型。

目前自动驾驶路线有三条。

一是分段端到端,大多数厂家的选择,典型代表是 Uni-AD,总参数一般不超过 5 亿。

二是VLA 路线,视觉-语言-行动模型,加扩散动作专家或 MLP,融合世界模型提高推理效率,VLA 通常是 MoE 架构,参数一般在 20—70 亿。

三是世界模型加扩散动作专家,目前还没有量产上车的案例,要等的时间可能比想象中更长。

这三条路线对芯片的需求截然不同。

而且没有哪家厂家只押一条路。

三条线都在做,都在看,没人敢掉队。

这里有一个流传很广的误区:只要 TOPS 数值够大,就能应对所有模型。

CNN 时代确实如此,算力堆上去,性能就上去。但今天是 CNN+Transformer 的混合时代,明天可能是 Transformer+DiT 的时代。

5000TOPS 的芯片,跑 DiT 架构,很可能打不过 300TOPS 的对手。

决定胜负的,是存储带宽、编排能力、紧耦合分级内存、SFU、可编程向量算力。哪一个,都比 TOPS 数字重要。

TOPS 崇拜,正在失效。

世界模型的核心是 DiT 架构

03

世界模型带来的新麻烦

第三条路线是去年才真正成形的。它的核心架构,叫DiT

世界模型的典型架构,上图来自论文 Fast-WAM: Do World Action Models Need Test-time Future Imagination?

世界模型为什么特殊?

因为 DiT 对时序信息有天然的亲和力。它不只是个「更好的图像生成器」,而是为视频、动画乃至自动驾驶和具身智能量身打造的架构。

无论联合建模、先想象后执行,还是「训练时建模、推理时直出动作」,无论哪一种世界模型范式,DiT 都是核心。

问题在于:市面上根本没有为 DiT 推理专门设计的芯片。

扩散模型推理流程

扩散模型的推理流程异常复杂。

传统高算力芯片只能应对稠密张量矩阵乘法,也就是去噪循环内部的计算。

其余的不规则计算、向量编码、内存敏感的激活,要么依赖标量 CPU,要么靠向量算法,对芯片设计构成严峻考验。

如果一家车企决心沿世界模型路线走,又不想等市场上出现合适的芯片,大概率只有一条路:自研。

04

存储带宽,才是真正的命门

有一个细节值得单独拿出来说。

无论哪条技术路线,存储带宽都是越宽越好。

VLM(视觉 语言模 型)最为典型——解码阶段是 VLM 的主要耗时,而解码速度完全由存储带宽决定。

换句话说,VLM 的整体性能,本质上是存储带宽的性能。

这也是为什么特斯拉 AI4/AI5 不惜血本拓宽存储带宽。他们很清楚,真正的瓶颈在哪里。

自回归 (AR) 架构的解码阶段是内存绑定的。算力再高,也无法加速。系统性能完全取决于存储带宽和调度延迟,这个阶段甚至有些小模型在 CPU 上跑比 GPU 还快。

扩散模型则是另一种困境:它高度依赖 Batch size ( 并发批处理数量) 。Batch 越大,矩阵乘法单元利用率越高。但 Batch 一大,去噪循环外的不规则运算和调度消耗就会暴涨,整体延迟大幅增加。

对延迟敏感的自动驾驶场景,Batch 通常只能设 1-4,很少超过 8。结果是:GPU 账面算力惊人,实际大量空转。

05

大核、中核、小核:

三种计算哲学

自动驾驶芯片的核心是 AI 加速器。而 AI 加速器的路线之争,本质上是三种计算哲学的对撞。

按照单个矩阵乘 ALU 的 M×N×K 维度,目前分三个流派:大核心、中核心、小核心。

(1)大核心:极致效率主义

大核心的典型是脉动阵列架构。

谷歌 TPU v5/v6,256×256,每个核心有 65536 个 MAC 阵列。数据只流入一次,沿脉冲向前传,SRAM 读取压力远低于小核方案。跑 LLM/VLM 这种形状高度规整、batch 极大的模型,能效比和性价比遥遥领先。

典型代表:谷歌 TPU、AWS Trainium、Groq LPU、英特尔 Gaudi、特斯拉 HW3.0、蔚来神玑、小鹏图灵、芯擎、高通 AI100。

TPU v5 每阵列频率 1.5GHz,单核算力约 197TOPS;v6 升级为 Tile 脉动,同频率下单核算力达 918TOPS。每条指令驱动 65536 次 MAC,稠密矩阵乘法上的效率压倒性领先。

代价也很明显。大核心更像一条超大型流水线——数据形状足够规整时效率极高,一旦模型结构变得稀疏、动态或非规则,流水线就开始空转。

大核心的缺点也很明显,首先是对数据流形状或者说矩阵形状高度敏感,256*256 的阵列要求 M\N\K 都必须是 256 的整数倍,如果不是整数倍,就需要 tile 切分、padding、layout 变换、双缓冲、collective。

256×256 的阵列要求 M/N/K 都必须是 256 的整数倍,稍有偏差就需要大量预处理工序。

编译器做得差,计算利用率低到 10% 甚至 1% 不罕见;做得好,也很难超过 40%。跑一个百亿参数的模型和一个千万参数的模型,用时可能一样。软

件团队规模是硬件的十倍以上——这条路,养人成本极高,亏损几乎不可避免。

另一个硬伤:

非结构化稀疏完全无效。自动驾驶视觉模型是典型的稀疏模型,而大核心是典型的稠密引擎。

谷歌 TPU v6e 为此单独增加了稀疏张量核心,但这必然增加软件复杂度和调度时间。

(2)小核心:极致灵活主义

小核心实际就是多核 CPU。

小核心的极端代表是特斯拉 Dojo——实质上是 384 核心 CPU 的集合体,每核有独立分支、循环、PC 和本地 SRAM。

它的天然优势:对任何形状的数据都能轻松处理。

batch=1 也能保持很高的利用率;天然适配 decode、MoE expert 路由、可变长 KV cache;原生支持非结构化细粒度稀疏。

Cerebras 的报告显示,75% 稀疏度下相对稠密基线可达约 2.5 倍实际加速——这在大核心架构上根本做不到。

代价同样明显。每个小核都要付出独立取指/译码/寄存器堆/控制逻辑的开销。同样工艺同样算力下,纯小核设计比脉动阵列多付 2—5 倍面积,也就是同样算力,成本要贵 2—5 倍。

这个数字,足以让大多数厂家望而却步。所以真正走小核路线的,凤毛麟角。

(3)中核心:平衡主义

英伟达选择了第三条路——既不极致,但也从不死路。

GPU 把矩阵单元做在 16×16,数量比大核多、远少于 CUDA core,一颗 H100 上中核 Tensor Core 负责稠密算力、CUDA 小核负责控制流和稀疏两套并存。warp 调度隐藏 shape 敏感性,不对齐的部分交给 CUDA core 补齐。

这正是英伟达真正强的地方,从来不是算力本身,而是在效率、灵活性与生态之间找到了某种平衡。

这也是为什么,即使所有车企都在喊「去英伟达化」,真正完全脱离英伟达的公司依旧极少。

典型代表:英伟达、AMD、华为(910/810/610 从一开始就是 16×16×16)、理想、Momenta。特斯拉 AI5 大概率也走中核路线。

高通的 NPU 是这套逻辑的另一个注脚。

从 SA8155 的 8TOPS 到 SA8397P/SA8797 的 80TOPS,矩阵单元数量一直没有变化,标量和矢量线程数量却在持续增加——应对越来越复杂的推理场景,高通选择的是往小核方向加筹码。

06

没有完美的芯片,只有押注

三条路线,各有死穴。

对于 VLM 这种大模型,GEMM 密度很高,矩阵尺寸大,大核心几乎完美,模型越大越完美。

但对于 DiT 和扩散模型,串行属性明显,某些部分 GEMM 密度很高,其余都是低密度,更适合小核心。而小核心的性价比,很难让商业决策者满意。

英伟达的中核心,在 GEMM 和非规则计算之间走钢丝,但应对 DiT 和扩散模型时,依然有力不从心的地方。

车载场景的特殊性还在于:不大可能跑百亿参数以上的大模型,存储成本撑不住。中核心加小核心的组合,或许是比较务实的应对方式。

小米的玄戒做汽车座舱芯片,技术上没有障碍;吉利、比亚迪、Momenta 的自研芯片项目,大概率也在推进中。

唯有传统车厂,依然秉持能外采绝不自研的逻辑。

这无可厚非,只是在模型范式加速切换的当下,这个原则面临越来越大的压力。

自动驾驶芯片真正难的,从来不是把芯片造出来。

而是今天就要押中,五年后 AI 会长成什么样子。

本文来自微信公众号“汽车之心”(ID:Auto-Bit),作者:周彦武,36氪经授权发布。

+1
5

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

以前是股东选公司,现在公司开始挑股东。

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业