复盘特斯拉FSD进化史:把端到端推向无人驾驶终局
编者按:
智能驾驶的发展,并不是一条线性上升的技术曲线,而是一系列技术范式、工程约束与现实场景不断博弈的结果。无图、端到端、世界模型、VLA……每一种路径,都被寄予厚望,也都在落地过程中逐渐暴露出边界。
随着行业逐渐走出概念验证阶段,单一技术名词已无法解释真实能力差异。算力规模、数据质量、系统架构、工程稳定性,正在共同决定智能驾驶的上限与下限。
站在工程与产品的交汇点,汽车之心特此策划出“智驾进化论”系列文章,理解不同技术选择背后的现实条件,以期看清技术热词背后的真实进展,理解这场长期竞赛中的关键变量。
特斯拉 FSD 又在全球秀了波硬核操作。
一辆搭载 FSD V14 的 Model 3,从美国西海岸的洛杉矶出发,驶向了 2732 英里( 约 4400 公里 )外的南卡罗莱纳州。这是一段横穿美国大陆的行程,穿越 24 个州,跨越沙漠、平原、山地和数不清的高速出入口,并覆盖多种不可预见的天气情况。
整段行程耗时 2 天 20 小时,全程 0 接管。
并线、超车、博弈、进出高速、沿途充电,所有驾驶任务,全部由 FSDV14 完成。
上一次完成类似横跨美国大陆测试的,还要追溯到 2015 年的德尔福。当时,德尔福使用的是一辆深度改装的奥迪 Q5,车身布置超过 20 颗传感器,在极端环境下仍需要人工干预,整段行程耗时了 9 天。
对比之下,这次特斯拉完成挑战的工具,是一辆只配置 8 个摄像头的量产车 Model 3。
显然,在 FSDV14 版本上,特斯拉又一次印证其自动驾驶技术的领先性。
英伟达机器人业务负责人 Jim Fan 提出了一个耐人寻味的判断:FSD V14 可能已经通过了「物理图灵测试」。
也就是说,在真实道路环境中,已经很难分辨这是机器驾驶,还是人类驾驶。
回顾自动驾驶的发展历程,每一次关键转向离不开 FSD 的「灯塔」效应。
从 BEV + Transformer 推动「无图化」,到 FSD V12 掀起端到端浪潮。自动驾驶圈里都开始自我调侃:遇事不决,就看特斯拉。
这两年,国内智驾公司沿着「端到端」这条路径狂奔,也分化出了段式端到端、VLA、世界模型等多条技术支路。
但追上特斯拉了吗?
客观点说,还有差距,但差距在缩小。
卓驭 CEO 沈劭劼在最新一次采访中表态,现在与特斯拉的距离,已经 从最早的三年缩短到一年时间。
具体而言,是与特斯拉 V14 的距离。
现在,特斯拉 FSD V14 的任务不仅是 L2,还有已经在路上跑的 L4,大量特斯拉 Robotaxi 证明, 它已经将 L2 通往 L4 的进阶路径打通。
特斯拉 FSD,可能是最接近自动驾驶的正确答案。
当然,特指 FSD 北美满血版。
所以,站在这个时间点,有必要思考一个课题,特斯拉的自动驾驶,是如何一步步「开悟」的?
01特斯拉 FSD 三代进化:一场关智能涌现的工程实验
如果把自动驾驶系统看作一颗大脑,那么 FSD 的三代演进,本质上完成了一次大脑进化:从模仿,到具备连续意识,再到思考与推理,FSD 的自动驾驶水平像升级打怪般,开启了智能涌现时刻。
FSD V12:端到端基础版,让 AI 自己学会开车。
2024 年初,特斯拉推送 V12 版本,自动驾驶决策的主动权,第一次从工程师手中转移到神经网络。
一个直观变化, 特斯拉约 30 万行自动驾驶相关代码,被压缩到约 3000 行。
过去十多年自动驾驶的主流路线,本质是工程拆解,感知、预测、规划、控制,各模块各司其职,按照规则代码保证秩序,但不可避免陷入极端场景无法穷尽、柔性意图难以解释的难题。
直到端到端掀桌,让系统通过数据驱动形式学习人类驾驶行为,将各模块统一成整体,输入感知信息后,立刻输出方向盘和踏板动作。
结果立竿见影。特斯拉智驾负责人 Ashok Elluswamy 曾在 X 上公开表示:几个月训练的 V12,已经全面超过了多年积累的 V11。
高效的数据驱动方式,让系统在应对复杂交通状况时不再机械反应,而是像人类一样正确博弈。
何小鹏在试完 V12 版本后直言,这与此前版本完全是两种能力,并称要向其学习。
正是从 FSDV12 开始,几乎所有 L2 玩家都见识到了端到端的魅力,并相信一点,人类无法手把手教会 AI 怎么开车,但可以让 AI 自己学会开车,这将是通向自动驾驶终局的最优解。
FSD V13:端到端完整版,让 AI 全程开得稳。
FSD V12 只是证明了端到端的可行性,但要让这套系统稳定、持续得跑起来,还需要解决一个核心问题:
如何让 AI 真正像人一样,具备短期记忆与上下文理解能力。
人类司机在复杂路况中,会记住旁车变道激进、前方 500 米有施工区域、左侧车道有大货车。这些信息构成了连续的驾驶意识。
V13 的核心升级,就是让 FSD 具备了这种能力。
特斯拉 AI 团队成员曾在 X 上这样介绍 FSD V13,「它看起来很像 Raptor V3,非常干净。」
这是一个火箭引擎的类比,意思不是单纯强调「推力更大」,而是它终于具备了可规模化、可持续迭代的工程形态。
最直观一点,FSDV13 在硬件架构上有了全面焕新,开启了 HW4 时代。从该版本开始,马斯克着重强调起 AI 计算能力,将芯片平台 HW4 命名方式改为 AI4。
HW4 (AI4) 是面向 FSDV13 及后续版本打造的主力硬件平台。相较 HW3,其算力直接提升 5 倍,业内预估约 720TOPS。大算力、大内存、高功耗、高能效都在为 FSDV13 功能拓展提供充分空间。
提升感知能力:36Hz 全分辨率视频输入,摄像头像素跃升至 500 万;
计算能力跃迁:5 倍训练计算扩展、3 倍模型尺寸缩放;
具备短期记忆能力:3 倍模型上下文长度扩展;
……
简单概括,FSDV13 在同一时间窗口内,能处理更多信息,调用更复杂的决策网络,把端到端从「即时反应系统」升级为「连续推理系统」,相当于一次认知宽带的高密度扩容。
不容小觑的一点,FSDV13 开始增加「音频输入」,相当于在视觉之外,补全了听觉系统的感知范式,以此应对紧急车辆避让问题,也让端到端模型第一次通过声音这种先验信号,获得提前感知风险的能力。
体验层面,FSD V13 带来的决定性意义在于:集成退车、倒车和停车功能, 端到端终于覆盖了「车位到车位」的全部驾驶场景。
重点是:无需提前建图,不需要记忆路线。
FSD V13 能够在多层停车场识别箭头、寻找出口,像人一样「读懂环境」,相比国内玩家普遍提前学习的做法,无疑领先一截。
FSD V14:端到端成熟版,让 AI 没人看着也能开好。
如果说 V13 版本的特斯拉可以在 L2+层面如鱼得水,但到了 L4 层面,无人驾驶的绝对安全性下,这显然还不够用。
过去一年,特斯拉基于 Model Y 车型打造的 Robotaxi,从奥斯汀首发,8 月扩至旧金山湾区,累计测试里程超过了 200 万公里。
而按照计划,特斯拉 Robotaxi 2026 年将覆盖纽约等 30+城市,无方向盘 / 踏板的 Cybercab 车型也将在今年 4 月得州超级工厂量产。
但特斯拉 Robotaxi 的规模化、商业化蓝图,需要面对安全员下车、控制远程监督人车比、充电自动化、调度与故障响应等系列现实难题。
这些任务,都交给了 FSD V14。
没错,依靠 FSD,特斯拉正在打通从 L2 至 L4 层级的通路。
依然是基于 HW4 (AI4) 平台,但模型再度扩容:
参数总量提升了 4.5-10 倍;
视觉处理帧率提升至 48 Hz;
上下文窗口增加超过 3 倍
……
这相当于一个「反射型大脑」, 升级成一个「有前额叶的思考型大脑」 。AI 有了更深度的思考、推理、预测能力。
驾驶层面,可以识别与避让紧急车辆,精准识别路障、轮胎、树枝、纸箱等零散障碍物,误入死胡同也可以自动倒车掉头等。
这种类人自动驾驶能力,让 FSD V14 可以做到横穿美国东西海岸 0 接管,而更重要一点,是为无安全员 Robotaxi 运营奠定了坚实基础。
除了驾驶能力本身的提升,FSD V14 真正拉开代际差距的地方,来自于 xAI (马斯克旗下 AI 企业) 的 Grok 大语言模型接入。
此前的 FSD 更像一个「会开车的系统」,不会清晰表达,现在引入 Grok 后,FSD 有了一个清晰的认知接口,带来两项本质升级:
一是 出现意图理解能力 。将用户模糊指令转译为可执行的驾驶条件。例如「回家路上顺便买个麦当劳」,在系统内部会被拆解为路径规划、兴趣点搜索与时间约束等一系列结构化指令,再由 FSD V14 完成具体行驶。
二是 建立决策可解释性 。借助 Grok,FSD 的驾驶决策可以被翻译成人类语言,包括为什么出现系统报错、突然减速等。
这让原本封闭的模型黑箱,第一次对乘客、平台和监管变得可读。站在 Robotaxi 运营角度,Grok 的价值不在于「更会聊天」,而在于把 FSD V14 的黑箱决策,翻译成乘客、平台与监管都听得懂的语言,让自动驾驶第一次具备真正的运营可读性。
由此,FSD 的三代演进,本质上都带着革命性任务,层层递进,并接连为后续版本更新埋下铺垫:
V12 垒地基,回归到端到端正确轨道,证明数据驱动优于规则驱动;
V13 建高楼,搭建全场景端到端决策框架,夯实长尾场景泛化能力;
V14 精装修,解决体验稳定性和可靠性,为 Robotaxi 商业化铺平道路。
更值得注意的是,FSD 每一代都在为下一代埋伏笔:V13 版本增加音频输入模型,使得 V14 版本就具备了紧急车辆避让能力,以及 V14 版本也在为后续的 HW5 硬件预留接口等。
回看 FSD 从 V12 到 V14 的三次迭代,变化不在于功能堆叠,而在于能力曲线的陡然抬升。特斯拉没有在技术路线上来回试错,而是持续沿着端到端这一主线推进,一次次把原本被认为「过于激进」的设想,变成了可落地的工程系统。
自动驾驶还远没到终点,但至少现在,特斯拉依然是那个把路线图画对了的玩家。
02兜住端到端的下限,特斯拉早有应对
尽管端到端引爆了自动驾驶的奇点时刻,但它不至于被过于神话。
这一技术路径更像是一种方法论,某种程度上,特斯拉也是受到了大语言模型,尤其是 ChatGPT 训练范式的启发。
早期端到端刚盛行时,几乎所有厂商都声称「已经上船」,一度引发了关于端到端真伪的讨论。
随着热度逐渐回落,行业开始用更理性的视角重新审视这一技术路线: 如何在充分释放端到端优势的同时,解决其长期被诟病的「下限低」问题:
黑盒,可解释性差。为何突然急刹、不避让障碍物,没有明确工作日志解释。
数据噪声导致安全性威胁。学习到错误的驾驶行为产生违反交规、预判错误的低级错误。
国内厂商的主流做法相对一致:通过规则系统作为安全兜底,试图用传统工程方法守住安全下限;在可解释性问题上,要么采用「两段式端到端」作为过渡方案,要么引入大语言模型,通过 VLM、VLA 的方式让 AI 的「思考过程」显性化。
而最近从 Ashok Elluswamy 发布的长文中,透露了特斯拉的应对招式:
先解决模型如何理解世界, 让端到端系统始终运行在一个可还原、可验证的世界表征上。
第一步, 先把「黑箱」打开。
Ashok Elluswamy 提到了一项技术:生成式高斯泼溅。它能使系统在约 220 毫秒内,基于多摄像头视频流,重建连续、动态、可推演的三维环境。
这意味着,工程师可以直接看到,模型当下认为道路结构、周围车辆、遮挡关系各自是什么状态。
当系统出现异常行为时,不用再费心思盲猜系统为什么这么开,而是知道它当时是如何理解世界。
此外,特斯拉 FSD 也内置了小型化语言推理模型,用于训练 AI 用自然语言来解释自身行为,据悉一个小型版本的推理模型已经在 FSD v14.x 版本中运行。这与 VLM、VLA 有异曲同工之意。
第二步, 让模型学会后果,而不是单纯的动作。
FSD 打造了一个 「神经世界模拟器」 ,Ashok Elluswamy 强调:「它并非预测给定状态下的行动,而是根据当前状态和下一步行动来合成未来状态。」
从演示视频看,它主要能完成两项任务:
一是 验证新模型是否更好 。在同一段历史数据上,接入不同版本的 FSD,让它们在模拟世界中做出不同决策,并推演出多条物理上合理的未来轨迹,用结果来评估优劣;
二是 合成低频极端场景 。通过调整计算资源,模型可以实时生成超过 6 分钟的完整驾驶过程,期间 8 个摄像头、每秒 24 帧的画面,全部由神经网络实时合成。
这其实进一步改变了端到端的学习方式。
传统仿真训练还是由工程师主导,出现的困难都是人工预想,然后教会系统,遇到某种情况人类通常如何操作。
而神经世界模拟器,则是强调,不同决策,会把世界推向怎样的演化结果。
通过生成模型,系统可以批量构造现实中极少遇到、但风险极高的场景,并在其中反复测试不同驾驶策略的后果。所以端到端系统不会只条件反射式模仿,而是形成对因果链条的理解,以此建立对自动驾驶安全性的深度理解。
当模型既能清楚地「看到自己所处的世界」,又在训练中反复经历过「错误决策会导致什么结果」,系统的行为边界会自然收敛。
这套机制 一方面减少了端到端在极端场景下的失控概率,兜住了安全下限;另一方面,也为更复杂的长时推理、策略稳定性打下了基础。
实际上,早在 2023 年 AShok Elluswamy 的 CVPR 演讲,这些技术就已经露出端倪。
彼时他就强调,可以通过「生成式模型」来学习道路车道线、车道拓扑结构,以此适应复杂路况变化和不规则道路结构。
同时,演讲中也花大篇幅介绍通用世界模型,即构建一个能够理解环境、预测未来、推理潜在变化的连续空间模型,并将其作为训练基础。
换句话说,在端到端真正走向规模化之前,特斯拉就已经默认,端到端必须生长在一个可生成、可推演、可验证的世界之上。
正因如此,FSD 的进化路径并不是「端到端不行就打规则补丁」,而是提前重构了系统理解世界的方式,生成式技术与世界模型成为端到端自动驾驶系统得以稳定生长、快速跃迁的基础设施。
03FSD,国内玩家难以复制的特斯拉模式
一个颇为吊诡的现实是:
今天无论是 L2 智驾公司、L4 Robotaxi 玩家,还是具身智能初创团队,这三条看似不同的赛道,如果取一个交集,答案几乎一定指向同一家企业——特斯拉。
大家都在盯着特斯拉,拆解它的技术路径、复盘它的版本迭代,试图从中找到「可复制的方法论」。
但问题在于,特斯拉并不是在单点突破某一条赛道,而是把自动驾驶、Robotaxi 与人形机器人,放在同一个长期工程语境里统一推进。
Ashok Elluswamy 公开强调,FSD 的核心能力并不只服务于自动驾驶,其感知、世界建模与决策体系,理论上可以无缝迁移到擎天柱人形机器人上,即一套 AI 架构,覆盖多个物理智能载体。
这也正符合马斯克一以贯之的长期设想。
在《埃隆·马斯克传》中,自动驾驶 (FSD) 、Robotaxi 与人形机器人三个主题始终贯穿全文,用通用 AI 接管现实世界的物理任务。
正因如此,特斯拉从一开始就在为 FSD 铺设一整座「冰山之下的基座」,而这恰恰是国内玩家最难抄走的部分。
第一层基座: 压强级算力投入。
尽管砍掉了自研 Dojo 超算的规模化落地计划,但特斯拉并没有收缩 AI 投入,而是将重心彻底转向以 NVIDIA GPU 为核心的 Cortex 训练集群,用于 FSD 与人形机器人的大模型训练。
目前已公开的信息显示:
Cortex 初始部署约 5 万张 H100 GPU;
2025 年二季度新增 1.6 万张 H200 GPU;
H200 单卡性能约为 H100 的 4.2 倍;
按单张 H100 在 FP8 训练场景下达到数十 PFLOPS 等效算力估算,Cortex 集群整体训练能力已进入 数十至上百 EFLOPS 区间 。这背后,是持续多年的百亿美元级资本投入。
值得注意的是,这并不包括此前 Dojo 项目已经消耗的数十亿美元沉没成本。
对比国内玩家,即便是头部智驾公司,云端训练算力大多仍停留在 10 EFLOPS 量级。
以业务形态最接近特斯拉的小鹏为例,其公开数据为:近 2 万张训练卡;年度 AI 训练投入约 50 亿元人民币;总算力突破 10 EFLOPS。
显然,这并非「努力程度」的差异,而是资源禀赋的数量级差距。在 AI 时代,算力本质上是一个持续吞噬资本的无底洞,而特斯拉选择了用工业级现金流,长期压住这条曲线。
第二层基座: 源源不断的高质量数据。
算力决定了模型能跑多快,数据决定了模型究竟能跑多远。
特斯拉凭借其庞大的车队,拥有如尼亚加拉大瀑布般的海量数据。
截至 2026 年 1 月 8 日,特斯拉 FSD(监督版)累计行驶里程已达 71.73 亿英里,其中城市复杂路况超过 25.9 亿英里。
Ashok Elluswamy 也曾透露, 整个特斯拉车队每天产生的数据,相当于 500 年人类驾驶时长。
但真正拉开差距的,并不只是数据规模,而是数据的利用效率。
特斯拉构建了一套高度复杂的数据引擎流水线,先自动挖掘最有价值的 corner case,再强化稀有、危险、长尾场景的采样权重,最后形成数据驱动闭环。
更关键的是,随着 L4 线路的开启,Robotaxi 的真实运营数据正在成为全新的数据资产。
以 FSD V14 为例,其训练中已经整合了奥斯汀 Robotaxi 测试积累的 1200 万小时真实路测数据,并通过仿真与生成式世界模型放大,覆盖了施工区域、临时封路等 80% 的非常规城市路况。
第三层基座: 统一架构,而不是技术路线之争。
在这套算力与数据之上,特斯拉选择了一种极具工程野心的策略:让同一套世界模型、感知与推理架构,被反复复用、持续放大。
这也是为什么在特斯拉的技术体系中,端到端、世界模型、生成式建模、强化学习,甚至 VLA 并非彼此排斥,而是可以被同时吸收进来,为自动驾驶服务。
当国内玩家仍在争论 VLA or 世界模型更先进;是「语言即世界」,还是「空间即世界」是真理时。特斯拉的态度反而异常简单: 只要能提高 FSD 的智能驾驶能力,这些技术路径就没有意识形态冲突。
这种高度工程主义立场,决定了特斯拉不会被单一范式所束缚,也不会在路线选择上频繁摇摆。
而把视角拉回国内企业,会发现一个并不轻松、但并非悲观的现实。
特斯拉 FSD 的领先的核心原因,在于它在更早的时间节点,就启动了一套高投入、慢回报、极度吃耐心的长期工程。这套工程的前提条件:全球最大规模的车队、可持续的现金流、跨自动驾驶与机器人的统一战略,本身就难以复制。
换句话说,国内企业 生在了一张更薄的资源底牌上。
这也是为什么过去两年,我们看到国内智驾公司在技术路径上呈现出高度分化:有人选择「两段式端到端」先稳住下限,有人引入 VLA、世界模型尝试抬高上限,也有人把重心放在中阶智驾质性比层面的极致打磨上。
这些选择本质是现实条件下的理性博弈。
但特斯拉的绝对领先,并不意味着国内企业没有机会。
相反,随着端到端范式逐渐收敛、硬件平台趋于统一、数据闭环开始真正跑通,国内玩家与特斯拉的差距,正在 从「代际差距」转变为「工程效率差距」。
接下来的竞争焦点在于,谁能在有限资源下,把模型、数据与产品磨到足够扎实。
国内企业真正需要回答的问题,不是如何抄特斯拉的作业,而是在无法复制全部前提的情况下,如何走出一条适合自身资源结构的最优路径。
是合并资源抱团取暖,实现 1+1 大于 2,还是深度绑定主机厂,获得持续性量产角度保证,亦或者在无人物流、商用车细分场景打造第二增长曲线。
选择没有标准答案,只关乎现实成本。
毕竟,智驾开启「大逃杀」后,生存法则之一的确是紧跟特斯拉,但第一条永远是,先好好活下去。
本文来自微信公众号 “汽车之心”(ID:Auto-Bit),作者:刘佳艺,36氪经授权发布。















