特斯拉已不是智驾行业“标准答案”
时隔两年多,特斯拉再次“开麦”。
与此前不同,这次特斯拉对于自家智能辅助驾驶算法进展的分享,并不是在AI Day的舞台上,而是在近日举办的计算机视觉顶会ICCV(International Conference on Computer Vision)期间。
特斯拉自动驾驶副总裁阿肖克·埃鲁斯瓦米(Ashok Elluswamy)作为嘉宾,在大会上发表了主题演讲。
有可能为了接上2023年6月他们提出端到端架构之后的“闭麦”,阿肖克从“特斯拉为何会选择端到端?”开始分享,但经过多年实践,他们也发现仅通过端到端想要做好智能辅助驾驶,存在一些挑战。
图源Tesla AI
首先就是端到端系统需要解决从极高维到极低维的映射问题,这种映射往往是多对一,因此要保证输出的正确性,训练难度可想而知。阿肖克的言外之意,或许是在强调端到端模型的“黑箱”问题。
基于特斯拉庞大的用户规模,每日可为他们产生相当于500年驾驶时长的数据,但其中多数是没有太多价值的常规场景数据,对于算法的长远泛化没有太大帮助。
为了解决这两个问题,特斯拉在架构和算法层面做了一些优化和调整,比如在输出决策控制指令前,还会输出OCC占用网络和3D高斯特征等视觉信息,以及思维链COT自然语言信息。
与此同时,基于庞大的真实数据基础,特斯拉还建立了名为“神经世界模拟器”的闭环仿真系统。通过这套系统,不仅可以训练算法,并且还能验证算法的正确性,好比同时是“训练场”和“考试场地”。
看到这里,是不是闻到有股熟悉的味道,这不就是国内车企们和自动驾驶企业布局的VLA模型和世界模型。换句话说,特斯拉已从之前站在讲台上的“老师”,变成了与理想、小鹏、吉利、华为、地平线和Momenta一起探索智驾最终答案的“同学”。
或许正因这样,小鹏汽车CEO何小鹏曾表示:“实际上,国内任何一家有实力AI玩家,早就不care马斯克在做什么了”。
不仅如此,曾负责特斯拉Autopilot和自动驾驶项目的两位前高管,在这段时间也对特斯拉自动驾驶进程表达了担忧。毕竟,根据特斯拉最新的财报,订阅FSD的比例只有约12%。
已不是智驾行业“标准答案”的特斯拉,未来将会驶向何方?
01、VLA vs 世界模型,特斯拉:我全都要
提出端到端架构两年后,特斯拉他们依然觉得该架构很重要。
首先端到端架构能减少从感知输入端到控制输出端的信息损失,就像面对鸡、鹅等小动物过马路这个场景,传统模块化模型就会在信息传输过程中丢失一部分信息,导致输出端形成信息瓶颈无法做出正确行动。
但端到端架构,就可以确保决策和控制端依然能基于丰富的信息,再加上神经网络和数据驱动从大量人类驾驶行为中学习到“经验”,从而做出正确、安全和有效的驾驶行为。
正因这样,整个端到端架构的信息密度是巨大的。可以简单算一笔账:输入端在30秒内以36Hz频率采集的7路500万像素摄像头视频、长达数英里的导航地图、100Hz的车速与IMU信息,甚至还有大量的音频信息,整体信息维度相当于20亿token。
对于特斯拉来说,输出端仅是方向和加减速的控制信息,约等于2个token,这就意味着端到端需要解决的是从极高维信息到极低维信息、多对一的映射问题,就好比要从一团乱麻中找到最终指引向出口的那唯一一根正确线头。
端到端模型,图源SEA
翻译一下,阿肖克所说的正是行业中老生常谈的——端到端由于存在信息维度压缩和深度神经网络非线性等特性,导致“黑箱”和不可解释性问题不可避免。
另外,在训练数据上,特斯拉同样遇到了瓶颈。按照阿肖克介绍,基于庞大的用户群体,特斯拉每天可接收相当于500年驾驶时长的数据,这个数据量放到行业中看确实令人艳羡,但其中大多数数据却都属于简单和常规场景。
换句话说,特斯拉正像中国玩家们一样,缺少真实的高质量数据来“喂养”算法。毕竟训练所需的高质量难例数据可遇不可求,地平线CEO余凯由此才会说出那句“在AI时代,99%的人类数据是不值得学习的”。
特斯拉这次技术分享的重头戏,正是他们对于以上问题提出的解法。
针对特斯拉最新的端到端架构,阿肖克表示“并不是彻头彻尾的‘黑箱’系统”。从他的介绍看,现在的端到端架构在输出决策规划信号之前,还输出了很多中间结果,包括OCC占用网络和3D高斯特征为主的场景重建视觉信息,来展现对于环境的感知细节。
除此之外,特斯拉还引入了思维链COT(Chain-of-Thought),训练算法用自然语言来解释自己的行为,并给出下一步的行动轨迹。这些中间结果,不仅可用于SR界面的渲染呈现,同时也能用于研发校验和调优,来保证模型输出的正确性。
特斯拉具备可解释输出模型,图源Tesla AI
理想车主们对于以上描述应该非常熟悉,因为是他们在前排屏幕上经常看到的路径规划和思维过程的画面。这就是VLA模型中的“L”(Language)部分,再加上V(Vision)的2D、3D信息,以及MoE、Diffusion模型和A(Action)的部分,就组成了VLA模型。
目前,除了理想之外,小鹏、元戎启行和千里科技(千里浩瀚9H方案)等品牌,也都采用了VLA架构来打造自身的智驾系统或者方案,让自身的智驾功能不仅适于与用户交互,同时也能让智驾行为更像人。
对于特斯拉来说,目标是一致的,但他们同时还在致力于打造一个算法评价模型。
以阿肖克的介绍来看,他们已经基于庞大的真实用户数据,在云端打造了一个“神经世界模拟器”(neural world simulator)。
它的用途有三个,利用闭环仿真验证端到端指令的正确性、利用场景编辑生成能力生成对抗样本检验模型能力和利用模拟器在闭环仿真系统中获取人驾真值。
翻译一下,就是基于真实用户驾驶视频数据,一边来生成在现实世界难获取的难例(Corner cases)数据,从而在云端训练和迭代智驾算法模型;另一边,把训练好的算法模型放到生成好的世界模型中进行仿真权重评价测试,针对性通过强化学习来增强模型能力。
就像是特斯拉为FSD在云端打造了一个闭环的“驾校”和“考场场地”。相比于现实世界中高质量数据的难获得,在神经世界模拟器中就可以让算法训练和评价实现穷尽。
特斯拉闭环模拟神经网络模型,图源Tesla AI
实际上,像这样的云端世界模型,并不是特斯拉首创,而是像理想、小鹏、零跑、华为乾崑和商汤绝影等国内玩家已经早已布局。
这其中,以华为乾崑为代表的玩家们,在打造云端世界模型的同时,还在车端部署了世界模型,就像华为乾崑的车端世界行为模型WA,是基于视觉、听觉和触觉等感知数据,经过Token化后训练出的原生基模型。
由此,在国内智驾行业中就有了端到端、VLA和世界模型的三种技术路线之争,但从以上分析来看,特斯拉的最新智驾方案有可能把端到端、VLA模型和世界模型三者都涵盖了。
特斯拉他们会这样选择,并不是只为了“集百家之长”这样简单,因为在飞说智行看来,端到端、VLA和世界模型并不是简单的非此即彼竞争关系,而是端到端为基础、VLA和世界模型是升级的动态融合演进关系。
例如上述主流玩家们无论在车端部署端到端还是VLA模型,亦或者是世界模型,都需要在云端建立一个参数量更大的世界模型进行仿真生成训练和评价,并且还有一些玩家车端的模型,就是云端世界模型通过修剪和蒸馏所得。由此,何小鹏、李想和余承东等大佬此前都对世界模型给予了肯定的评价。
除此之外,特斯拉布局VLA和世界模型的目的,还想去支持机器人业务的发展。
按照阿肖克表示,特斯拉闭环仿真引擎同样可以迁移到机器人领域,而机器人Optimus和自动驾驶FSD技术栈的统一,也为后续Cross Embodiment(跨实体具身)带来的更泛化的具身AI发展带来巨大的想象空间。
图源特斯拉官微
相比之下,理想和小鹏两家车企布局VLA和世界模型的时间更早,并且都已喊出了“要成为AI企业”的目标,他们应该和特斯拉有着同样的规划。
只不过,相比于之前举办AI Day的特斯拉,现在的特斯拉已经掉下神坛,与理想、小鹏、华为乾崑和地平线等国内玩家们站到了一起。
根据飞说智行观察,这次特斯拉分享技术进展后,与之前AI Day后朋友圈刷屏的热度相比冷清了许多,由此也能看出大家对于特斯拉在干什么,确实没有之前那么关注了。
毕竟除了技术进展之外,特斯拉在其他方面的成绩也不够亮眼。
02、谎言、质疑和不爱用,特斯拉FSD未来驶向何处?
都2025年了,马斯克依旧在为自动驾驶“画饼”。
在最近的第三季度财报会上,马斯克表示特斯拉有望在今年年底前在8到10个新的州展开Robotaxi运营,其中就包括内华达州、佛罗里达州和亚利桑那州等对自动驾驶技术政策宽松的大州。
而在上个季度的财报会上,马斯克曾表示,特斯拉会在今年底前让Robotaxi覆盖美国50%的人口,并预计到今年底,特斯拉车主将能通过软件更新,使自己的车辆具备无需监督的全自动驾驶能力(L5)。
对于马斯克这样的“画饼”,大家早已司空见惯,毕竟从2016年开始,马斯克就开始鼓吹自家FSD可以尽早实现全自动驾驶的目标,但每到兑现期限无一例外跳票。
正因这样,曾负责特斯拉自动驾驶业务的前高管们看不下去了。
特斯拉前人工智能主管安德烈·卡帕西(Andrej Karpathy)最近在一档播客中表示特斯拉自动驾驶的问题远未得到解决,据了解他曾在2017-2022年领导特斯拉自动驾驶项目。
在安德烈看来,自动驾驶的迭代好比是无限接近100%的过程,在此之前就是无数个9的积累过程,按照他对Electrek回忆道,他曾领导特斯拉自动驾驶经历了两到三个“9”的迭代,确实显著减少了驾驶员接管的干预,但此后这样的进步就不明显了。
特斯拉无接管驾驶干预百分比,图源Electrek
安德烈之前,斯特林·安德森被行业公认为是特斯拉自动驾驶项目的首任负责人,因为他曾在2015-2016年领导特斯拉Autopilot发展,目前他已是通用汽车全球产品部门的负责人。
在近期通用汽车的活动中,斯特林对特斯拉自动驾驶的发展同样进行了质疑,“通用Super Cruise系统已实现约11亿公里的无接管行驶,且没有发生一起由于技术导致的事故。但特斯拉的自动驾驶系统,却无法达到这样的安全记录。”
在此背景下,目前特斯拉在奥斯汀和旧金山运营的Robotaxi车辆均配备安全员,以便作为系统失效或错误时的安全兜底。其中,奥斯汀区域的Robotaxi,安全员是坐在副驾位置;而在旧金山,安全员则是坐在主驾。
根据马斯克的规划,会在今年底前去掉奥斯汀大部分的安全员配置,未来几个月内,预期至少在奥斯汀的部分区域实现完全无安全驾驶员运营。为此,马斯克给出的解释是“这些人类监控员的存在并非因为公司技术存在缺陷,而是出于对安全的‘高度谨慎’”。
不过,先不说与特斯拉同场竞技的Waymo已经实现了无安全员的商业化运营,小马智行、文远知行和萝卜快跑等中国玩家们,则是更早就实现了Robotaxi无安全员的常态化运营。
Robotaxi没有按照马斯克所期望的速度发展的同时,特斯拉的智能辅助驾驶业务发展同样受阻。
特斯拉第三季度财报会上,特斯拉首席财务官瓦伊巴夫・塔内贾(Vaibhav Taneja)公开承认,上一季度FSD相关的收入较2024年同期有所下滑,具体原因是“目前付费使用FSD的客户总量仍然很小,仅占现有车队的约12%”。
特斯拉FSD,图源特斯拉官微
今年特斯拉对于FSD在美国市场的售价虽然进行了调价,买断价从之前的12000美元(约合85350元人民币)降至8000美元(约合56900元人民币),并推出了99美元的月度订阅服务。
但结果是,不仅没有促进用户们对于FSD的购买和订阅,反而FSD成为消费者们不购买特斯拉的主要原因。
根据Slingshot Strategies在今年8月发布的《2025年8月电动汽车情报报告》,他们对8000多名美国消费者进行调研后发现,有将近35%的受访者认为“FSD功能让他们更不愿意购买特斯拉”,因为他们对FSD技术不成熟,责任界定模糊和纯视觉方案可靠性不足等方面有所担忧。
这些消费者的担忧并不是没有道理。本月9日,美国国家公路交通安全管理局(NHTSA)宣布对约288万辆配备FSD的特斯拉汽车展开调查,起因是收到58起交通安全违规及事故报告,涉及闯红灯、逆行、车道识别错误等问题。
其中就包括当特斯拉车辆开启FSD之后,在路口与其他车辆相撞以及误驶向对向车道与别车相撞,导致多名人员受伤等多起事故。
03、后记
特斯拉对于全球自动驾驶行业来说,有着重要的价值。
基于特斯拉前些年相继提出BEV+Transformer、OCC占用网络以及端到端模型,不可否认在一定程度上给于中国玩家们很多启发,由此推动了整个行业向前快速发展。
两年前,或许因为“担心中国车企玩家们的模仿”传言,马斯克和特斯拉选择了“闭麦”,AI Day就此停办不再对外分享自动驾驶相关技术进展。
再到两年后的今天,理想、小鹏、吉利、华为乾崑、地平线和Momenta等玩家虽然在技术路线上已有“三足鼎立”之势,但马斯克应该也看到了一个事实:特斯拉已不是行业的“标准答案”,大家都在按照自己认定的方向向自动驾驶终局进行探索。
毕竟,自动驾驶行业从不缺少“神话”,而马斯克和特斯拉现在则需要更脚踏实地。
本文来自微信公众号“飞说智行”,作者:周雄飞,36氪经授权发布。















