地平线「国产FSD」交卷,抢先体验在此
中国智能汽车特别是智能辅助驾驶接下来怎么样?
那得看“公约数”能怎么样……这不,以公约数著称的地平线,交卷了。
自主计算硬件No.1——地平线J6P,上车。
行业首个开源端到端——UniAD,迭代为最领先的一段式端到端HSD,上车。
征程系列出货突破1000万片——地平线完整的工程化能力,终于服务了自研全栈系统。
自有计算硬件架构、自研AI司机大模型、久经考验的量产交付经验,全行业只有三家,而之前的特斯拉、华为已经创造过奇迹。
这也是为何地平线备受关注的核心原因,而且伴随着地平线SOTA,也必将带动更广泛的量产智能汽车SOTA。
因为现在,地平线已经明确—— “中国版的FSD”——HSD,来了。
问题是体验如何?
完全体HSD,有什么不同
一句话,已经不是测试状态,而是无限接近量产:
底层计算硬件是地平线J6P,算力560TOPS;软件算法采用了一段式端到端,不再依赖规则兜底。
车,也不是大众ID系列改的测试车,而是奇瑞旗下的星途星纪元。
其实星纪元就是地平线HSD首发量产交付的项目,过几天的成都车展上全新车型即将亮相:
这一版的HSD,最大的进步是纵向的速度控制,体现在红绿灯起步、自动跟车过程中,张弛有度不疾不徐,车辆起步非常迅速,基本都是第一个冲出去,但是体感上并没有不适:
缓慢跟车或者是博弈的时候,仪表盘上有时显示为0,但其实车辆还在挪动调整姿态,目的是为了让跟车距离不至于过长而被插队:
“细腻”,还可以在路口左右转的时候体会到,无论是面对机动车还是非机动车,都不会完全刹停,一直在稳步向前,并且方向盘也不会抽搐抖动:
体验上,端到端一直就是老司机,但HSD的准量产版本显然更加“老司机”了。
以前是“先看到再思考”,而现在是看见那一刻就已经在动方向盘,路径更短,反应更快,容错率也更高。
走VLA路线的玩家,强调的是L——语言模型能对场景环境产生认知能力,从而指导轨迹输出。
体现在系统的判断能力,能明显的感知:
遮挡视野的大车转完后,对面有个大爷正在骑车过来,经验不足的司机其实很难精准判断距离,但HSD根本不怂,直接通过,因为实际上和目标还有相当远的一段距离。
另外,HSD的绕行能力也非常强,会在有条件的情况下,主动压线或者借道来避让其他社会车辆,在无标线的路段更不用说,绕行避让更加丝滑:
这个三岔路口,HSD要左转,前面的车要掉头,HSD直接见缝插针,完成了左转的同时,顺手让了一台非机动车。
当然,在测试过程中我们也发现了问题:
双向单车道场景下,HSD把正常等红灯的车流识别成了路边违停车,直接一个绕行到了对向车道,搞了一次逆行超车。
至少证明HSD端味真的很足,基本不依赖规则。
但说实话,这个bug真的蛮严重。可能归因为效率优先的开发思路,意思是训练数据的选择上,不鼓励系统跟慢车“傻等”。
但解决问题的方法和周期,和以往大不相同。
“100%数据驱动”,端味很足。
HSD“不是技术迭代”
今年一月份,我们已经体验过一次地平线HSD。
芯片是最强的J6P,但软件还是两段式端到端,并且有一定规则兜底,车型也是测试车。
这其实也是目前绝大多数主机厂量产端到端的方式。
但地平线自述在研发过程中,发现了两段式的很多问题:
训练过程极不稳定:模型非常容易发散(Diverge) 或不收敛(Not Converge),难以稳定地学到有效策略。
存在因果混淆(Causal Confusion):模型难以准确理解过去的行为与当前决策之间的因果关系,可能导致错误的关联和学习。
关键能力难以掌握:模型自然而然地学会防御性驾驶(Defensive Driving) 和紧急刹停(AEB) 等安全行为是巨大的挑战,需要经历不同的训练阶段,过程非常不易。
总之,这些缺点并非设计理念有误,而是实现路径上的技术壁垒。
于是半年时间,地平线迅速完成了一段式端到端的切换,核心思想是由一个统一的深度学习模型,直接接收传感器原始数据(或经过预处理的特征),并输出最终的车辆控制轨迹(或控制指令)。
核心架构上,主要有3点创新:
稠密模态信息处理:高维、无损的抽象特征(Feature),而非感知模块产出的简化结果(如Bounding Box)。这保留了环境的不确定性信息,为拟人化决策提供了基础。
横纵向联合优化:模型直接输出包含横向(方向)和纵向(速度)信息的原始轨迹,从根本上避免了传统架构中横纵向控制解耦带来的“先转向后加速”或“先刹车后转向”的机械感和顿挫感。
后处理与安全校验:原始轨迹会经过一个轻量级的后处理层进行平滑优化,并由一个高优先级的安全校验模块进行最终把关,确保输出给线控系统的指令绝对安全。系统目标是通过模型能力的不断提升,逐渐减少后处理的依赖,使代码越来越简洁。
感知、理解、规控模块都进行了迭代。
感知
尽管是端到端架构,精准的感知能力仍是系统的基础,HSD在感知环节同样做了创新。
比如利用深度学习模型实现通用障碍物检测(OCC-Occupancy Network)进行告警建模,不仅能识别标准车辆、行人,还能对非常规障碍物(如土堆、掉落物)进行建模,输出高精度的3D占据栅格。
还通过先进的视觉算法和模型训练,实现极高精度的距离和位置估计,为窄道通行、极限泊车等场景提供可靠输入。
最后是长时序信息融合。因为模型并非处理单帧图像,而是融合连续时序的视觉信息,这是实现防御性驾驶和准确预测运动趋势的关键。
认知决策
这是系统的“大脑”,负责理解场景并做出拟人化的驾驶决,HSD的方法是引入了“快慢思考”双系统。
快思考是端到端模型,处理即时反应,应对绝大多数驾驶场景。它基于感知到的稠密特征,通过模仿学习(Imitation Learning)人类驾驶员的行为,输出丝滑、连续的轨迹。
慢思考是大语言模型(LLM)与世界模型:处理需要逻辑推理和常识理解的复杂场景(如理解特殊交通标志、判断前车是“死车”还是“排队”、在复杂路口进行规划)。
其中,大语言模型被用来理解交通规则、标志牌语义等符号化信息,进行跨领域的常识和逻辑分析。世界模型则用于构建物理世界的因果关系,预测其他交通参与者的意图,并进行更长时间的序列推理。
最后是利用强化学习手段连接和增强快慢思考系统。通过让AI在仿真环境中进行自主探索(Autonomous Exploration),学习如何处理罕见(Corner Case)和危险场景,从而不断强化模型的推理和泛化能力。
控制执行
负责将认知决策模块输出的轨迹,转化为车辆可以执行的精准控制指令。包括直接轨迹控车:端到端模型输出的轨迹经过平滑和安全校验后,直接下发给线控系统执行,确保了控制的整体性和丝滑性。
另外,通过大规模学习人类驾驶数据,模型输出的控制指令在加减速、转向节奏上高度拟人,避免不必要的点刹、重刹和方向盘大幅晃动,提升乘坐舒适度和安心感。
数据闭环与仿真
这是支撑整个系统持续进化的“基础设施”。
尤其是大规模数据驱动,系统性能的提升不再依赖工程师编写规则,而是依赖于大规模、高质量的真实和仿真数据对模型进行持续训练。
其中既有高精度仿真平台,构建了覆盖大量长尾场景(Corner Cases) 的仿真测试集,可以高效、安全地重现罕见危险场景,用于模型测试和训练,极大提升了解决长尾问题的效率;
也有自动化迭代流程,建立从真实路测数据回收、场景提取、仿真验证、模型训练再到版本测试的全自动化闭环,能够实现快速迭代(如每周发布新版本),持续提升系统上限。
经过这一系列技术演进,地平线官方认为,现在的HSD不是一次技术迭代,而是范式革命——通过一段式端到端架构、数据驱动与大模型融合,实现更拟人、更安全、更丝滑的智能驾驶体验。
余凯的“3年定胜负”,开局怎么样?
年初,余凯博士对自动驾驶趋势格局的最新判断是:
三年的时间,行业大局可定。
具体地说,是智能辅助驾驶体验三年hands off,五年eyes off,十年minds off。
跟不上这个节奏的玩家,很可能会被淘汰出局。
即将在奇瑞星纪元新车上量产交付的HSD,对应的就是hands off的第一步。
整个过程,地平线的策略是稳扎稳打的。比如hands off的第一步技术体系没去追时下流行的VLA,而是攻坚一段式端到端,把体验做好。
地平线的逻辑是这样:
技术上看,大语言模型在车端有限算力上,很难把延迟做低。
有多难呢?举个例子,6月份英伟达发布了Thor平台的延迟测试报告,用的是内部自研大模型,而且是参数量仅2B的VLM,一通优化后在1000T的ThorX平台上跑出了530ms延迟,不到2Hz,远低于自动驾驶底线要求10Hz左右。
系统延迟降不下来,意味着VLA用在实时性要求极高的智能辅助驾驶系统,对技术实力、成本投入要求极高,更多的车企可能最多做一做“语音控车”这样非刚需功能。
表面上看是技术优化问题,本质其实是成本问题:更优秀的AI工程师,价格肯定更贵。
但对于地平线来说,最后交付量产的方案,必须是全行业的方案,而不是给某个车企某个车型独供。
这一定程度上解答了现在主机厂纠结的问题:上了VLA,就一定能形成代差优势吗?
实际上,一段式端到端就是VLA中“V”+“A”部分,模型直接学习输入数据与输出轨迹之间的映射关系。
而且可能更加贴近“第一性”原理:
人类驾驶行为本身就是“眼睛——动作”的自然反射,根本没有“从图像数据提取语义信息,从语义信息转化成动作”的过程。
还是那句话,自动驾驶没有silver bullet,不存在一招制敌的捷径。
本文来自微信公众号“智能车参考”(ID:AI4Auto),作者:贾浩楠,36氪经授权发布。