强化学习,正在决定智能驾驶的上限

汽车之心·2026年02月10日 12:42
智驾头部玩家的统一答案。

智能驾驶的发展,并不是一条线性上升的技术曲线,而是一系列技术范式、工程约束与现实场景不断博弈的结果。

无图、端到端、世界模型、VLA……每一种路径,都被寄予厚望,也都在落地过程中逐渐暴露出边界。

随着行业逐渐走出概念验证阶段,单一技术名词已无法解释真实能力差异。

算力规模、数据质量、系统架构、工程稳定性,正在共同决定智能驾驶的上限与下限。站

在工程与产品的交汇点,汽车之心特此策划出“智驾进化论”系列文章,理解不同技术选择背后的现实条件,以期看清技术热词背后的真实进展,理解这场长期竞赛中的关键变量。

如果把近两年智能驾驶的技术讨论拆开看,会发现一个现象。

无论是端到端、VLA,还是世界模型,看起来路径各异,最后几乎都会指向同一个词:强化学习。

理想基于“VLA+强化学习”构建新护城河;小鹏也强调,“云端基座模型+强化学习”的组合,是模型性能突破天际的最好方式;Momenta则通过押注强化学习,打造出R6飞轮大模型……越来越多玩家,都在把资源往这条线上堆。

强化学习,正在从“技术选项”,变成“必选项”。

有意思的是,这个词在过去一点都不性感。

在更早的深度学习体系里,它只是一种相对小众、冷门的训练流派,长期存在于学术与实验系统中。

直到 AlphaGo、ChatGPT 这类产品出现,行业才突然意识到:原来让AI自己试错,才是进化最快的方式。

2025年,理查德·萨顿和安德鲁·巴托拿下图灵奖,算是给强化学习彻底“正了名”。

现在,强化学习是行业公认通向人工智能的必经之路。在智能驾驶这个最难落地、最讲安全的场景里,它正在悄悄变成决定上限的底层能力。

但,如何用好强化学习这一重磅级武器,强化学习能把智能驾驶带到哪一步?还需要更加确切的答案。

01

理解强化学习,先得理解模仿学习

在强化学习成为行业热词之前,智能驾驶真正吃香的,其实是模仿学习。

简单来说,模仿学习的思路是:让 AI 反复观看“老司机”的驾驶录像,然后不断刷题、照着学。红灯刹车,路口减速,变道打灯,全部变成“标准答案”。

这就像是给AI刷驾考题库,只要题库够大,成绩就不会太差。

在任何“学习”的语境中,模仿都是一种快速、稳定、成本相对可控的方式。

AI发展的早期阶段,很大程度上正是建立在模仿学习之上。

典型案例是AlphaGo。在进入强化学习阶段之前,AlphaGo先看了大量人类高手的棋谱,学会“人一般怎么下”。那时候的 AlphaGo,可以达到顶级业余棋手的水准。

但问题也恰恰出在这里,模仿学习的上限,往往只能是“接近人类平均水平”。

它的训练逻辑注定会带来弊病,包括在学习开车这件事上:

“师父不行,徒弟就废”:如果训练数据中的人类司机本身存在坏习惯,模型也会原样继承。

没见过就懵:如果遇到录像里从没出现过的情况,AI则没答案可抄。

不知为何而做:只是在模仿表象,而不是真正理解交通背后的物理规律和安全原则。

这也是为什么,自动驾驶靠模仿学习的确能解决90%的场景,但剩下10%的极端、罕见的长尾场景,却始终难以克服。

而AlphaGo给出的解法,正是强化学习。

在完成模仿学习打底之后,AlphaGo 进入“自我对弈”阶段,在数百万盘棋局中,它不再照搬人类经验,而是通过试错探索全新的落子策略,最终发现了大量超越人类直觉的下法,并击败了世界顶级棋手李世石。此后,迭代版AlphaGo Zero更是完全从零开始训练,不再依赖人类棋谱,通过强化学习式自我对弈,棋力远超此前所有版本。

AlphaGo 自我对弈计算下一步落子

从中可以提炼出强化学习的三条奥义:

  • 不再是AI学人类,而是AI教AI;
  • AI自己试错,答对奖励,答错惩罚;
  • 在大量实践中,总结出比示范更优的解法。

强化学习逐渐成为 AI 领域公认的“进阶路径”,智能驾驶玩家也开始将目光投向这一方向。

当然,时机也是决定性因素。长期以来,智驾行业陷入规则驱动与模仿学习的瓶颈中,直到端到端模型的成熟,才为强化学习创造了合适的土壤。

端到端把感知、理解、控制打包成一个整体,相当于给强化学习铺好了跑道。这也是为什么,端到端与强化学习默认绑定出现,几乎成了一套组合拳。

端到端解决的是一个前提问题:先让 AI 真正坐到驾驶位上,完整接管感知、理解和控制。

而强化学习给它立一套清晰的奖惩体系。开得对,就给正反馈;开得差,就扣分重来,最后让AI的驾驶水平有了指数级提升。

一方面,复杂博弈场景下,决策不再“犹豫”。强化学习引入后,系统不再只复现人类的单次选择,而是通过大量试错,学会了更合理的驾驶行为。

另一方面,极端与长尾场景下,系统开始“有经验”。

事故施工、临时改道、非标准交通参与者,这些情况在真实道路中出现概率极低,却恰恰决定系统的安全性,仅靠模仿学习,系统很难积累足够样本。而强化学习结合仿真与世界模型,可以在“虚拟世界”中反复经历这些场景。

比如Momenta R6飞轮大模型搭载强化学习框架,已经在别克至境L7等车型上量产,可以有效应对城市NOA场景中的极端情况。

总之,模仿学习让AI“学会怎么开”,而强化学习,决定的是AI“能不能越开越好”。这背后,是AI思考、推理能力的彻底打通。

值得注意的是,这是一个注定渐进的过程,智能驾驶面对的是一个高维、连续、强约束、强安全要求的现实世界,模仿学习的起步阶段更不能直接略过,否则AI反倒因为不会正常开车而加深工程化难度和安全风险。

这也是很多头部企业默认采用的训练范式。

比如地平线提出的 RAD 框架,在冷启动阶段,尤其是规划预训练阶段,核心依然是模仿学习。

先用人类驾驶数据,把模型拉到“预热状态”,具备稳定、安全的基本能力。等地基打稳了,再放进仿真环境,用强化学习做精修和打磨,把策略一点点抬上去。

说到底,模仿学习把AI先拉到“能安全跑”的水平,再用强化学习做策略进化与能力提升,这才是当前智能驾驶训练体系的正确打开方式。

02

奖励函数,强化学习最严厉的老师

如果用一句话概括强化学习,那就是让模型在“试错-挨打-涨记性”的循环里,自己学会怎么把车开好。

听起来很简单,但问题在于,如何判断系统的对与错。

这件事放在围棋上相对简单,因为这是一个封闭的博弈系统,本质上考验的是计算能力,赢就是终极指标。

AI完全可以通过高效计算进行海量自我对弈,一路反推最优策略。

但开车不是比赛。没有胜负,也没有“通关画面”,你很难说开车赢了,但你会说开车开得好,但关键就在于,如何把“好”具象化。

答案是,奖励函数,它能把“开得好不好”翻译成机器能看懂的分数。

现在行业里,对“开得好”的拆解,基本绕不开五个指标:

  • 安全。红线指标。撞车、剐蹭、闯红灯,直接扣到怀疑人生。
  • 合规。不压线、不乱插、不违规,让AI理解交规。
  • 舒适。急刹频率、急转方向等造成驾乘不舒适感,同样负奖励。
  • 效率。起步太慢、路口犹豫都会带来负反馈。
  • 稳定性。路径是否顺利,决策是否一致,也会影响最终得分。

简单而言,通过调节这五个维度的权重,将决定一个AI司机的驾驶风格与驾驶水平。

但这其中门道颇深。

第一,要在矛盾权重之中找到一个精妙的平衡点。

最经典矛盾:安全VS效率。太安全会偏向保守,反倒使得车辆行驶缓慢,驾驶犹豫,造成交通拥堵;但过于注重效率,又会导致经常变道、加塞,就会增加安全风险。

这其实没有标准答案,只能通过精调达到一个恰到好处的位置。

由此,车企、智驾企业的系统都保留了多种风格模式,满足不同用户的个性化需求。

比如卓驭端到端2.0版本系统会涉及敏捷、普通、舒适三种模式,轻舟智航基于J6M打造的端到端方案,在跟车距离上也设计了远、中、近三档调节,本质都是在调奖励权重。

轻舟智航单J6M端到端方案

但有一条铁律都没变过,再激进,安全权重也永远排第一。

第二,在奖励设计上讲究“代码”的艺术。

奖励函数是一种打分制,这会很容易产生bug,教AI开车,变成了让AI研究怎么“刷分”。

如果系统发现“少刹车就加分”,它就可能为了拿高分,在危险场景里硬冲过去。

以及,如果一次撞车得分-10000,但正常开车只是0分,在经历100万次驾驶场景后,撞车仅占5次,但平均下来的结果却是:-0.05分。反倒让AI彻底躺平,以为随便开得分都差不多。

所以,更合理的奖励体系是把过程密集拆解,分层控制。

提前在“快要撞”的每一步扣分,把一次事故拆成100个“小错误”,让系统明白越靠近分会越越扣越多。

同时,还必须配合效率奖励、通过奖励、博弈奖励,防止系统因为怕扣分变成“永远不敢超车的老实人”。

好的奖励设计,本质上是在安全与进取之间,搭一条看不见的钢丝。

在这个过程中,人类经验依然扮演着关键角色,比如在奖励函数中引入“人类反馈偏好”,让工程师或测试人员对驾驶片段打分,模型再去学习这些评价背后的隐含标准。

总而言之,强化学习从来不是简单的“多跑几轮训练”,它更像是一套长期调教机制。

本质上,AI驾驶水平高低,关键看工程师们作为AI调教大师的深厚功力。奖励设计、边界设定、风格权重,每一环都决定了AI是否从“会开”升级成“能开得更好、更稳、更聪明”。

03

有了世界模型,强化学习才真正起飞

在端到端的语境内,强化学习不算一个“新鲜词”,几乎每家企业都在技术路径中强调这一概念。

但严格而言,大家对于强化学习的应用并不一致,有玩家还在练基本功,有玩家已经在练内功。

从工程落地来看,强化学习在智能驾驶里的进化路径,大致分三层,本质上是一条从“刷题”到“实战”的升级路线。

第一层:调参型强化学习,本质是“高级螺丝刀”。

最早阶段,强化学习干的活,其实很朴素。比如刹车要不要早点踩?加速能不能再柔一点?

这些问题,本来靠工程师调参数。后来发现工程量太大,于是交给强化学习,用历史数据反复试,让系统自己找一个“差不多最优解”。

这一阶段的强化学习,本质就是个自动化调参器,相当于给原有系统配了把电动螺丝刀,能提升效率,但优化程度有限。

第二层:策略型强化学习,AI开始“学会算计”。

真正开始有点意思,是第二层。这时候的强化学习不再只调细节,而是开始参与决策本身。它开始思考更深度的博弈问题:

  • 这个并线到底抢不抢?
  • 路口是排队等还是挤到前面?
  • 旁边这辆车看起来像不像要加塞?

这时候强化学习开始登场,让AI在大量对抗场景里自己“琢磨套路”,很多人说的“AI开悟”,基本就发生在这一层。

但问题也很明显。这些训练环境,大多还是工程师可以预想到的情况,相当于AI在刷一本人类编的题库,题目再多也能穷尽,但现实交通的复杂程度永远超过人的想象。这也决定了,第二层体系,依然存在天花板。

第三层:世界模型,让AI在“副本”中训练。

第三层才是真正拉开差距的地方。强化学习摆脱了传统仿真数据的依赖,建立在一个世界模型之上,在这个系统里,AI可以:

  • 模拟信号灯坏掉的早高峰;
  • 复刻救护车横穿车流;
  • 重现暴雨夜视线受限;
  • 甚至还原不同城市的交通风格。

这时候的强化学习才真正有了发挥空间,因为它终于不用靠猜题了,而是在实战里成长。

可以看到,世界模型,本质上就是一个高度拟真的虚拟现实系统。世界模型越逼真,强化学习效果越好。

一方面,世界模型让AI学会“算长账”。

在高保真虚拟环境中,系统不再只看眼前这一脚油门,而是可以反复推演30秒、1分钟后的连锁反应,它会想到,现在强行并线,会不会在下一个路口出事?世界模型可以推演出结果,及时反馈。

当强化学习建立在这种长时推演能力之上,AI训练的就不只是“当前最优解”,而是长期最优策略。

另一方面,世界模型和强化学习一起,跑出了进化飞轮。

真实道路产数据,世界模型造场景,强化学习练策略,再回到实车验证,形成高速循环。一旦跑顺,模型迭代速度会明显拉开差距。

总结来看,强化学习本质上,是在“试错中学习”,而世界模型决定了试错环境的可信度,提升了强化学习的上限能力。

文远知行 WeRide GENESIS

头部玩家的技术演进,其实都在向这一形态靠拢。

华为在WEWA体系中,把世界建模、多专家系统和强化学习深度耦合,在虚拟世界中不断优化策略。

文远知行打造出 WeRide GENESIS,利用生成式AI构建厘米级高保真虚拟城市环境,其配套的指标系统,将真实行驶数据转化为可量化评价标准,用于针对性优化与复验。

英伟达新发布的Alpamayo 与 AlpaSim 框架,则支持多策略回放、反事实测试与推理路径对齐,使仿真从“验证结果”升级为“验证逻辑”。

看似不同的技术工具,本质上都是将训练场做的足够真实,把反馈体系进一步精细化,炼出一套自学能力硬核的智能体系。

值得一提的是,当世界模型与强化学习深度耦合之后,一些竞争维度也在发生变化。最明显一点,数据的重要性正在被重新定义。

过去数据是黄金资产,但现在在高质量世界模型与生成式仿真的加持下,大量长尾场景可以被系统性合成后,数据的边际价值正在下降。

文远知行创始人韩旭最近在采访中表示:“以前大家觉得数据是钻石,但现在可以人工合成钻石了。”

情况变了。当下稀缺的可能不再是原始数据,而是对世界规律的建模能力。

这也是为什么,有底子的头部玩家们,都开始闷头练模型。

千里科技提出的关键词“含模量”,正好对味。即一套系统里,到底有多少能力,是模型自己长出来的,而不是工程师一点点补出来的。

含模量高的系统,看着就像个老司机,很多判断是“自然反应”;含模量低的系统,更像被规则牵着走,一旦离开预设环境,就容易露馅。

而世界模型与强化学习的耦合,本质上就是抬升这个含模量的密度。

显然,当系统能自己理解环境、自己打磨策略、自己不断进化时,智能驾驶才算真的进入下半场,这时候,大家拼的就不仅是工程能力,而是底层智能水平。

无论是从L2看向L3,还是L2、L4双线并进,都必须把注意力放回“脚下”,夯实模型的底盘,才是走得稳、走得远的关键要义。

本文来自微信公众号“汽车之心”(ID:Auto-Bit),作者:刘佳艺,36氪经授权发布。

+1
7

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业