对话小米辅助驾驶团队:两年三阶,一场以体验为终点的技术马拉松

36氪品牌·2026年04月08日 21:42
今天在何处聚焦资源,明天便可能在哪里赢得市场。

在智能电动车竞赛中,辅助驾驶的角逐早已成为决定胜负的重中之重。

2026年3月,随着新一代SU7发布,小米正式推出基于XLA认知大模型的新一代辅助驾驶方案。这不仅是一次技术路线的关键转折,也让小米把“体验优先”的思路推进到新的阶段。

这个一度被行业视为“后来者”的玩家,如今正凭借一套清晰而迅猛的技术进化路径,走出一条聚焦用户体验、务实演进的新派道路。

回顾小米辅助驾驶的发展历程,这是一段小米从跟随行业主流技术路径,到逐步形成自主技术路径和技术思考的进化史。

2024年3月,小米辅助驾驶在第一代SU7上首次量产,当时行业正围绕“无图”和“开城”展开激辩,小米第一代方案也以此切入,正式进入“无图开城”的战场。作为新选手,小米对主流趋势的回应是跟从。

随着规则驱动的无图方案逐渐触及天花板,行业转向探索以数据为核心的“端到端”模型。2025年2月,小米迅速跟进,推出第二代辅助驾驶系统,并于同年7月快步迭代至1000Clips版本,在数据驱动的赛道上奋起直追。

然而,数据驱动的“蜜月期”并未持续太久。端到端方案的体验高度依赖数据,难以穷尽的长尾场景成为共同挑战,行业进入瓶颈期。无人区的技术探索并无先迹可循,行业迸发出多条技术路线。

小米并未盲目持续投入数据军备竞赛,而是从第一性原理思考,将目光投向更本质的驾驶原理——能否让“车”像“人”一样学会开车?

2026年3月,小米便带来了第三代方案:XLA认知大模型。与此前两代不同,XLA不再仅仅依赖单纯的规则或数据模式,而是试图让辅助驾驶系统真正“理解”环境,进行常识与因果推断。

小米辅助驾驶此刻已不再只是行业的跟随者,在认知驱动的新起点上,小米与领先玩家站在了同一起跑线,甚至展现出了独特的技术思考。

从规则、数据到认知,两年三次跨越,小米的压力不言而喻。规则时代需补工程积累的课,数据时代要追赶闭环规模,后来者必须加倍奔跑。而恰在此时,行业方向再度调转,向认知层面进发。小米这一次不仅果断跟上了节奏,更是凭借对用户体验的坚持,给出了完成度与特色兼具的答案。

小米是如何做到的?36氪与小米汽车智能驾驶端到端技术负责人陈光、小米汽车智能驾驶基座大模型负责人陈龙进行了一场深度对话。

交谈中,陈龙坦言,小米辅助驾驶的确起步较晚、发布节奏也没有同行那么快,“但我们一定是把体验最好、最安全的这个产品送到用户手中”。比起博眼球,小米更愿意选择务实的那条路。

其次,与许多单纯追求技术指标的公司不同,小米在辅助驾驶领域依然延续着“和用户交朋友”的理念。

小米最终为何选择XLA?陈光告诉36氪,在确定采用XLA路线之前,团队内部也曾经历过技术路径的争论。在行业方向尚未明朗之时,各种方案看似都有其合理之处。最后如何统一方向?陈光表示,“团队一致认可,XLA才能够为用户带来真正‘很酷’的体验。”

这种体验优先的思路,背后实则需要十分坚实的技术支撑。小米在多模态认知、具身智能交互以及工程落地已探索与实践数年,这些经验理解,便是其在辅助驾驶行业最新的技术争夺战中拔得头筹的重要原因。

辅助驾驶的“认知时代”刚刚启幕,尚无成熟路径可循。这场无人区的探索,比拼的不仅是技术,更是企业的战略定力与对用户需求的洞察深度。今天在何处聚焦资源,明天便可能在哪里赢得市场。

小米所选择的这条融合自研基座模型、多模态认知与具身智能数据的XLA之路,能否真正实现从“并跑”到“引领”的跨越?从接下来的对话中,一起聆听小米如何拆解其中的逻辑、挑战与未来构想。

解析:XLA,在认知大模型上进行创新

36氪:小米的辅助驾驶,现在在做什么?

陈龙:我们正在做的,就是在辅助驾驶领域,引入认知大模型这个范式。我们希望通过大模型,让辅助驾驶系统有对环境的认知能力,能习得一些人类世界的常识、交通规则和一些道路实物的因果关系,从而解决端到端难以解决的长尾问题。

前段时间发布的XLA认知大模型,就是我们推出的第一版认知驱动的辅助驾驶系统。

36氪:相比端到端,认知大模型的优势是什么?

陈龙:我举一个场景案例,比如前方道路封闭了,现场通过路牌和围挡引导车辆绕行,过程中可能还需要临时借道,甚至短暂跨越双黄线。端到端版本更多是根据当前道路形态继续往前走,遇到这种临时改道场景,未必能主动理解“现在应该绕行”。但XLA认知大模型可以结合现场标识和环境信息,理解这是一个“封路后按指示绕行”的场景,进一步推理出可行路径,并发起合理绕行。

36氪:听起来和行业现在热议的VLA大模型没什么区别?

陈龙:VLA其实是学术界传过来的名词,它的意思就是视觉语言大模型。

我们XLA认知大模型不仅仅有视觉信息,还有声音信息、雷达信息,包括更多模态的比如导航之类的。我们XLA中X的第一层意思,就是我们采用了比视觉更多的模态作信息输入。

另一方面就是我们在XLA的基座模型中,融入了具身智能相关的数据。

这里也有一个很重要的差别,行业里其他厂商的认知大模型是在一些开源模型上打造的,小米使用的是我们自研的Xiaomi MiMo-Embodied具身基座模型。因为是自研的,所以我们在基座模型的预训练阶段,便加入了很多具身智能的数据。所以XLA中X的第二层含义,便是我们具备更丰富的数据。

还有一个很核心的区别。

行业里的VLA,有些会输出大段文字推理,然后再输出动作。这样有一个问题,就是速度太慢了,延时不可控。然后就有另一种说法,那索性去掉语言了。但这样它就不是VLA了,因为根本就没用上L的推理能力了。

我们XLA使用的是潜空间推理。具体做法就是,在推理的时候使用的是机器语言,这样的话过程和推理时延都是可控的。当然,这个机器语言也可以解码成文字,具备可解释性。我们既保证了推理能力,又大大提升了效率。

36氪:现在业界都在探索汽车和具身智能机器人的关系,小米为什么会把具身智能的数据用到汽车上?

陈龙:我们把具身智能相关数据加进来,主要是为了训练汽车的空间感知和空间推理能力。

空间感知里,有一个精度差距。汽车对周围事物的感知精度,一般是在分米级别。但人形机器人,它平常的训练任务可能是抓握杯子之类的,它的数据精度可以是厘米甚至更高级别。用人形机器人的数据来训练汽车,那汽车的能力不就更强了吗?

其次,现在的辅助驾驶汽车在路上开,其实没有跟周围事物产生交互的。我们的目的其实是要避免碰撞,但辅助驾驶系统其实并不了解碰撞到底是什么。空间推理能力,其实就是让汽车理解,这样子开造成什么样的后果。而机器人,刚好就有很多这样的交互的数据。

我们的Xiaomi MiMo-Embodied,就是全球首个打通了辅助驾驶和机器人的具身智能基座模型。当然,我们也发现,辅助驾驶和机器人的数据是互相增强的,所以未来我们希望辅助驾驶、机器人甚至其他小米智能设备都进化成一个大脑,从而带来更加无缝的体验。

36氪:但具身智能的数据复杂又精巧,想要跟辅助驾驶的数据融合,挑战不小。

陈龙:是的。

具身智能数据,首先就包含很多不同形态的机器人本体,这些机器人本体上,传感器的位置不一样,甚至相机图像的分辨率都不同。然后辅助驾驶的输出大多是2D层面的,但机器人更多是3D空间的多关节输出。

难就难在,如何设计一个精巧的模型结构,让这些不同的数据统一起来。当然,目前的训练目标主要是空间感知和空间推理,还不太涉及动作级别,可能未来才需要考虑两种任务在执行空间上的差别。

36氪:XLA仅限于行车场景吗?泊车上有什么进展吗?

陈光:我们的泊车也更智能了。这次有推出一个新功能,比如你导航的最终目的地是一个商场的商户,那我们泊车会在这个商圈停车场中,寻找离这个商户电梯口最近的停车位。目前,这个功能收到了一些用户的好评和推荐了。

工程落地:让“车”像“人”,并不容易

36氪:感觉这个功能实现起来不容易。

陈光:我觉得难点有很多,但本质上还是怎么能像人一样,到一个相对陌生的环境时,能找到最适合自己的停车位。

车进入一个地库后,你需要能读懂地库的环境,包括一些文字标牌、电梯口的信息之类的。如果最近的停车位都停满了,我们就会开始漫游,找更适合的停车位。本质上就是,怎么根据已有的这些指引信息,去到导航最终的目的地。

36氪:这对车端实时处理能力要求很高。

陈光:是的,比较高。我们是经过了很大的算法优化,才把XLA部署上去的。这种算法适配,其实也是很大的挑战。我们前前后后经历了很多开发和工程的优化,也踩过一些坑,做的也是有一些辛苦。在这里面,我们是有一些Know-How的。

36氪:你如何评价小米辅助驾驶的工程能力?

陈光:我个人认为还是很比较领先的,现在还是很少有能把这么复杂的一个模型部署到这个实际的车端,并且推送给所有用户的企业。

36氪:那小米接下来的方向会是什么?

陈龙:第一肯定是算力问题。大模型,它尺寸越大,能力就越强,我们当然想在车上放一个最强的一个模型,但是车端是有算力限制的。我们现在做的潜空间推理,意义就是这个。当然,以后会做更多。

陈光:是的,车端模型参数量的进一步的提升,包括它在训练过程中如何能消费更多的数据、能理解更多的场景,这是第一个的挑战。

第二个挑战,就是怎么给用户开发更多行车和泊车的功能,进一步提升产品体验,特别是新功能能不能给用户带来更多惊喜。

升级:优质数据、基座模型与仿真世界缺一不可

36氪:认知大模型的优化也依赖数据吗?

陈龙:数据肯定是一方面,我们持续需要高质量的数据,另一方面就是模型能力本身,尤其是基座模型。

刚刚提到,有些厂商会用开源的基座模型。这里有一个问题,你并不知道这些开源模型是怎么做预训练的,它可能没有很细致的数据清洗和标准,甚至还会使用到网上比较抽象的、危险的信息。这些东西反映到最终的驾驶行为时,可能会引发蝴蝶效应,造成很大风险。

但从头做基座大模型非常不容易,第一是需要一个很强的团队,然后是数据筛选和清洗工作,再要搭建调试自己的Infra系统,还要有一套评测指标。并且,一个版本模型发布出来后,可能几个月就已不再是领先架构了,所以这一套动作还要反复做。

所以认知大模型能优化到什么程度,不仅取决于企业在基座模型投入的人才和资源,还和企业对大模型趋势的判断有关。

36氪:所以小米现在All in认知大模型了?

陈光:现在行业对辅助驾驶有不同的探索路线,一类是我们现在做的XLA,直接引入认知大模型,另一类则希望用世界模型的生成和重建的能力去解决认知的问题。

当然,我们不认为认知大模型和世界模型是对立的,就算是多模态语言模型,也需要一个很好的仿真模拟环境。

我们其实是把两条技术路线结合起来了,并不是说车端用XLA的技术,我们在云端就要完全放弃世界模型。

36氪:世界模型还是有难以替代的优势。

陈光:至少在一些闭环仿真,就是将这种物理世界投射到这种数字空间的时候,世界模型是不可缺少的。

现在技术的焦点就是长尾场景,比如马路上滚落一个异形石块或者轮胎,真实世界你很难用实车去遇到,很难批量收集这样的场景。所以无论是世界模型还是XLA,都要在仿真模拟器里探索。

36氪:这算是行业级的技术新共识吗?

陈光:可能因为小米在一段式端到端的阶段就走得比较靠前,所以我们在认知大模型出现前,就觉得闭环仿真能力很重要,包括特斯拉在内,行业领头羊们对世界模型的重建和生产,应该都做得比较扎实了。

36氪:世界模型出现前,闭环仿真是怎么做的?

陈光:很难做,几乎只有静态场景,动态场景都依赖真实数据,所以以前大家总是会说“数据量很稀缺”。

36氪:但XLA已经可以“看懂”这些路面障碍物了,还需要这样的数据反复训练吗?

陈光:我们希望一个功能在真实给用户之前,都在一个模拟器里面完整去测过。

36氪:测过就能保证真实使用时的安全吗?

陈光:数字空间和世界模型,其实是一个漏斗的作用,它可以把大部分的问题都拦截住。对于剩下的问题,多模态大模型本身就具备泛化能力,我们希望通过它本身的认知和推理能力来提出更好的解决方案。这两者其实是一个结合的作用。

36氪:那小米会在世界模型上持续投入吗?未来迭代的方向会是什么?

陈光:今年我们在GTC上介绍了小米在世界模型上的新进展,也在包括CVPR2026、ICLR2026、NIPS2025、ICCV2025这些顶会上发表了近10篇世界模型相关的论文,这足以说明,小米高度重视世界模型。

方向的话,我觉得三个方面。

第一是真不真,这个可能跟咱们理解的完美真实不太一样。我举个例子,我们希望模仿的雨天,是摄像头上挂有水珠的那种真实的图像,而不是说模拟出一个绝对干净的雨天环境。我们希望模拟的情景,能和车端最后获取的信息一致,这样你的测试才有效果。

第二就是要很丰富。我今天可能想解决阳光直射场景的通行,过两天可能又希望解决大雨、大雾或大雪情况下的通行。所以能不能在不改变交通信息的情况下,只改变天气光照信息呢?

第三就是场景的编辑能力,你的数字资产要足够丰富,我能用这些信息模拟各种各样的场景。足够丰富,才有足够的作用。

36氪:听起来很复杂,小米在这已经投入多久了?

陈光:已经两年了。我回忆了一下,从24年上半年开始就有一些技术上的准备了。到24年末,小米的技术已经在行业和学术界得到一定认可。25年下半年就可以走到技术的收获期了,有一些重点比赛的冠军、论文之类的。

36氪:也就是说,小米在这方面已经具备明显优势了?

陈光:我们当然希望先发优势能一直保持下去,我们做的确实比较早,希望能对行业产生一些正向影响,大家一起来把这个事做扎实一些,最终其实也是服务于整个行业的产品体验嘛。

价值观:既要安全、也要体验

36氪:什么是好的辅助驾驶体验?

陈光:我觉得好的体验,最重要的事情一定是安全。不能给用户带来不安全或者不安心的产品,这个是我们当前最核心的一个事情。

36氪:为什么会把安全和安心拆开来讲?

陈光:从技术角度讲,你只要不碰撞就是安全。但用户对安全的感受,并不只是“不碰撞”。比如急刹车,用户不清楚系统为什么做出这样“过激”的行为,可能会有体感上的不适,也会产生“不安全”的感觉。

所以我们不光要保证辅助驾驶的技术维度的安全,也要保证给用户带来足够的安心感。只有既安全、又让人敢用、愿用,这样的产品体验才是完整的。

36氪:小米在安心感上,有什么心得吗?

陈光:我觉得是有一些新的进展的。

比如我们在路口盲区,会有一些预防性的减速,这就很像人类开车的思路,用户第一反应会是你做了这个动作,你懂这个场景。

再比如,前方即将进入拥堵路段了,我们的车不会走到最后一步、到非常极限的时候才做一脚急刹,而是说会早早的、防御性地降低速度。这也代表了我们在安全和安心感上的一些思考吧。

36氪:能否总结下小米辅助驾驶研发的性格,或者说是价值观?

陈光:怎么说呢,小米的价值观还是深刻影响了小米辅助驾驶团队的性格。我觉得和用户交朋友是最重要事情,从用户的角度去思考他们需要什么样的产品体验,再反过来去推进这个技术的迭代。

就比如从端到端到XLA,初期我们有些同事看好世界模型、有些同事更看好XLA,但深度讨论过后,大家最终是觉得XLA一旦做成,一定能给用户带来很酷的产品体验,所以就算再难,我们也冲了。

陈龙:是的,虽然我们小米的辅助驾驶的起步比较晚,可能我们这个发布的节奏也没有那么的快,但我们一定是把体验最好、最安全的这个产品送到用户手中。

从我的角度,我觉得我们也一直在践行第一性原理。因为我们坚信大模型可以帮助辅助驾驶解决一些关键问题,所以我们会做很多大模型的探索工作,最终希望把大模型的能力发挥出来,推动辅助驾驶朝更高阶能力继续演进。

+1
46

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业