最前线|智能座舱开始AI变革,长城新车要标配车端智能体

李勤·2026年01月13日 15:24
中国版的“Grok+FSD”将大量出现

智能辅助驾驶能力突飞猛进背后,是AI能力的不断涌现,它在智能座舱上同样受到热捧,甚至因为座舱对延时和算力的要求更低,应用门槛也相应降低。

特斯拉用“Grok+FSD”组合已经给出了惊人表现。用户除了可以体验特斯拉FSD的流畅领航辅助驾驶,还能和Grok进行了拟人、善解人意的对话,甚至用Grok实现模糊指令下的导航。

因此,AI智能体上车,成为热潮。

长城汽车等国内车企率先捕捉到了这一点。今年的消费电子盛宴CES上,长城汽车除了展出标志性的V8发动机、HI4混动技术,还发布了空间与语言智能体ASL。

“它是以3D视角感知世界的智能体,覆盖车内外场景,如人类般直观,是懂倾听、会学习、能沟通的出行伙伴。”长城汽车CTO吴会肖说。

去年12月,长城汽车推出了智能辅助驾驶系统VLA。今天ASL推出后,与VLA智驾系统,显然构成了长城汽车的智能化双擎。

长城汽车技术专家佘士东表示,传统座舱更关注“功能实现”——比如加热、开空调、调座椅等操作。而长城的ASL 关注的是“交互升级”,“它本质上是把人与车的关系,从人机接口”(HMI),进化为人机共处。ASL 带来的核心体验变化,是你不再是在控制一个机器,而是在与一个智能体对话。”

以“打开第二排右侧座椅加热”为例,佘士东,在传统系统中,用户得清楚说出指令,这其实是用户在思考如何操作设备,而在智能体时代,只需说“帮我女儿打开座椅加热”,甚至只说“让她舒服点”,系统就能自动理解她是谁、坐在哪、当前开关状态是什么,并完成操作。

ASL1.0 是围绕自然语言下的“意图识别”和“主动理解”来构建。虽然去年长城汽车已频繁提及,但受限于工程周期,长城直到今年才正式推出这套系统。在长城汽车内部,其被称之为 Coffee OS 3.5,首批搭载车型将在2026年上半年(3~4月)上市,最终交付用户大概在5~6月。

虽然增强了座舱交互体验,但ASL不只是“座舱AI”,而是整车级、OS级的全栈式智能架构。

“要实现刚才那个’给我女儿打开座椅加热’的体验,不只是语音识别那么简单。你必须打通电子电气架构、融合多模态感知、调动整车控制链路,还要建立用户画像、记忆系统、意图识别、推理能力等多维支撑,才能真正落地。”佘士东说。

理想汽车基于自己的基座模型MindGPT,已经推出了车端的AI产品理想同学,也在推动更多agent产品上车。而据36氪了解,大量没有基座模型能力的车企,都在寻找外部大模型公司进行合作,热门标的则是字节跳动旗下的豆包汽车版。

业内人士告诉36氪,在市面上,这类优秀的AI产品很多,有Deepseek,阿里的千问,但考虑到汽车工程支持能力和C端交互能力,还是豆包更为适合,“Deepseek几乎没有汽车业务,豆包基于抖音的数据训练,对消费者体验更友好。”

但在座舱里部署大模型,除了找到合适的AI产品,还要加强算力资源投入。不少车企在已有座舱SOC基础上,采用外加AI Box的策略,也就是额外增加一颗AI处理器。例如,小鹏汽车的第三颗图灵芯片,就主要负责座舱AI模型的计算。

而从2026年开始,大量车企开始采用高通的最新座舱产品骁龙8797,可直接获取300Tops算力。但成本也相应提升,“8797的域控加上音响等整套系统,成本要到万元以上。”

从特斯拉2013年引领座舱大屏化到今天,行业花了十多年;但AI智能体化的变革,行业判断只需2~3年,就能看到市场雏形。

发力整车AI,又是一场资源角力赛。

以下是36氪等与长城汽车CTO吴会肖、技术专家佘士东等对话,略经编辑:

问:长城汽车去年提出的 ASL1.0,外界讨论相对较少。如今大家看到的座舱大模型 + VLA 的组合,是不是就是 ASL1.0?它与现阶段做座舱大模型的业务架构,核心区别在哪里?

佘士东:要回答这个问题,还是要回到人和车之间最基本的“交互”需求上来。传统座舱更关注“功能实现”——比如加热、开空调、调座椅等操作。但 ASL 关注的是“交互升级”,它本质上是把人与车的关系,从“人机接口”(HMI),进化为“人机共处”。

ASL 带来的核心体验变化,是你不再是在控制一个机器,而是在与一个“智能体”对话。就像《霹雳游侠》那样,车不再是冷冰冰的设备,而是一个能理解你意图的“助理”或“管家”。

比如你想帮后排右侧的孩子打开座椅加热。在传统系统中,你得清楚说出“打开第二排右侧座椅加热”。这其实是你在思考如何操作设备。

而在智能体时代,你只需说“帮我女儿打开座椅加热”,甚至只说“让她舒服点”,系统就能自动理解她是谁、坐在哪、当前开关状态是什么,并完成操作。

ASL1.0 就是围绕这种自然语言下的“意图识别”和“主动理解”来构建的。虽然去年我们已频繁提及,但受限于工程周期,长城直到今年才正式推出这套系统。我们内部称之为 Coffee OS 3.5,首批搭载车型将在2026年上半年(3~4月)上市,最终交付用户大概在5~6月。

问:所以 ASL1.0 的核心,其实是座舱侧 AI 应用的全面开发?

佘士东:可以这么说,但它不只是“座舱AI”,而是整车级、OS级的全栈式智能架构。要实现刚才那个“给我女儿打开座椅加热”的体验,不只是语音识别那么简单。你必须打通电子电气架构、融合多模态感知、调动整车控制链路,还要建立用户画像、记忆系统、意图识别、推理能力等多维支撑,才能真正落地。

ASL1.0 本质上是一个从 0 到 1 的系统性构建工程。大模型只是“冰山一角”,其下隐藏着大量底层工程投入。这也是我们为什么花了一整年,才将其准备上线。

问:这套系统的芯片算力如何分布?

佘士东:在 Coffee OS 3.5 所面向的上半年车型中,我们采用的是超频版 8295 芯片,拥有 60T 的端侧算力,但也需要液冷散热系统支撑整体稳定性。而到了 ASL2.0 阶段,随着 8797、8397 等新平台的普及,车端算力将提升到 300T+ 的级别。这样的平台能力,才能支撑多智能体在多场景下的实时推理与响应。

问:目前在智能化方向,车企的基础路线和战略方向似乎都趋于一致,长城汽车如何做出差异化?

佘士东:确实,路线“相似”在某种程度上是一个阶段性“必然”。这背后是行业认知的同步和技术周期的共振。比如,去年成都车展、广州车展,走进很多展车你会发现,车内形态几乎一致:多屏分布、左边信息右边地图、中央大屏承载APP入口这说明,整个行业正在围绕“人车交互”建立一种共识。

但也正是在这个“趋同”过程中,我们发现了真正的差异化机会:很多所谓的“更好交互”,其实还是用户主动发起—车端被动响应的传统模式,而我们进一步观察用户使用行为时发现了一个重要现象:用户其实“倾向于不交互”。

为什么这么说?举个例子。四年前,我们的语音交互系统,用户平均每小时唤醒不到0.4次。而到了今年,已经是每小时唤醒4~5次,且每次唤醒后会产生二十多次连续交互。表面上看,用户好像越来越爱“说话”了,但我们深入分析后发现,这种行为更多是源于**“便利性提升带来的使用频率增加”,而非“真实意图数量的增长”。**换句话说,用户真正的需求可能只有三四个,只是因为好用,所以多说了几句。

由此我们判断:当交互本身足够流畅,下一阶段的核心就不再是“交互”本身,而是“主动服务”。为什么用户一上车还要调座椅、调空调、点语音、开导航……这些都可以通过智能体自动识别、自动达成,甚至静默完成。这正是我们探索“智能体化”路径的核心逻辑。

这也是吴总(吴会肖)在CES发布的ASL 2.0智能体系统的由来——之所以叫“2.0”,是因为“1.0”已经完成并即将量产,而行业内多数品牌的“1.0”可能要到2026年才能看到落地产品。

在2.0阶段,ASL系统已经覆盖了五大智能场景:智驾出行体验、车内多人的空间娱乐与舒适交互、长途自驾游场景、健康管理与车内监测、买用养车全生命周期服务。

而“智能体化”的核心是三个关键词:一是AIGC生成能力,界面不再是代码“写死”的控件,而是可以根据用户、场景、习惯动态生成,实现柔性界面与可变动的服务内容。

二是真正的自然对话,就像和人交流一样,持续、顺畅、有上下文。很多用户体验过特斯拉的对话能力,起初觉得惊艳,但长时间驾驶中你会发现,它的实际表现还有很大进步空间。这说明自然语言理解与上下文管理依旧是一个关键挑战,也是我们的核心突破点。

三是主动服务的三步分级实现,相识:不只是账号识别,而是能通过摄像头系统,实现对车内每一个人的身份识别,无论是谁、坐在哪个位置,都能“认识你”。相知:不仅知道你是谁,还知道你喜欢什么、习惯什么、预计接下来要干什么。相助:基于对你的了解,提前一步完成你想做的事情,甚至无需你发出指令。

所以我们说,真正的智能体,不是“功能的堆砌”,而是对“你”的理解和对“你想要什么”的预判。如黄仁勋所说,AI元年不是说说而已——“今年才是物理AI的真正起点”,因为我们终于开始动手干了。

从特斯拉2013年引领座舱大屏化到今天,行业花了十多年;但AI智能体化的变革,我们判断只需2~3年,就能看到市场雏形。计划今年6月,我们的首款搭载ASL 1.0智能体系统的量产车型就将正式上市,同时我们也在努力通过OTA为老车型提供部分体验升级。

当然,老车型受限于芯片的端侧算力,可能会存在体验上的差异。但从今年开始的新一代车型起,“车端智能体”将成为新标配,主动服务将成为新的行业门槛。

问:长城汽车对于VLA和世界模型是怎么理解的?

吴会肖:这个话题我们内部也讨论了很多次。现在行业里对“VLA”和“世界模型”的定义还没有完全统一,但在我们看来,它们的核心区别是部署位置和能力侧重点不同。

VLA是部署在端侧的模型,重点在于提升端侧的本地能力。它既能用于防御性驾驶,也能与语音控车打通,还可以通过更清晰的思维链展示其判断过程,让用户更信任车辆的决策。而“世界模型”在我们公司是指基于云端训练的大模型或大场景系统。它并不和VLA对立,而是互补的。开发智驾功能时,云端的训练能力和端侧的算法能力都缺一不可。

有些观点认为只要用世界模型,把它蒸馏压缩后放在端侧,也可以覆盖端侧的功能。但我们在内部的定义是,云侧的叫世界模型,端侧的叫VLA,各有其位、各司其职。

问:有一个说法认为,VLA的核心问题在于它依然沿用了语言链的思维模式。但在多模态趋势下,理解时空、识别手势这些场景,未必都需要转化为语言链条。也有观点认为VLA未来也会逐步回归多模态路径。那现在你们的VLA是什么形态?

吴会肖:我们现在的端侧模型并不是完全基于语言链。因为语言链的信息处理路径较长,所以我们在考虑人机交互时确实会引入语言模型,但并不是所有控车动作都经过语言模型处理,本质上也是一个多模态模型。

语言模型的路径是视觉到语言、再到执行动作,这本身是个一体化的结构。但在每个技术方案落地的过程中,都处于持续进化状态。我们未来的方向,肯定是希望能构建真正端到端的模型,减少中间兜底机制,比如安全策略或者语言链路。但要实现这一点,依然需要大量数据积累。

过去大家注重的是“量”,但当基础场景已覆盖充分后,真正需要的是极端场景的数据,这决定了数据依然是核心壁垒。

问:您认为激光雷达还是必需的吗?

吴会肖:我们目前的数据采集依然较多依赖激光雷达,但从长远看,它是可以被替代的。

+1
4

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

大模型的商业化正在快速落地。由此,市场对大模型公司青睐有加。

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业