商汤林达华:破解图文交错思维链技术,商汤的“两步走”路径
在2025世界人工智能大会上,商汤发布的日日新V6.5多模态模型,率先突破了“图文交错思维链”技术,成为国内首个拥有形象思维,实现图文交错思维的商业级大模型。
日前,商汤科技联合创始人、执行董事、首席科学家林达华特别撰写深度长文《迈向多模态通用智能:商汤的思考》,系统阐释了多模态智能的底层逻辑、技术路径,以及破解“图文交错思维链”技术的关键。以下摘自文章,在不改变原意的基础上有删减。
l 为什么多模态是通向 AGI 的必经之路?
人工智能的核心目标是通过计算来构建智能。智能(Intelligence)的核心是与外界(包括世界或者其他人)进行自主交互的能力。语言只是人类智能演进过程中的一种产物,但不是智能的本源;语言是描述世界的工具,但不是世界本身。因此,单靠语言模型并不能构建真正意义的 AGI。
大模型浪潮首先源自于语言模型,原因在于海量语料的积累。这是朝着 AGI 迈出的重要一步,但不是终局。人工智能若要具备通用性,必须能像人类通过感官接收信息那样。因此多模态信息感知与处理的能力是 AGI 的核心要求,也是从语言模型迈向 AGI 的必由之路。
而且,在实际场景中,要实现完整的价值,也离不开对不同模态信息的有效处理、对多种模态信息的融合分析和判断。因此,从商业应用的角度,多模态也是我们的必然选择。
l 商汤沿着什么路径去构建多模态智能?
从根本上说,人工智能的发展是数据驱动的,其能力边界是被数据所定义的。人工智能的每一次跃迁,都源自于数据边界的打破。
智能的演进是一个渐进的过程,会经历四次破壁:Transformer 实现了长序列建模;语言和视觉的会合实现了多模态理解;逻辑思维和形象思维的结合实现真正的多模态推理;最终,智能体将突破数字空间与物理空间的边界,实现和真实世界的交互。
商汤沿着智能的阶段演进的认知展开技术研发的布局,一步步推动对智能边界的探索。早在 2023 年初就推出了我国最早的多模态模型,走出了多模态智能探索的重要一步。在 2024 年突破了原生多模态融合训练技术,在国内最早把语言模型和图文多模态模型融合为一个模型。最近,我们在多模态推理上取得重要进展,实现了图文交错的思维链,在此基础上训练的日日新 6.5 具备了真正的多模态思考能力,综合推理性能显著提升。与此同时,我们展开了开悟世界模型的探索,打通数字空间和物理空间连接的通道。
l 商汤为什么选择做原生多模态?
多模态模型的训练有两种典型的方式:
1. 适应训练:给定一个已经训练好的大语言模型和经过预训练的视觉编码器,在后训练阶段,通过对视觉编码器和投影器的微调,实现视觉和语言表征的对齐。这是国内多模态大模型常用的方式,它的好处是能够以较低的成本快速获得多模态能力。
2. 原生训练:在预训练阶段就融合多种模态的数据进行训练,因此,模型从“原生”开始就具备了多模态能力,而不是“后补”的。以 Google 和 OpenAI 为代表的顶尖机构从采用这种方式。
前者,只经过适应训练的多模态模型,并没有深入掌握语言和视觉模态之间的内在关联,更多只是在僵硬地遵循后训练中那些范例的模式。我们开始思考,是否应该走上原生多模态的道路。但是原生训练所需的资源是显著超过适应训练的。同时,还面临着两个重要问题:有了原生多模态模型后,还是否需要保留一个单独的语言模型?语言和其它模态的融合应该在什么时候进行?
2024 年,经过几个月实验,我们得出明确结论,并确定了融合模型的技术路径:在预训练中段开始进行多模态融合训练,最终形成一个统一的原生多模态模型,不再生产单独的语言模型。
我们在 2024 年第三季度完成了融合训练的数据配方和训练超参的验证,在第四季度完成了第一版千亿参数级别的融合多模态模型训练。这个模型在国内两个权威的第三方评测平台 OpenCompass(司南)和 SuperCLUE 上面都位居国内模型之首,其中在语言任务上和当时刚发布的 DeepSeek V3 是并列的。
从日日新 6.0 开始,也包括在今年世界人工智能大会(WAIC)上面发布的日日新 6.5,都只有多模态模型,而没有单独的语言模型。这和国内其它大模型厂商语言模型(LLM)和图文模型(VLM)分立的布局有很大的区别。
l 多模态推理的挑战?以及如何构建图文交错思维链
大模型进行推理的核心途径是"思维链"(Chain-of-Thought)。由于人工构造成本高、难以规模化,思维链主要通过算法自动构造。
到2025 年,主要的多模态模型已经具备了一定的推理能力。但主流多模态模型的推理思维链还是纯文本的。通过多模态理解的能力把输入的图像转换为文本描述,然后利用语言推理模型进行后续的推理。但是,人的思考过程其实是真正意义的跨模态的,是逻辑思维和形象思维的结合。从技术角度,形象思维能给逻辑思维带来互补的思维路径,拓宽思路。
逻辑思维和形象思维的结合,主要是通过图文交错思维链实现的。商汤选择了两步走的路径:第一步,先通过调用工具进行图像编辑的方式,构建图文交错思维链,这种方式可以高效且精准地实现构图目标。这个方法的本质其实是构建一个“对内”(introspective)的智能体。第二步,基于多模态理解生成统一的机制实现内生的图文混合思考。
l 模型设计有哪些思考?模型尺寸和架构未来如何演进?
模型架构设计的核心是效率。一个好的模型架构,能够以更低的代价实现从数据到模型能力的转化。
在模型架构设计中,商汤重新思考了视觉编码器和 MLLM 主干的功能定位。商汤认为“眼睛”和“大脑”的设计是有本质区别的,前者主要是捕捉视觉信号,这是一种连续信号,而且是受分辨率影响的;后者主要是在语言和语义层面进行计算,而语言的表示方式是离散的(以 token 为单元)。这就决定了,视觉感知和语言模型应该有不一样的模型结构和学习方式。视觉编码器应该聚焦在感知功能上,对视觉信号更加敏感,专注于视觉编码。涉及到语义相关的处理,应该及早和 LLM 主干进行融合。
经过架构更新,日日新 6.5模型可以更快捷地处理高分辨率大图以及长视频;再加上对训练数据的进一步优化,模型在同样性能表现下的效率提升超过 3 倍。我们在架构优化上的努力使得性能成本曲线得以显著优化,实现了比 Gemini 2.5 系列更优的效费比。
从多模态走向具身智能,会面临哪些挑战,商汤又是如何解决的?
当 AI 从数字空间走到物理空间,和真实世界进行交互,首先需要解决的是交互学习的效率问题。
通过一个虚拟系统模拟现实世界的交互,让智能体在这个系统里面的每个动作都能获得合适的接近真实的反馈。这个虚拟系统的核心就是“世界模型”,它的交互效率远高于真实环境。
世界模型的构建是需要海量数据支撑的。商汤的开悟世界模型是在我们的多模态模型能力基础上构建起来 —— 这个多模态模型本身就压缩了关于这个世界的海量数据。通过智能汽车业务获得的大量真实场景数据进行加强,世界模型就因而具备了很强的模拟和生成能力,可以根据指定路径生成不同视角的视频。这个模型在我们的智能驾驶系统训练中提供了很有效的交互反馈,从而帮助我们的智能驾驶系统更高效地训练。
l 商汤如何平衡技术突破和商业落地的关系?
通向通用人工智能(AGI)的过程是一场长跑,不是一蹴而就的冲刺。 商汤始终坚定地走在追寻 AGI 的道路上,但是技术理想也需要商业价值的护航才能行稳致远。
在商汤,我们没有把技术和商业视为争夺资源的两侧,而是把它们视为互为因果的两个环节。相比于资源的分配,我们更关注这两者如何实现有效的正向循环。
基于这样的认知,我们确立了“基础设施 - 模型 - 应用”三位一体的总体战略。一方面,我们在大装置基础设施支撑下,致力于打造业界领先的通用多模态大模型,融汇跨模态跨领域的数据,通过持续的技术创新,在感知、理解、推理、交互等能力维度上不断突破;另一方面,我们在应用上聚焦生产力和交互,在真实场景牵引下,构建端到端的产品技术竞争力。
在三位一体战略和技术与业务正向循环的驱动下,我们过去一年取得了很多进展。一方面,我们的基础技术体系形成了更强的创新势头,在业内率先取得一系列创新成果:比如原生融合训练,图文交错思维链、多模态融合强化学习、无限时长的视频交互记忆、以及开悟世界模型;另一方面,在技术创新的支撑下,商业化局面正在迅速打开,生产力 AI 的性能持续保持领先,装机量正在从百万量级走向千万量级;交互 AI 广泛落地各种新型智能硬件和机器人,正在重塑用户和世界交互的形态。商汤在生成式 AI 板块业绩的持续高速成长充分显示了这些成果所带来的商业回报。
我们对于未来的路径有自主的思考和认知,在战略上高度聚焦,长期坚持,在技术路径和产品业务上鼓励创新,敏捷迭代,逐渐建立起技术-商业的闭环。