阿里、Kimi、蚂蚁集体押注,混合注意力从可选项变必答题?

智东西·2026年03月20日 20:38
理念趋同、实现各异,大模型架构新共识正在形成。

昨天,小米发布了Mimo-V2 Pro大模型,又一次把混合注意力架构推到了行业的聚光灯下。 

这款万亿参数的大模型,采用了1:7的混合注意力比例,在提供接近Claude Opus 4.6能力的同时,API定价仅为后者的1/5。 

实际上,小米的混合注意力架构探索,延续了国内大模型头部厂商在效率优化上的技术共识。过去一段时间里,国内多个大模型头部玩家都展示了他们在混合注意力方面的突破性进展。 

今年2月,蚂蚁推出全球首个混合线性注意力架构的万亿参数思考模型;去年9月,阿里则在下一代模型架构Qwen-Next中采用混合线性注意力。与此同时,月之暗面、MiniMax等玩家也在各自的模型迭代中引入了类似的架构优化方案。 

混合注意力架构的探索,已经几乎成为大模型厂商的必答题。不同的只是技术路径的选择,相同的是对效率与性能平衡点的共同追求。 

01.头部玩家押注混合注意力,多条技术路径并行

在深度学习中,注意力机制让模型能够有选择地关注输入信息中的重要部分,而Softmax一直是主流架构的核心注意力计算机制。 

这种机制每次计算都“翻阅”完整上下文,精准捕捉词与词的关联,赋予模型强大表达力和细粒度对齐能力。 

但其代价明显:随着文本长度增加,其计算量呈平方级增长。它还需要存储大量KV缓存,带来显存压力。这在越来越追求推理效率和成本控制的商业化场景中,展现出不足。 

面对这一共同挑战,业界探索出了三条主要的技术路径。 

第一条路径是稀疏注意力(Sparse Attention),其核心思想是通过“少算”、“有重点地算”来提升效率,代表模型是DeepSeek。 

第二条路径是滑动窗口注意力(Sliding Window Attention),它仍然使用Softmax计算注意力权重,但只关注固定窗口内的邻近token,借此提高计算效率。 

第三条路径是线性注意力(Linear Attention)。与其他方案不同,它彻底改写了Softmax公式,将复杂度从O(N²)的平方级降至O(N),近似线性级别,推理成本大幅下降。 

不过,这三条路径都有自身的局限性,而如今业界对混合架构的集体转向,本质上是对单一技术路径的修正。

值得关注的是,越来越多方案正向混合线性注意力收敛,这是唯一在理论上突破序列长度限制的路径。它重构了注意力的计算范式,这种彻底性既是它的风险所在,也是其潜力所在。

02.混合线性注意力,如何成为行业共识?

在国内,已有不少大模型企业开始了混合线性注意力架构的探索。 

按时间维度来看,2025年初,MiniMax Text-01模型发布,这一模型采用1:7的混合线性注意力,并在456B参数的模型上实现落地。 

此后,MiniMax-M1模型也采用了同款架构。当时,MiniMax-M1的团队判断,混合架构将会成为模型设计的主流,但仍面临基础设施等维度的瓶颈。

更多混合线性注意力的探索,在2025年下半年爆发。 

去年9月,阿里通义实验室发布了下一代基础模型架构Qwen3-Next,并在80B模型上完成验证。该模型用线性注意力和门控注意力的组合替换标准注意力,实现长上下文的有效建模。在1:3的混合比例下,其性能可以超过单一架构。 

阿里的研究团队发现,相比常用的滑动窗口注意力,线性注意力拥有更强大的上下文学习能力。

同样在去年9月,蚂蚁百灵团队开源了Ring-mini-linear-2.0与Ring-flash-linear-2.0,验证了其研发的Lightning Linear线性注意力在工业规模训练和长上下文推理中的可用性。 

这两款模型采用了更多的线性注意力层,验证了1:7的混合比例。其在高FLOP预算下表现,明显优于纯Softmax结构。 

在这项研究中,蚂蚁百灵还进一步探索了架构创新与基础设施系统工程优化的协同。他们打造的FP8融合算子,将FP8混合精度训练的计算效率提升至原来的1.5-1.7倍左右。 

在推理端,他们开发了更高效的线性注意力融合算子,进一步提升推理引擎的吞吐。 

架构优化与高性能算子协同之下,两款Ring-linear模型在深度推理场景下的成本仅为同尺寸稠密模型的约1/10,相较原有Ring系列成本也下降超过50%。

去年10月,月之暗面开源了混合线性注意力架构Kimi Linear。其核心是Kimi Delta Attention(KDA),这是一个新型的线性注意力模块,通过细粒度设计改进了门控delta规则。这一线性架构采用1:3的混合比例,在减少内存占用的同时超越了全注意力模型的质量。 

尽管上述探索已在多维度验证了混合线性注意力架构的潜力,但大多数成果仍停留在中小规模。而在真实应用中,大模型需要直面万亿级参数、百万级上下文窗口、高并发推理等工程挑战。 

因此,下一步的关键在于:将这些技术探索推向真正的超大规模模型,在工业级应用中系统验证其可靠性、可扩展性与经济价值。

03.万亿模型成试金石,效率与成本的终极验证

将混合线性注意力架构推向万亿参数量级的工程落地,正在稳步推进。 

月之暗面创始人兼CEO杨植麟对混合线性注意力的前景表达了明确信心。他认为线性架构是一个非常值得探索的方向,其团队已在Kimi Linear等项目中积累了大量研究。 

在下一代模型Kimi K3中,月之暗面计划在混合线性注意力架构的基础上,引入更多架构层面的优化。他相信,下一代模型Kimi K3就算没比K2.5强出10倍,也必然会“强得多”。

同样押注这一技术路线的蚂蚁百灵团队,已经接连交出两个万亿参数大模型。一个是超大型混合线性注意力架构模型Ling-2.5-1T,另一个是全球首个混合线性注意力架构的万亿参数思考模型Ring-2.5-1T。 

在前期研究基础上,蚂蚁百灵团队通过增量训练方式构建了Ling 2.5架构。该架构将GQA+Lightning Linear升级为更高效的MLA+Lightning Linear组合,在进一步压缩KV缓存的同时,保留了模型的表达能力。 

Ling 2.5架构采用1:7混合比例,还保留了QK Norm、Partial RoPE等核心机制,确保架构迁移过程中模型性能不发生退化。 

在降本增效方面,Ling-2.5-1T仅需约6000个token的平均输出长度,即可完成前沿模型需要1.5万-2.3万个token才能胜任的复杂任务。其访存规模压缩至传统架构的1/10,生成吞吐量提升至3倍。

上述种种对混合线性注意力架构的探索,意义已不止于性能提升本身,而是在重新划定大模型的应用边界与商业形态。 

试想一下,当推理成本显著下降、token使用效率持续优化,模型调用成本或许不再是限制其大规模落地的核心瓶颈。

随之而来的,是应用范式的自然转变。企业不再需要精打细算地“按需调用”模型,而可以将其作为一种默认能力嵌入到更多业务环节之中,实现更广泛、更深入的效率提升。 

大模型在高频与实时场景中的角色可能因此发生变化,在搜索、推荐、智能客服等场景中,它们不再只是传统系统的补充模块,而是有望扮演核心驱动引擎,成为如同数据库、操作系统般默认存在的底层基础设施。

04.结语:从堆参数到拼工程,大模型广泛落地更近了

混合线性注意力架构的探索仍在不断深化,但这条路径注定不会一帆风顺。不同技术路线之间仍在反复博弈与验证,例如MiniMax在阶段性探索后选择回归全注意力模型,以优先保证复杂场景下的稳定性与可靠性。 

不过,更深层的信号已经愈发清晰:大模型竞争正从“暴力堆参数”转向“工程效率的精算”。当行业逐渐形成共识,决定胜负的将不再只是规模本身,而是单位算力所能释放的有效能力。 

架构层面的细微差异,最终会在企业级落地中放大为显著的成本优势与体验差距,并推动大模型从“可用”迈向“好用”,再走向真正的广泛普及。 

本文来自微信公众号 “智东西”(ID:zhidxcom),作者:陈骏达,36氪经授权发布。

+1
41

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

从烧钱换市场,到算力换利润

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业