小众架构赢麻了，通过编辑功能让100B扩散模型飙出892 tokens/秒的速度

量子位·2026年02月11日 13:18

蚂蚁技术研究院开源LLaDA2.1

谁能想到啊，在自回归模型（Autoregressive，AR）当道的现在，一个非主流架构的模型突然杀了回马枪——

被长期视为学术玩具的扩散语言模型，直接在复杂编程任务中飙出了892 tokens/秒的速度！

你没看错，当主流大模型还在以几十token的速度逐字蹦词时，这个非主流模型已经在100B参数规模上，跑出了如此的速度。

2025年，蚂蚁集团资深技术专家赵俊博曾经带着LLaDA2.0登上量子位MEET大会的舞台，而如今，他们的最新版本LLaDA2.1来了，蚂蚁技术研究院重磅开源！

三个月前，在LLaDA2.0时代，这更多是一个充满挑战的研究性模型。

而这一次，LLaDA2.1的诞生，标志着这个路线的历史性转折。它不再只是一个“学术研究”，而是真正可用、甚至在效率上更为优越的强大工具。

那么在整个行业都在卷更大的自回归模型时，蚂蚁到底是怎么低调修了另一条“能跑通的高速公路”的？

接下来，我们就再一起扒一扒这个非共识技术背后的原理。

怎么做到的？

在深入技术之前，我们先得聊聊为什么现在的ChatGPT、Claude们总是慢条斯理。

因为它们几乎全部采用自回归架构，这种模式如同一个不能打草稿的考生，必须从左到右、一字一句地生成文本，写完即定稿，无法回头修改。

而扩散模型的理论优势在于并行，可以同时处理所有文本位置，理论上能一次成篇，拥有巨大的速度潜力。

但扩散语言模型在早期一直有个致命伤，那就是容易胡说八道，且缺乏全局一致性。因为并行生成时，各个部分可能是各玩各的，导致前后文逻辑不通。

为此，蚂蚁的LLaDA2.1先亮出了第一个技术杀手锏：

基于可纠错编辑的底层能力，LLaDA2.1引入了灵活的双模式解码策略，实现了单个模型，同时支持极速与质量两种模式：

Speedy Mode（极速模式）：大幅降低τ_mask阈值，激进并行生成初稿，依赖T2T编辑进行后期修正。适合代码草稿、快速推理、多轮试探式生成等对吞吐量敏感的场景。
Quality Mode（质量模式）：采用保守阈值，减少编辑次数，优先保障输出准确性。适合正式文档生成、高精度推理等对结果质量要求严苛的场合。

在此之前，LLaDA-MoE和LLaDA2.0需要二次开发提供额外的加速版本，比如基于路径蒸馏的加速等；这类加速版本因为非联合训练优化，虽然实现了对基础版本的一定加速，但是精度掉点普遍严重；同时一个模型多个版本，也增加用户选择的难度以及模型管理的成本。

单模型双模式，避免了上述问题。用户可以根据具体需求，仅需一条config就能实现模式切换。

这种设计标志着LLaDA系列从研究模型向实用产品的关键转变。

技术报告显示，在HumanEval+编程基准上，LLaDA2.1-flash（100B）在Speedy Mode下达到892 TPS的峰值速度，而Quality Mode则在多项推理任务上超越了前代模型。

为了更好的理解双模式背后的机制，我们可以回忆一下自己写作的流程。

自回归模型像是一个不允许带草稿纸、不允许带提纲的作者，它下笔无悔，不允许修改自己写好的内容。

但现实中，大部分情况下我们可能是先有了想法去写草稿，哪怕有错别字，先动笔写着；写完之后，我们再回头细读一遍，把不通顺的、有错别字的地方改掉。

LLaDA2.1工作原理正是如此，引入的机制叫做可纠错编辑（Error-Correcting Editable，ECE）。

它的推理过程被分为了两个阶段：

阶段一（M2T, Mask-to-Token）：模型以极高的速度，并行生成一个草稿。这个阶段可能会有一些噪声和错误，但速度极快。
阶段二（T2T, Token-to-Token）：立即启动编辑模式。模型站在全局视角，对刚才生成的草稿进行检查。如果发现某些token置信度低或者逻辑不通，就直接进行回溯式修正。

技术报告中的一个例子生动说明了其价值。