里程碑时刻,100B扩散语言模型跑出892 Tokens /秒,AI的另一条路走通了
扩散语言模型(dLLM),这个曾被认为是「小众赛道」的研究方向,如今终于迎来了质变。
本周一,LLaDA2.1 在 HuggingFace 上悄悄上线,距离上一版本 LLaDA2.0 发布仅仅过去了两个月。本次发布共包含两个版本:LLaDA2.1-Mini(16B) 与 LLaDA2.1-Flash(100B)。
作为这一赛道的标杆,LLaDA 的每一次迭代都牵动着整个方向的走向。而这一次,LLaDA2.1 几乎凭一己之力完成了扩散语言模型的「成人礼」——892 Tokens / 秒的峰值速度让理论上的效率优势第一次照进现实;边生成边纠错的机制,打破了「快则不准」的魔咒;再加上可切换的双模式、首次跑通的强化学习后训练…… 这些信号再明确不过:这条曾被视为小众的学术路线,已经长成了真正可用、甚至在效率上更为优越的强大工具。
时至今日,逐个生成下一个 Token 的自回归模型仍是主流。但长文本生成里,计算成本高、推理速度慢只是明面上的麻烦;真正棘手却鲜被正视的是模型只能单向往前猜,看不到后文语境,写错了也没法回头改,误差像滚雪球一样越积越重。这些困境就像房间里的大象,始终横亘在规模化应用的门口。
LLaDA2.1 的解法很直接:与其在旧框架里修修补补,不如换一套底层逻辑 —— 让模型像「完形填空」一样并行生成、反复打磨,把「下笔无悔」变成「边写边改」。
这套机制具体如何运转,我们可以在蚂蚁集团、浙江大学、西湖大学、南方科技大学联合撰写的技术报告中找到答案。
- 论文地址:https://github.com/inclusionAI/LLaDA2.X/blob/main/llada2_1_tech_report.pdf
- Hugging Face:https://huggingface.co/collections/inclusionAI/llada21
- ModelScope 魔搭社区:https://modelscope.cn/collections/inclusionAI/LLaDA21
- GitHub:https://github.com/inclusionAI/LLaDA2.X
- Tech Report:https://huggingface.co/papers/2602.08676
自回归之外的另一条路
要理解 LLaDA2.1 的突破,必须从当前 AI 模型的「底层逻辑冲突」看起。
在主流 AI 大模型(如 GPT、Claude)的世界里,自回归架构是绝对的主宰。
它遵循逐 Token 生成的严苛范式:每一步输出都会固化为下一步的条件,生成路径如同单向延伸的铁轨,一旦落笔便不可回溯。比如写到「人不能两次走入同一条河流」,即使模型后来意识到应该是「踏入」而不是「走入」,也只能错到底。
这种方式在稳定性与可控性上具备天然优势,但代价同样明显。由于推理过程本质上是串行的,模型难以进行大规模并行解码,生成延迟随着上下文长度与输出规模不断放大,逐渐成为制约推理效率和部署成本的重要因素。更关键的是,这一范式在结构上默认慢而稳,并未为速度与吞吐的数量级提升预留太多空间。
基于此,扩散语言模型开始被视为一条具有潜在突破意义的替代路线,它不再执着于从左到右,而是尝试在全局空间内同时生成多个 Token。
然而,高并行往往伴随着高错误率。早期的扩散模型通常采用「掩码到 Token」(M2T)的固定路径,这种机制虽然快,却存在劣势:一旦某个生成的 Token 信心不足,模型无法在后续步骤中修正它,最终拖慢整体推理速度并降低输出质量。
这一「速度 — 质量」之间的结构性矛盾,使扩散语言模型长期停留在研究阶段,而难以真正进入应用系统。
在这一背景下,蚂蚁团队此前提出的 LLaDA2.0 已经证明了百亿参数级扩散语言模型在规模化和并行解码上的可行性,但论文也坦率指出:如何在速度和生成质量之间取得可控、稳定的平衡,仍然是尚未解决的问题。
LLaDA2.1 正是对这一核心矛盾的直接回应。他们不是继续堆参数、刷榜单,而是通过解码机制、训练范式与工程体系的系统性调整,让扩散语言模型真正跨过能跑和能用之间的门槛。
dLLM 的路走通了
我们先看一下结果:LLaDA2.1 在处理复杂的编程任务时,其100B(千亿)参数版本,实现了 892 Tokens / 秒的惊⼈峰值速度。
这一结果真正值得关注的前提在于,这是一个 100B 规模的模型。
对于很多研究者来说,怎么把 dLLM「做大做强」是一个公认的难题。业界主流做法包括从头训练、从自回归模型迁移能力,以及后训练阶段的性能与效率优化。前两条路线受限于数据规模、训练效率和计算成本,模型规模普遍停留在几十亿到三百亿参数以内;而后训练方向虽在代码、规划和推理加速上取得初步突破,但整体仍处于早期阶段,如何协同放大并扩展到千亿参数规模,依然是悬而未决的问题。
也正因为如此,LLaDA2.1 的 100B 规模本身,就已经突破了这条路线长期存在的规模天花板。也正是在这一前提下,892 Tokens / 秒的结果才显得格外关键 —— 它并不是在一个容易加速的小模型上取得的,而是在扩散模型最难、最重的规模区间里跑出来的。
更重要的是,这一速度并非来自简化任务或短文本生成,而是出现在 HumanEval+ 这样的复杂编程基准中。在这一场景下,模型不仅需要处理长上下文,还必须保持逻辑一致性与语法正确性,推理效率往往是最先被牺牲的指标。
这背后藏着蚂蚁团队围绕扩散语言模型长期瓶颈所做的一整套系统性调整。
像人类专家一样「起草 - 编辑」
首先,LLaDA2.1 创新性的提出了可纠错编辑机制 (Error-Correcting Editable, ECE)。它可以在毫秒级的闪电采样中起草整个答案,然后回过头来检查、修正。
我们还是以上面的「人不能两次走入同一条河流」为例,当模型发现「走入」用词不当时,会立即修改成「踏入」。而这种能力是自回归模型无法做到的,LLaDA2.1 摆脱了那种「一写到底」的死板模式,而是分为两步:
- 第一步:快速起草。模型以极高的速度并行生成一个「草稿」,这个阶段允许一定程度的不确定性。
- 第二步:智能编辑。立即启动「编辑」模式,对草稿进行全局重新评估和自我修正。发现错误?回溯修改。发现更好的表达?即刻替换。
这一范式涵盖了两类操作:从掩码到 Token 的直接解码,以及从一个 Token 到另一个 Token 的编辑。这种策略使模型能够在生成过程中直接精炼自身输出,从而有效解决并行解码中常见的局部不一致性。为了培养这种编辑能力,团队在持续预训练(CPT)和指令微调(SFT)阶段将模型同时暴露于掩码位置和随机噪声中,激励其不仅生成新内容,还能识别并修正现有错误。
关键在于,这一架构将原本时延与生成质量之间的刚性权衡关系,转化为一种可由用户灵活配置的连续空间。通过允许模型对生成结果进行回溯式纠错,得以在不导致生成质量崩塌的前提下,大幅降低初始 Mask-to-Token(M2T)阶段的置信度阈值。
单模型双模式,把选择权交还给用户
LLaDA2.1 还做了一个更大胆的设计:一个模型支持质量和极速两种模式:
- Speedy Mode(极速模式):激进地降低初始生成的置信度阈值,快速产出草稿,依靠后续编辑来保证质量。适合代码生成、快速迭代、头脑风暴等场景。
- Quality Mode(质量模式):采用保守策略,提高初始生成的质量要求,减少需要修正的错误。适合正式文档、学术写作、高精度任务。
在此之前,LLaDA-MoE 和 LLaDA 2.0 需要二次开发提供额外的加速版本,比如基于路径蒸馏的加速等;这类加速版本因为非联合训练优化,虽然实现了对基础版本的一定加速,但是精度掉点普遍严重;同时一个多个版本,也增加用户选择的难度以及模型管理的成本。单模型双模式,避免了上述问题。用户根据实际需求,仅需一条 config 就能实现质量和极速模式的切换。
让模型听得懂话
如果说可纠错编辑让模型变得可用,那么强化学习则让模型变得更聪明、更可靠 —— 体感更强。
为进一步提升模型能力,团队在训练流程中引入了强化学习阶段。尽管近期已有研究工作(如 SPG、TraceRL 与 ESPO)证明了强化学习在提升扩散语言模型性能方面的潜力,但由于序列级对数似然难以精确计算,将策略梯度方法应用于块自回归模型仍然面临显著挑战。
针对这一问题,蚂蚁团队提出并采用了一种基于 ELBO 的块级策略优化方法(ELBO-based Block-level Policy Optimization,EBPO),该框架专门针对可编辑解码结构进行了设计与适配。
更重要的是,团队还第一次把强化学习真正用到了百亿参数级的扩散模型上,让模型学会更好地理解指令、对齐人的意图,而不是只追求速度。
可以「边写边改」的 LLaDA2.1,效果到底如何?
技术上的创新,最终转化为实实在在的能力提升。在 LLaDA2.1 的实验评估中,这种从架构逻辑到执行效率的进化得到了淋漓尽致的体现 。
表 1 和表 2 报告了 LLaDA2.1-flash 与 LLaDA2.1-mini 相对于其他模型的对比结果,包括性能得分以及 TPF(每次前向推理生成的 token 数)。实验结果显示,在 S 模式 下,LLaDA2.1 的任务得分相较于 LLaDA2.0 略有下降,但 TPF 获得了显著提升;而在 Q 模式 下,LLaDA2.1 在 mini 与 flash 两个规模上均全面超越了 LLaDA2.0 的表现。
表 3 进一步聚焦于 LLaDA2.1 在 S 模式下的速度性能。可以观察到,该模型在不同任务领域之间呈现出明显的速度差异,其中代码类任务的吞吐率最高,而指令遵循类任务相对较低。具体而言,在量化之后,LLaDA2.1-flash 在 HumanEval+ 基准上达到了891.74 TPS 的峰值速度,而 LLaDA2.1-mini 的峰值TPS 则高达 1586.93,展现出显著的推理效率优势。
如表 4 所示,在相同的 S 模式设置下,引入多块编辑(Multi-Block Editing,MBE) 能够在 Flash 与 Mini 两个模型版本上,跨多个基准稳定提升性能,代价仅为吞吐率的小幅下降。
图 3 进一步展示了在表 3 所涵盖的五类任务领域中,LLaDA2.1 与 LLaDA2.0、Ling 以及 Qwen-3 等模型在吞吐率(tokens per second)上的对比结果。整体来看,LLaDA2.1 在 S 模式下展现出极为突出的速度优势:在仅牺牲极少输出质量的前提下,实现了显著更快的推理速度。
AI 架构会范式转移吗?
LLaDA2.1 的意义,可能不在于某一次指标刷新,而在于它重新把一个被搁置已久的问题摆回了台面。
过去几年里,自回归模型几乎构成了大语言模型发展的唯一现实路径。它可靠、成熟,也足够好用,以至于行业更多是在这条路上继续加码,而很少真正停下来讨论:语言模型的底层形态,是否还有其他选择。
LLaDA2.1 并没有试图否定自回归范式,而是用一种更务实的方式证明,扩散语言模型并非只能停留在理论或实验室层面。通过可纠错编辑,它解决了并行生成中最棘手的错误固化问题;通过双模式设计,它把速度与质量的取舍变成一种可以被配置的工程决策;而在百亿参数规模下跑出 892 TPS 的结果,则让「扩散模型能不能真的跑快」不再只是推测。
语言模型的发展,可能不会很快走向某种范式的彻底更替,但路径的单一性正在被打破。LLaDA2.1 至少说明了一点:在自回归之外,确实存在另一条可以被持续推进、也值得投入资源的方向。
而这条路,显然还远没有走到终点。
本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:机器之心,36氪经授权发布。















