算力成本大降,马尔可夫思考机来了,LLM推理成本直接降为线性

机器之心·2025年10月10日 15:23
告别思维链的算力噩梦。⛓️‍💥

用强化学习让 LLM 具备推理(reasoning)能力确实很有效,但耗费颇高。

这类模型在回答问题前会生成一长串的思维链(LongCoT);并且增加「思考 token」 的数量能够提升模型的能力。与任何强化学习问题一样,它存在一个决定轨迹如何生成的环境。

对于推理 LLM 而言,这个环境相当简单,以至于常常被忽略:状态(state)是由提示词(prompt)与截至目前已生成的推理 token 拼接而成,而动作(action)则是从策略(即推理 LLM)中采样的下一个 token。

这种设计看似轻巧,但却可能导致状态的大小没有边界 —— 会随着思考过程的加长而不断增长。对于基于注意力机制的策略来说,这意味着整个过程中的计算量会面临令人望而却步的二次级增长。

为了降低推理 LLM 长思考的计算量,人们已经提出了许多方法,包括使用带有长度正则化的目标函数、剪枝或早停方法等。

而近日,Mila 和微软研究院等多家机构的一个联合研究团队却另辟蹊径,提出了一个不同的问题:如果环境从一开始就不会造成计算量的二次级增长呢?

他们提出了一种新的范式,其中策略会在基于一个固定大小的状态上进行推理。他们将这样的策略命名为马尔可夫式思考机(Markovian Thinker)

论文标题:The Markovian Thinker

论文地址:https://arxiv.org/abs/2510.06557v1

模型地址:https://huggingface.co/collections/McGill-NLP/the-markovian-thinker-68debd2919c4ae47f50706cd

代码仓库:https://github.com/McGill-NLP/the-markovian-thinker

这项研究的三位共一作者之一的 Amirhossein Kazemnejad 在 𝕏 上表示,Delethink 的有效性开启了强化学习思维环境的创新。此外,马尔可夫思维的程度及其有效性表明,推理 LLM 可以以不同的方式构建,或许可以采用非二次架构

马尔可夫式思考机

马尔可夫式思考机的核心思想是重构强化学习的构成形式,使得无论总思考长度如何,策略读取的有效状态大小都是有界的。其直接效果是深远的:更长的思考过程仅需线性的计算量和恒定的内存,这与思考长度有关,从而将「模型思考多久」与「它必须处理多少上下文」这两个问题解耦。

他们通过Delethink这一范式对思想进行了实例化。它是一个强化学习环境,通过将推理过程组织成一系列固定大小的区块(chunk)来引导马尔可夫行为。

Delethink 将思维强化学习环境重新定义为一个分块的、马尔可夫式的过程:其生成过程以固定大小的区块 (chunk) 进行,在每个区块的边界处,环境会将上下文 (context) 重置为一个全新的提示词,该提示词包含原始查询以及一小段来自前一个区块的延续内容。

这会迫使策略 (policy) 必须学会通过维持一个文本状态来跨区块推进思考,从而创建一个「马尔可夫式思考机」 (Markovian Thinker)。

相比之下,LongCoT 环境会无限制地拼接 token,因此其状态(以及模型上下文)会随着轨迹 (trace) 的延长而不断增长。

算法 1 的伪代码展示了对单个查询的训练过程。

更多细节请访问原论文。总之,经过这样的设计,在 Delethink 中的生成和用于更新策略的反向传播两个阶段都是线性 scaling 的,而在 LongCoT 中则是二次级的。下图展示了当思考长度从 n token 增长到 nS token 时,LongCoT 和 Delethink 的 FLOP、内存、反向传播时间、生成时间的变化情况。

效果显著

该团队进行了实验:Delethink 的效果非常显著。即便以 8K 大小的区块进行推理,使用 Delethink 训练的 DeepSeek R1-Distill 1.5B 模型依然可以思考长达 24K token,在相同的 24K 思考预算下,其在数学基准测试上的表现能达到并超过 LongCoT-RL。

在测试时扩展方面,Delethink 在 LongCoT-RL 性能饱和时仍能持续提升,带来了额外的增益。

更进一步,他们使用 Delethink 训练 R1-Distill 1.5B 模型进行长达 96K token 的思考;仅需少量额外的训练步骤,它就在 AIME’24 上达到了 49% 的准确度,其解题过程平均长度为 36K token。

线性计算带来的效果是显著的:他们根据实验数据估计,对于平均 94K 的思考长度,LongCoT-RL 训练需要 27 个 H100 - 月,而使用 Delethink 则仅需 7 个 H100 - 月。

为什么有效?

为了探究 Delethink 训练有效的原因,他们还分析了模型在强化学习初始化阶段的表现。

他们观察到,R1-Distill 系列模型(1.5B-14B) 在没有任何额外训练或提示的情况下已经能够零样本(zero-shot)地采样出马尔可夫式的轨迹,甚至恢复了大部分标准 LongCoT 的性能。

这种强大的初始化(即大量符合期望行为的、分布内的正向样本)为强化学习提供了一个有利的起点。

他们进一步在 Delethink 环境中研究了参数量高达 120B 的推理模型。例如,GPT-OSS 120B(Agarwal et al., 2025)在博士水平问题、编程任务、数学竞赛和填字游戏等多个领域都表现出稳健的马尔可夫式思考能力。

这些结果共同表明,Delethink 能与最先进的模型兼容,并能随之扩展。

结语

马尔可夫式思考的成功表明,将思考长度与上下文大小解耦原则上可以让下一代推理模型进行数百万 token 的思考。它凸显了通常被视为固定不变的强化学习环境,实际上是推动进步的强大杠杆。

这也表明,非二次级复杂度的序列架构可能会让推理模型受益尤多,因为思考过程可以被有效地转化为马尔可夫式的。

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:Panda,36氪经授权发布。

+1
1

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

白银破50美元创14年新高,年内涨超70%

5小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业