新架构模型HRM-Text创新纪录，1B参数、1000美元，图灵奖得主都亲自下场了

机器之心·2026年06月09日 16:40

用 1B 递归模型挑战 Scaling

一个约 1B 参数的模型，在 MATH 上拿到 56.2，在 GSM8K 上拿到 84.5，在 ARC-Challenge 上拿到 81.9。训练成本约 1500 美元，16 块 H100 跑了不到两天。

这是 Sapient Intelligence 于 2026 年 5 月 18 日发布的 HRM-Text，团队同步开放了论文、模型权重和预训练代码。

如果只看这些数字，最直觉的反应可能是：这是不是某种微调的结果？站在巨人的肩膀上，当然省力。

但 HRM-Text 不是。它从零开始预训练，只使用了约 40B unique tokens（考虑重复采样后，实验表中的总训练量记为约 60B tokens），大约是 Llama 3.2 3B（9T tokens）训练量的 1/225，Qwen3.5 2B（36T tokens）的 1/900。

HRM-Text 与其他模型在训练 FLOPs、训练 tokens 和 benchmark 上的对比。

问题自然就来了：怎么做到的？

过去几年，大模型行业形成了一套近乎默认的增长逻辑：模型更大、数据更多、算力更强，智能能力就会继续提升。

这条路线已经被充分证明有效。GPT、Claude、DeepSeek、Qwen 等模型的持续演进，都离不开参数规模、数据规模和训练算力的扩张。但与此同时，基础模型训练也越来越像一项重工业：更长的训练周期、更昂贵的 GPU 集群、更复杂的数据工程，以及越来越高的入场门槛。

但 HRM-Text 想尝试另一种思路：在有限数据和有限算力下，能否通过架构与训练目标的共同设计，提高每一次计算的产出？

论文标题已经直接给出了它试图挑战的方向：Efficient Pretraining Beyond Scaling。

论文标题：HRM-Text: Efficient Pretraining Beyond Scaling
论文地址： https://arxiv.org/abs/2605.20613
GitHub： https://github.com/sapientinc/HRM-Text
Hugging Face： https://huggingface.co/sapientinc/HRM-Text-1B
X Launch post： https://x.com/Sapient_Int/status/2056510383935172798

简单来说，HRM-Text 同时调整了模型「怎么算」和「学什么」：一方面，让有限参数在输出前进行多轮内部计算，提高有效计算深度；另一方面，只对回答部分计算损失，把训练信号更集中地用于任务理解和答案生成。

需要注意的是，HRM-Text 并不是一个已经完成 post-training 或强化学习优化的成熟聊天模型。团队将当前版本定义为一个 Proof of Concept：它的价值不在于找到语言模型的最终形态，而是提供一个可以被检验的案例，说明基础模型预训练的效率仍然存在很大的架构创新空间。

一次输出之前，先完成多轮内部计算

HRM-Text 的第一项变化，是重新组织模型内部的计算过程。

标准 Transformer 通常由一系列参数彼此独立的网络层构成。输入沿着模型深度向前传播：经过第一层，再进入第二层，依次向下，最终得到输出。增加模型能力的一种直接办法，就是堆叠更多层、增加隐藏维度，或者训练更多参数。

HRM-Text 没有简单沿用这条路线。它引入了两个以不同时间尺度运行的模块：高层模块 H 和低层模块 L。

如果用一个更直观的类比，标准 Transformer 更像是把一份材料依次交给多位不同的编辑，每个人修改一次后继续向下传递；HRM-Text 则更像是让两组编辑反复修改同一份内部草稿。模型不是单纯增加更多参数，而是让有限参数参与更深的有效计算。

根据团队采访解释，这种设计也不同于行业内常见的「大小脑」协同方案。后者通常分别训练两个不同规模的模型，再让大模型负责复杂规划、小模型负责快速执行，模型之间主要依靠文本接口交换信息。

HRM 的 H 和 L 则属于同一个网络。它们不是两个独立模型，也不是通过文本空间交接任务，而是在同一个潜空间中反复迭代同一份内部状态。模块间传递什么信息、如何分工，由统一的优化过程共同决定。

更准确地说，HRM 不是在模型外部拼接一个规划器和一个执行器，而是将分层计算内建进单个模型。

低层模块更新得更快，承担局部计算和迭代修正；高层模块更新得更慢，维持更稳定的语义上下文，并为低层计算提供更长期的约束。按照论文中的设定，每次前向传播会执行两个高层周期。每个周期先完成三次 L 模块更新，再完成一次 H 模块更新。

也就是说，在预测一个 token 之前，模型会完成 8 次递归更新：6 次低层更新和 2 次高层更新。

H/L 双时间尺度递归结构、模块内部结构和 PrefixLM 注意力掩码。

这里需要强调的是，「多轮内部计算」并不意味着模型已经能够根据题目难度动态调整思考时间。当前版本采用固定递归日程：无论任务简单还是复杂，模型都会按照预设次数执行内部更新。自适应计算时间会是后续探索方向。

这也意味着，1B 参数并不等于它的推理成本与普通 1B dense Transformer 完全相同。递归调用提高了参数利用率，但也增加了每个 token 输出前的串行计算量。因此，参数规模、训练成本和实际推理效率仍需分别讨论。

这条路线并非没有代价。

内部循环越深，模型越有机会持续修正自己的表征；但同一组模块被反复调用后，激活值方差可能不断累积，梯度也更容易消失或爆炸。递归架构并不是新概念，真正困难的是如何让深层递归在开放域语言任务中稳定训练。

HRM-Text 为此引入了两项设计：MagicNorm 和 warmup deep credit assignment。

MagicNorm 的目标，是同时兼顾前向传播和反向传播的稳定性。模块内部仍然保留有利于梯度流动的 PreNorm 结构，但在每轮递归模块退出时，再额外加入一次归一化。这样既能限制激活值在反复循环中的方差增长，也尽量保留顺畅的梯度路径。

warmup deep credit assignment 则控制梯度需要向前追溯多远。训练刚开始时，模型只对最后两个递归步骤进行梯度回传；随着训练逐渐稳定，回传范围再线性增加到最后五个步骤。

可以把它理解为一种循序渐进的「追责机制」：训练早期，先让模型为距离输出最近的几步内部计算负责；稳定之后，再逐步让更早的计算过程承担责任。这样既能够利用更深的递归计算，也可以避免模型从一开始就暴露在过长的梯度路径中。

论文还从有效深度的角度分析了这套结构。

在标准 Transformer 或部分 looped Transformer 中，随着层数增加，后续层对隐藏状态的改变可能逐渐减弱，模型很早就趋向一个相对稳定的输出分布。HRM-Text 的分析则显示，其深层计算仍然保持较明显的表征变化。这意味着递归步骤并不只是重复运行，还在持续修改内部状态，较深的计算步骤依然能够带来增量信息。

不同架构的 Effective Depth 对比。

少预测一些，把训练信号集中到回答上

架构变化之外，HRM-Text 的第二项改动发生在预训练目标上。

大多数语言模型采用自回归的「下一个 token 预测」：给定一段文本，预测下一个 token。无论输入是网页、书籍、论坛回复还是代码，模型都要学习接续序列中的每一个位置。这套目标足够通用，但也意味着，大量训练信号会被用于预测和任务完成关系不大的文本。

HRM-Text 选择了一条更有针对性的路线：它省略了大规模原始文本预训练阶段，直接使用「指令——回答」数据对从零开始训练。给定一条指令和对应回答，模型只对回答部分计算 token 级损失。

这并不意味着指令部分完全不参与学习。回答损失依然会沿着注意力路径影响模型如何理解和使用指令。但模型不再承担「预测问题本身」的任务，而是将更新信号更集中地用于生成合适的答案。

如果用一个更直观的类比：老师批改试卷时，不再给「抄题」打分，只评价答题部分。

与「仅回答目标」配套的是 PrefixLM mask。在标准 causal mask 中，每个 token 只能看到自己之前的内容。这种设计适合从左到右生成，但对于已经完整给出的指令而言，限制并非必要。

HRM-Text 允许指令部分的 token 彼此双向可见；进入回答部分后，再恢复标准的因果生成方式。

于是，模型可以先把整段指令作为完整上下文进行整合，再逐步生成答案。在仅解码器的实现中，它获得了一种近似编码器——解码器的分工：指令侧更像编码，回答侧更像解码。

论文的注意力分析显示，相较于纯 causal mask，PrefixLM 带来了更高的注意力熵，注意力模式也更加全局和多样。它并不只是改变了一张 mask，而是在提升模型利用指令信息的方式。

仅对回答计算损失、PrefixLM 注意力掩码和注意力分布的差异。

这几项设计的效果，可以从消融实验中看得比较清楚。

在相同训练 FLOPs 条件下，研究团队依次加入「仅预测回答」、PrefixLM 和 HRM 架构，并观察模型表现如何变化。

以 ARC-Challenge 为例，1B Transformer 使用全序列预测和 causal mask 时，得分为 51.91；改成仅预测回答后，提高到 62.88；加入 PrefixLM 后，进一步提高到 74.32；最后换成 HRM 架构后，达到 81.91。

在 MATH 上，成绩则从 35.44 依次提高到 47.04、48.36 和 56.16。GSM8K 也从 48.37 依次提高到 69.75、75.06 和 84.53。

这组结果说明，HRM-Text 的效率并非来自某一个单独改动，而是三个方向共同作用的结果：分层递归架构提高有效计算深度；任务完成目标将训练信号集中在任务完成上；PrefixLM 改善模型整合指令上下文的方式。

为确保结果可信，Sapient Intelligence 对数据污染问题进行了系统验证。HRM-Text 仅使用公开且可追溯来源的数据进行训练，并针对评测集进行了严格的数据污染分析。在最严格的 Clean Split 条件下，模型依然取得了与主实验一致的优势结果，说明性能提升并非来自测试集泄漏，而是源于模型架构本身带来的能力提升。详细分析见论文。

将 HRM-Text 放进更广泛的小模型对比中，也能看到它的特点。

它在 MATH、GSM8K、DROP 和 ARC-Challenge 等偏任务执行与推理的 benchmark 上表现突出；在 MMLU 这类更依赖广泛知识覆盖的基准测试上，则处于有竞争力但并不领先的位置。

例如，论文列出的 Qwen3.5 2B 在 MMLU 上达到 64.5，高于 HRM-Text 的 60.7；OLMo3 7B 则达到 65.8。但在 MATH 上，HRM-Text 的 56.2 高于表格中的 Qwen3.5 2B、Llama 3.2 3B、Gemma3 4B 和 OLMo3 7B。

这种差异并不难理解。

如果训练数据和参数规模有限，模型很难同时覆盖足够宽广的事实知识。HRM-Text 更适合被理解为一个偏重任务执行与推理能力的紧凑模型，而不是一个已经覆盖广泛知识、完成对话对齐和工程优化的通用型产品模型。

团队在采访中也给出了更具体的解释：训练数据较少，意味着模型没有充分覆盖数据长尾；参数规模较小，则意味着即使模型见过部分低频信息，也更难将其稳定保留在参数中。

论文据此提出了一个后续方向：将推理核心和知识存储部分解耦。未来，类似 HRM-Text 的紧凑递归模型可以专注于计算、规划和任务执行，而事实覆盖则交给检索系统、外部知识库或可学习的记忆模块。

团队在采访中表示，近期已经在「推理——知识解耦」方向上获得了一些早期结果，但尚未披露具体实验。

这并不意味着知识可以被简单地从模型中剥离。外部知识如何进入多轮内部计算、检索结果如何与潜空间状态交互、记忆模块如何训练，仍然需要系统实验。

另一方面，它也不是第一个探索递归计算、潜空间推理或 PrefixLM 的模型。Looped Transformer、RINS、Huginn、Ouro 等工作都在不同程度上探索过参数复用、内部循环或潜空间计算。条件生成和 PrefixLM 也已有较长研究历史。

HRM-Text 更合适的定位是：它将分层双时间尺度递归、递归稳定训练方法、「仅回答目标」和 PrefixLM 组合进一个低预算从零预训练框架中，并在 1B 规模上给出了可复现的结果。

让 HRM 进入开放语言环境

HRM-Text 并不是 Sapient 第一次探索分层递归计算。

2025 年 6 月，团队提出了 HRM（Hierarchical Reasoning Model）架构，正是前文提到的高层模块、低层模块、双时间尺度计算和潜空间迭代。

论文标题：Hierarchical Reasoning Model

论文地址： https://arxiv.org/pdf/2506.21734

团队随后于 2025 年 7 月全面开源第一代模型 HRM-Symbolic，主要面向具有明确边界的符号推理任务。通过分层模块、双时间尺度计算和潜空间推理，它在复杂数独、迷宫寻路和 ARC-AGI 等任务中验证了 HRM 架构处理组合搜索问题的潜力。

但这还只是第一步。

无论是数独还是迷宫寻路，这类任务都具有相对清晰的规则、状态空间和可验证答案。语言模型面对的环境则更加开放：自然语言存在歧义，知识覆盖范围更广，输出形式也更加多样。模型不仅需要完成推理，还需要理解上下文、组织语言，并在开放场景中生成合适的答案。

更重要的是，符号任务中可行的递归架构，并不一定能够直接迁移到语言建模。随着递归深度增加，激活值和梯度更容易失控。HRM-Text 引入 MagicNorm 和渐进式深层信用分配，正是为了让深层递归能够稳定扩展到语言模型。

如果说 HRM-Symbolic 回答的是「这条架构路线是否可行」，那么 HRM-Text 开始回答的是另一个更关键的问题：当任务进入开放域语言环境时，这套架构是否仍然有效？

从目前的结果来看，答案至少值得继续探索。

值得注意的是，递归潜空间推理也正在获得其他研究团队的关注。

2026 年 5 月 19 日，图灵奖得主 Yoshua Bengio 作为共同作者参与发布了《Generative Recursive Reasoning》。论文提出的 GRAM（Generative Recursive Reasoning Models）直接沿着 HRM 所开创的分层递归推理路线展开研究，在 HRM 架构基础上进一步引入概率化多轨迹推理机制。

该工作表明，HRM 已不仅仅是一项单独的模型创新，而正在成为下一代推理型人工智能的重要研究基础，并持续吸引全球顶尖学者沿这一方向深入探索。

Sapient 为什么重新做一套架构

Sapient Intelligence 对 HRM 的探索，与两位创始人此前的技术路径有关。

Sapient 创始人王冠长期关注强化学习，曾在清华大学脑与智能实验室、上海人工智能实验室和小马智行从事相关研究与工程工作，也是 OpenOrca 的核心开发者和 OpenChat 作者。联合创始人陈威廉则有大疆创新、禾赛科技等公司的研发经历，并曾负责清华大学科创中心的成果转化工作。

两人的 AGI 探索始于 2020 年。当时，大语言模型尚未展现出今天的影响力。相比单纯依赖规模扩张，他们更关注另一类问题：智能系统能否像人一样，通过与环境交互不断积累经验，并在有限资源下持续学习？

因此，团队最初从强化学习切入，将主要精力投入自动驾驶和机器人等场景。随着 GPT-3 和 ChatGPT 相继出现，他们开始调整方向，探索强化学习与大语言模型结合的可能性。这项探索后来形成了 OpenChat。

OpenChat 的成功验证了围绕后训练数据质量和训练目标进行优化的价值，但也让团队开始思考一个更底层的问题：如果模型的基础架构仍然是 Transformer，那么无论后训练方法如何改进，能力增长是否仍会越来越依赖更多参数、更多数据和更大规模的算力集群？

对于一家创业公司而言，这不只是一个理论问题。沿着主流路线继续前进，意味着进入一场由资本和算力主导的竞赛。Sapient 最终选择将注意力转向底层架构：不再只优化现有模型的训练方式，而是重新思考智能系统应该如何组织计算。

HRM 由此成为团队的核心技术路线。

Sapient 将自己的长期方向概括为 Lean General Intelligence：不是单纯追逐更大的模型，而是寻找更高效、更可及、更具泛化能力的智能系统。HRM-Symbolic 和 HRM-Text，正是这条路线上的两个阶段性结果。

HRM-Text 提供了一个有数据支撑、也可以被复现和继续检验的案例：在一个通常需要海量 tokens 和庞大集群的领域，通过改变计算结构与训练目标，一个 1B 参数模型仍然能够以较低预算进入部分 2B 至 7B 开源模型的性能区间。

真正困难的问题可能还在后面。团队在采访中提到，如果未来将 HRM 扩展到更大规模，或者与 MoE、检索系统和可学习记忆结合，递归架构本身的稳定性问题可能与新模块的训练难题进一步叠加。专家模块应该放在网络的什么位置、如何优化，外部知识如何进入多轮内部计算，都仍然需要系统实验。

Scaling 之外，另一条路刚刚开始

不可否认，HRM-Text 尚未成为一条能够全面取代 Scaling Law 的成熟路线。它的底层数据配比、真实的推理成本、向更大参数规模扩展的潜力，乃至在极其复杂的开放任务中的表现，都仍需时间的检验与开源社区的独立复现。

它也不是对 Scaling 的否定。过去几年，扩大参数、数据和算力规模，已经反复证明了自己的有效性。未来的模型进步，大概率仍然需要更高质量的数据、更充足的算力和更系统的工程投入。

但 HRM-Text 所展示的，可能不仅仅是一个新的模型架构。

如果说过去十年 AI 的主要增长轴，是参数规模、数据规模和训练算力的持续扩张，那么 HRM 所探索的，是另一个更底层的问题：计算过程本身，能否成为新的增长轴？

标准 Transformer 的基本思路，是通过堆叠更多参数，让模型拥有更强的表征能力。HRM 则尝试让有限参数在潜空间中参与多轮分层递归计算，使模型在输出之前完成更深的内部状态更新。GRAM 等后续研究进一步表明，这条路线还可以继续向概率化、多轨迹和推理时宽度扩展。

从这个角度看，HRM-Text 的价值不只是一个约 1B 参数的模型取得了怎样的 benchmark 成绩，也不只是一次低成本预训练实验节省了多少 GPU 时间。

更重要的是，它提供了一个可以复现、可以比较、也可以继续被证伪或改进的案例：除了扩大模型规模之外，重新设计计算结构，同样可能改变性能、成本与能力之间的关系。

在一个已经被 Scaling 深刻塑造的行业中，这种可能性本身就足够重要。因为下一代智能系统的增长，或许不仅来自更多参数、更多数据和更多算力，也来自一个更基础的问题：模型究竟应该如何思考。

本文来自微信公众号 “机器之心”（ID：almosthuman2014），作者：关注模型架构的，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

新架构模型HRM-Text创新纪录，1B参数、1000美元，图灵奖得主都亲自下场了

一次输出之前，先完成多轮内部计算

少预测一些，把训练信号集中到回答上

让 HRM 进入开放语言环境

Sapient 为什么重新做一套架构

Scaling 之外，另一条路刚刚开始

最近内容

36氪AI测评

36氪寻求报道

下一篇