新架构模型HRM-Text创新纪录,1B参数、1000美元,图灵奖得主都亲自下场了

机器之心·2026年06月09日 16:40
用 1B 递归模型挑战 Scaling

一个约 1B 参数的模型,在 MATH 上拿到 56.2,在 GSM8K 上拿到 84.5,在 ARC-Challenge 上拿到 81.9。训练成本约 1500 美元,16 块 H100 跑了不到两天。

这是 Sapient Intelligence 于 2026 年 5 月 18 日发布的 HRM-Text,团队同步开放了论文、模型权重和预训练代码。

如果只看这些数字,最直觉的反应可能是:这是不是某种微调的结果?站在巨人的肩膀上,当然省力。

但 HRM-Text 不是。它从零开始预训练,只使用了约 40B unique tokens(考虑重复采样后,实验表中的总训练量记为约 60B tokens),大约是 Llama 3.2 3B(9T tokens)训练量的 1/225,Qwen3.5 2B(36T tokens)的 1/900。

HRM-Text 与其他模型在训练 FLOPs、训练 tokens 和 benchmark 上的对比。

问题自然就来了:怎么做到的?

过去几年,大模型行业形成了一套近乎默认的增长逻辑:模型更大、数据更多、算力更强,智能能力就会继续提升。

这条路线已经被充分证明有效。GPT、Claude、DeepSeek、Qwen 等模型的持续演进,都离不开参数规模、数据规模和训练算力的扩张。但与此同时,基础模型训练也越来越像一项重工业:更长的训练周期、更昂贵的 GPU 集群、更复杂的数据工程,以及越来越高的入场门槛。

但 HRM-Text 想尝试另一种思路:在有限数据和有限算力下,能否通过架构与训练目标的共同设计,提高每一次计算的产出?

论文标题已经直接给出了它试图挑战的方向:Efficient Pretraining Beyond Scaling。

  • 论文标题:HRM-Text: Efficient Pretraining Beyond Scaling
  • 论文地址: https://arxiv.org/abs/2605.20613
  • GitHub: https://github.com/sapientinc/HRM-Text
  • Hugging Face: https://huggingface.co/sapientinc/HRM-Text-1B
  • X Launch post: https://x.com/Sapient_Int/status/2056510383935172798

简单来说,HRM-Text 同时调整了模型「怎么算」和「学什么」:一方面,让有限参数在输出前进行多轮内部计算,提高有效计算深度;另一方面,只对回答部分计算损失,把训练信号更集中地用于任务理解和答案生成。

需要注意的是,HRM-Text 并不是一个已经完成 post-training 或强化学习优化的成熟聊天模型。团队将当前版本定义为一个 Proof of Concept:它的价值不在于找到语言模型的最终形态,而是提供一个可以被检验的案例,说明基础模型预训练的效率仍然存在很大的架构创新空间。

一次输出之前,先完成多轮内部计算

HRM-Text 的第一项变化,是重新组织模型内部的计算过程。

标准 Transformer 通常由一系列参数彼此独立的网络层构成。输入沿着模型深度向前传播:经过第一层,再进入第二层,依次向下,最终得到输出。增加模型能力的一种直接办法,就是堆叠更多层、增加隐藏维度,或者训练更多参数。

HRM-Text 没有简单沿用这条路线。它引入了两个以不同时间尺度运行的模块:高层模块 H 和低层模块 L。

如果用一个更直观的类比,标准 Transformer 更像是把一份材料依次交给多位不同的编辑,每个人修改一次后继续向下传递;HRM-Text 则更像是让两组编辑反复修改同一份内部草稿。模型不是单纯增加更多参数,而是让有限参数参与更深的有效计算。

根据团队采访解释,这种设计也不同于行业内常见的「大小脑」协同方案。后者通常分别训练两个不同规模的模型,再让大模型负责复杂规划、小模型负责快速执行,模型之间主要依靠文本接口交换信息。

HRM 的 H 和 L 则属于同一个网络。它们不是两个独立模型,也不是通过文本空间交接任务,而是在同一个潜空间中反复迭代同一份内部状态。模块间传递什么信息、如何分工,由统一的优化过程共同决定。

更准确地说,HRM 不是在模型外部拼接一个规划器和一个执行器,而是将分层计算内建进单个模型。

低层模块更新得更快,承担局部计算和迭代修正;高层模块更新得更慢,维持更稳定的语义上下文,并为低层计算提供更长期的约束。按照论文中的设定,每次前向传播会执行两个高层周期。每个周期先完成三次 L 模块更新,再完成一次 H 模块更新。

也就是说,在预测一个 token 之前,模型会完成 8 次递归更新:6 次低层更新和 2 次高层更新。

H/L 双时间尺度递归结构、模块内部结构和 PrefixLM 注意力掩码。

这里需要强调的是,「多轮内部计算」并不意味着模型已经能够根据题目难度动态调整思考时间。当前版本采用固定递归日程:无论任务简单还是复杂,模型都会按照预设次数执行内部更新。自适应计算时间会是后续探索方向。

这也意味着,1B 参数并不等于它的推理成本与普通 1B dense Transformer 完全相同。递归调用提高了参数利用率,但也增加了每个 token 输出前的串行计算量。因此,参数规模、训练成本和实际推理效率仍需分别讨论。

这条路线并非没有代价。

内部循环越深,模型越有机会持续修正自己的表征;但同一组模块被反复调用后,激活值方差可能不断累积,梯度也更容易消失或爆炸。递归架构并不是新概念,真正困难的是如何让深层递归在开放域语言任务中稳定训练。

HRM-Text 为此引入了两项设计:MagicNorm 和 warmup deep credit assignment。

MagicNorm 的目标,是同时兼顾前向传播和反向传播的稳定性。模块内部仍然保留有利于梯度流动的 PreNorm 结构,但在每轮递归模块退出时,再额外加入一次归一化。这样既能限制激活值在反复循环中的方差增长,也尽量保留顺畅的梯度路径。

warmup deep credit assignment 则控制梯度需要向前追溯多远。训练刚开始时,模型只对最后两个递归步骤进行梯度回传;随着训练逐渐稳定,回传范围再线性增加到最后五个步骤。

可以把它理解为一种循序渐进的「追责机制」:训练早期,先让模型为距离输出最近的几步内部计算负责;稳定之后,再逐步让更早的计算过程承担责任。这样既能够利用更深的递归计算,也可以避免模型从一开始就暴露在过长的梯度路径中。

论文还从有效深度的角度分析了这套结构。

在标准 Transformer 或部分 looped Transformer 中,随着层数增加,后续层对隐藏状态的改变可能逐渐减弱,模型很早就趋向一个相对稳定的输出分布。HRM-Text 的分析则显示,其深层计算仍然保持较明显的表征变化。这意味着递归步骤并不只是重复运行,还在持续修改内部状态,较深的计算步骤依然能够带来增量信息。

不同架构的 Effective Depth 对比。

少预测一些,把训练信号集中到回答上

架构变化之外,HRM-Text 的第二项改动发生在预训练目标上。

大多数语言模型采用自回归的「下一个 token 预测」:给定一段文本,预测下一个 token。无论输入是网页、书籍、论坛回复还是代码,模型都要学习接续序列中的每一个位置。这套目标足够通用,但也意味着,大量训练信号会被用于预测和任务完成关系不大的文本。

HRM-Text 选择了一条更有针对性的路线:它省略了大规模原始文本预训练阶段,直接使用「指令——回答」数据对从零开始训练。给定一条指令和对应回答,模型只对回答部分计算 token 级损失。

这并不意味着指令部分完全不参与学习。回答损失依然会沿着注意力路径影响模型如何理解和使用指令。但模型不再承担「预测问题本身」的任务,而是将更新信号更集中地用于生成合适的答案。

如果用一个更直观的类比:老师批改试卷时,不再给「抄题」打分,只评价答题部分。

与「仅回答目标」配套的是 PrefixLM mask。在标准 causal mask 中,每个 token 只能看到自己之前的内容。这种设计适合从左到右生成,但对于已经完整给出的指令而言,限制并非必要。

HRM-Text 允许指令部分的 token 彼此双向可见;进入回答部分后,再恢复标准的因果生成方式。

于是,模型可以先把整段指令作为完整上下文进行整合,再逐步生成答案。在仅解码器的实现中,它获得了一种近似编码器——解码器的分工:指令侧更像编码,回答侧更像解码。

论文的注意力分析显示,相较于纯 causal mask,PrefixLM 带来了更高的注意力熵,注意力模式也更加全局和多样。它并不只是改变了一张 mask,而是在提升模型利用指令信息的方式。

仅对回答计算损失、PrefixLM 注意力掩码和注意力分布的差异。

这几项设计的效果,可以从消融实验中看得比较清楚。

在相同训练 FLOPs 条件下,研究团队依次加入「仅预测回答」、PrefixLM 和 HRM 架构,并观察模型表现如何变化。

以 ARC-Challenge 为例,1B Transformer 使用全序列预测和 causal mask 时,得分为 51.91;改成仅预测回答后,提高到 62.88;加入 PrefixLM 后,进一步提高到 74.32;最后换成 HRM 架构后,达到 81.91。

在 MATH 上,成绩则从 35.44 依次提高到 47.04、48.36 和 56.16。GSM8K 也从 48.37 依次提高到 69.75、75.06 和 84.53。

这组结果说明,HRM-Text 的效率并非来自某一个单独改动,而是三个方向共同作用的结果:分层递归架构提高有效计算深度;任务完成目标将训练信号集中在任务完成上;PrefixLM 改善模型整合指令上下文的方式。

为确保结果可信,Sapient Intelligence 对数据污染问题进行了系统验证。HRM-Text 仅使用公开且可追溯来源的数据进行训练,并针对评测集进行了严格的数据污染分析。在最严格的 Clean Split 条件下,模型依然取得了与主实验一致的优势结果,说明性能提升并非来自测试集泄漏,而是源于模型架构本身带来的能力提升。详细分析见论文。

将 HRM-Text 放进更广泛的小模型对比中,也能看到它的特点。

它在 MATH、GSM8K、DROP 和 ARC-Challenge 等偏任务执行与推理的 benchmark 上表现突出;在 MMLU 这类更依赖广泛知识覆盖的基准测试上,则处于有竞争力但并不领先的位置。

例如,论文列出的 Qwen3.5 2B 在 MMLU 上达到 64.5,高于 HRM-Text 的 60.7;OLMo3 7B 则达到 65.8。但在 MATH 上,HRM-Text 的 56.2 高于表格中的 Qwen3.5 2B、Llama 3.2 3B、Gemma3 4B 和 OLMo3 7B。

这种差异并不难理解。

如果训练数据和参数规模有限,模型很难同时覆盖足够宽广的事实知识。HRM-Text 更适合被理解为一个偏重任务执行与推理能力的紧凑模型,而不是一个已经覆盖广泛知识、完成对话对齐和工程优化的通用型产品模型。

团队在采访中也给出了更具体的解释:训练数据较少,意味着模型没有充分覆盖数据长尾;参数规模较小,则意味着即使模型见过部分低频信息,也更难将其稳定保留在参数中。

论文据此提出了一个后续方向:将推理核心和知识存储部分解耦。未来,类似 HRM-Text 的紧凑递归模型可以专注于计算、规划和任务执行,而事实覆盖则交给检索系统、外部知识库或可学习的记忆模块。

团队在采访中表示,近期已经在「推理——知识解耦」方向上获得了一些早期结果,但尚未披露具体实验。

这并不意味着知识可以被简单地从模型中剥离。外部知识如何进入多轮内部计算、检索结果如何与潜空间状态交互、记忆模块如何训练,仍然需要系统实验。

另一方面,它也不是第一个探索递归计算、潜空间推理或 PrefixLM 的模型。Looped Transformer、RINS、Huginn、Ouro 等工作都在不同程度上探索过参数复用、内部循环或潜空间计算。条件生成和 PrefixLM 也已有较长研究历史。

HRM-Text 更合适的定位是:它将分层双时间尺度递归、递归稳定训练方法、「仅回答目标」和 PrefixLM 组合进一个低预算从零预训练框架中,并在 1B 规模上给出了可复现的结果。

让 HRM 进入开放语言环境

HRM-Text 并不是 Sapient 第一次探索分层递归计算。

2025 年 6 月,团队提出了 HRM(Hierarchical Reasoning Model)架构,正是前文提到的高层模块、低层模块、双时间尺度计算和潜空间迭代。

论文标题:Hierarchical Reasoning Model

论文地址: https://arxiv.org/pdf/2506.21734 

团队随后于 2025 年 7 月全面开源第一代模型 HRM-Symbolic,主要面向具有明确边界的符号推理任务。通过分层模块、双时间尺度计算和潜空间推理,它在复杂数独、迷宫寻路和 ARC-AGI 等任务中验证了 HRM 架构处理组合搜索问题的潜力。

但这还只是第一步。

无论是数独还是迷宫寻路,这类任务都具有相对清晰的规则、状态空间和可验证答案。语言模型面对的环境则更加开放:自然语言存在歧义,知识覆盖范围更广,输出形式也更加多样。模型不仅需要完成推理,还需要理解上下文、组织语言,并在开放场景中生成合适的答案。

更重要的是,符号任务中可行的递归架构,并不一定能够直接迁移到语言建模。随着递归深度增加,激活值和梯度更容易失控。HRM-Text 引入 MagicNorm 和渐进式深层信用分配,正是为了让深层递归能够稳定扩展到语言模型。

如果说 HRM-Symbolic 回答的是「这条架构路线是否可行」,那么 HRM-Text 开始回答的是另一个更关键的问题:当任务进入开放域语言环境时,这套架构是否仍然有效?

从目前的结果来看,答案至少值得继续探索。

值得注意的是,递归潜空间推理也正在获得其他研究团队的关注。

2026 年 5 月 19 日,图灵奖得主 Yoshua Bengio 作为共同作者参与发布了《Generative Recursive Reasoning》。论文提出的 GRAM(Generative Recursive Reasoning Models)直接沿着 HRM 所开创的分层递归推理路线展开研究,在 HRM 架构基础上进一步引入概率化多轨迹推理机制。

该工作表明,HRM 已不仅仅是一项单独的模型创新,而正在成为下一代推理型人工智能的重要研究基础,并持续吸引全球顶尖学者沿这一方向深入探索。

Sapient 为什么重新做一套架构

Sapient Intelligence 对 HRM 的探索,与两位创始人此前的技术路径有关。

Sapient 创始人王冠长期关注强化学习,曾在清华大学脑与智能实验室、上海人工智能实验室和小马智行从事相关研究与工程工作,也是 OpenOrca 的核心开发者和 OpenChat 作者。联合创始人陈威廉则有大疆创新、禾赛科技等公司的研发经历,并曾负责清华大学科创中心的成果转化工作。

两人的 AGI 探索始于 2020 年。当时,大语言模型尚未展现出今天的影响力。相比单纯依赖规模扩张,他们更关注另一类问题:智能系统能否像人一样,通过与环境交互不断积累经验,并在有限资源下持续学习?

因此,团队最初从强化学习切入,将主要精力投入自动驾驶和机器人等场景。随着 GPT-3 和 ChatGPT 相继出现,他们开始调整方向,探索强化学习与大语言模型结合的可能性。这项探索后来形成了 OpenChat。

OpenChat 的成功验证了围绕后训练数据质量和训练目标进行优化的价值,但也让团队开始思考一个更底层的问题:如果模型的基础架构仍然是 Transformer,那么无论后训练方法如何改进,能力增长是否仍会越来越依赖更多参数、更多数据和更大规模的算力集群?

对于一家创业公司而言,这不只是一个理论问题。沿着主流路线继续前进,意味着进入一场由资本和算力主导的竞赛。Sapient 最终选择将注意力转向底层架构:不再只优化现有模型的训练方式,而是重新思考智能系统应该如何组织计算。

HRM 由此成为团队的核心技术路线。

Sapient 将自己的长期方向概括为 Lean General Intelligence:不是单纯追逐更大的模型,而是寻找更高效、更可及、更具泛化能力的智能系统。HRM-Symbolic 和 HRM-Text,正是这条路线上的两个阶段性结果。

HRM-Text 提供了一个有数据支撑、也可以被复现和继续检验的案例:在一个通常需要海量 tokens 和庞大集群的领域,通过改变计算结构与训练目标,一个 1B 参数模型仍然能够以较低预算进入部分 2B 至 7B 开源模型的性能区间。

真正困难的问题可能还在后面。团队在采访中提到,如果未来将 HRM 扩展到更大规模,或者与 MoE、检索系统和可学习记忆结合,递归架构本身的稳定性问题可能与新模块的训练难题进一步叠加。专家模块应该放在网络的什么位置、如何优化,外部知识如何进入多轮内部计算,都仍然需要系统实验。

Scaling 之外,另一条路刚刚开始

不可否认,HRM-Text 尚未成为一条能够全面取代 Scaling Law 的成熟路线。它的底层数据配比、真实的推理成本、向更大参数规模扩展的潜力,乃至在极其复杂的开放任务中的表现,都仍需时间的检验与开源社区的独立复现。

它也不是对 Scaling 的否定。过去几年,扩大参数、数据和算力规模,已经反复证明了自己的有效性。未来的模型进步,大概率仍然需要更高质量的数据、更充足的算力和更系统的工程投入。

但 HRM-Text 所展示的,可能不仅仅是一个新的模型架构。

如果说过去十年 AI 的主要增长轴,是参数规模、数据规模和训练算力的持续扩张,那么 HRM 所探索的,是另一个更底层的问题:计算过程本身,能否成为新的增长轴?

标准 Transformer 的基本思路,是通过堆叠更多参数,让模型拥有更强的表征能力。HRM 则尝试让有限参数在潜空间中参与多轮分层递归计算,使模型在输出之前完成更深的内部状态更新。GRAM 等后续研究进一步表明,这条路线还可以继续向概率化、多轨迹和推理时宽度扩展。

从这个角度看,HRM-Text 的价值不只是一个约 1B 参数的模型取得了怎样的 benchmark 成绩,也不只是一次低成本预训练实验节省了多少 GPU 时间。

更重要的是,它提供了一个可以复现、可以比较、也可以继续被证伪或改进的案例:除了扩大模型规模之外,重新设计计算结构,同样可能改变性能、成本与能力之间的关系。

在一个已经被 Scaling 深刻塑造的行业中,这种可能性本身就足够重要。因为下一代智能系统的增长,或许不仅来自更多参数、更多数据和更多算力,也来自一个更基础的问题:模型究竟应该如何思考。

本文来自微信公众号 “机器之心”(ID:almosthuman2014),作者:关注模型架构的,36氪经授权发布。

+1
5

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

制造业扩张放缓,工企利润不断修复

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业