搜索

36氪Auto
数字时氪
未来消费
智能涌现
未来城市
启动Power on
36氪出海
36氪研究院
潮生TIDE
36氪企服点评
36氪财经
职场bonus
36碳
后浪研究所
暗涌Waves
硬氪
氪睿研究院
媒体品牌
企业号
企服点评
36Kr研究院
36Kr创新咨询
企业服务
核心服务
城市之窗
政府服务
创投发布
LP源计划
VClub
VClub投资机构库
投资机构职位推介
投资人认证
投资人服务
寻求报道
36氪Pro
创投氪堂
企业入驻
创业者服务
创投平台
AI测评网

搜索

我要入驻

三星 TRM 论文：少即是多，用递归替代深度，挑战 Transformer 范式

大数据文摘·2025年11月03日 20:48

智能的深度，不一定来自规模，而可能来自重复思考。

三星SAIL蒙特利尔实验室的研究人员近日发布论文《 Less is More: Recursive Reasoning with Tiny Networks 》，提出一种名为 Tiny Recursive Model（TRM） 的新型递归推理架构。

这项研究显示，在推理任务上，小网络也能战胜大型语言模型。

TRM仅使用 700万参数、两层神经网络，就在多项高难度任务中超过了 DeepSeek R1、Gemini 2.5 Pro、O3-mini 等模型。

在架构上，TRM也放弃了自注意力层（仅限 TRM-MLP 变体；TRM-Att 仍含自注意力。）。论文表明，对于小规模固定输入任务，MLP反而能减少过拟合。另外，当上下文长度较短时，注意力机制反而是一种浪费。TRM 在某些任务（例如 Sudoku、Maze-Hard 等）中，使用纯 MLP 结构优于 Transformer-based 模型。

图注： Tiny Recursive Model（TRM）通过不断在“答案 y和“潜在思考变量 z 之间递归更新，实现小参数模型的多轮自我修正推理。

传统大模型依赖链式思维（Chain-of-Thought）生成推理步骤，但这种方法成本高、容易累积错误。

TRM 则通过递归地更新“答案”和“潜在思考变量”，让模型在多轮自我修正中逼近正确结果。

论文总结：“TRM以极小的规模实现了前所未有的泛化能力。”在ARC-AGI推理基准上，TRM获得 45%（ARC-AGI-1） 与 8%（ARC-AGI-2） 的准确率，高于多数大型模型。在Sudoku-Extreme任务上，它的准确率更是达到 87.4%，刷新纪录。

研究团队称，这种结构的核心逻辑是“递归即深度”：深度递归可替代增加层数，模型不需更多层数，只需反复思考。

推理机制重构：少即是多

TRM的设计源自对上一代 Hierarchical Reasoning Model（HRM） 的反思。

HRM模型在两种不同频率下递归更新潜变量𝑧𝐿与𝑧𝐻的过程，通过先无梯度、后带梯度的双阶段循环，实现高低频递归推理的结合。

HRM 使用两个网络在不同“频率层次”上递归运算，模仿人脑的多层推理结构。然而，其训练过程复杂，依赖固定点理论（Fixed-Point Theorem）和生物学假设。

TRM彻底放弃这些理论假设。

研究者发现，单一网络加深度监督（Deep Supervision）即可实现相同甚至更好的推理效果。

模型通过多次前向递归更新内部潜变量z与当前答案y，让推理链条在每一步收敛得更准。

与HRM相比，TRM的参数量减少参数缩减约74%，单步前向次数减半，同时提升准确率。

论文数据显示：在Maze-Hard数据集上，TRM测试准确率为85.3%，高出HRM 10个百分点。

TRM还取消了传统的“继续计算”机制（Adaptive Computational Time, ACT）中第二次前向传播。

研究者改用一个简单的二元判断来决定是否停止推理。

结果显示，模型训练速度显著提升，准确率几乎不变。

在架构上，TRM也放弃了自注意力层。对于小规模固定输入任务（如数独），使用多层感知机（MLP）反而能减少过拟合。

论文指出，“当上下文长度较短时，注意力机制反而是一种浪费。”这一发现挑战了AI界“模型越大越强”的经验法则。减少层数、加深递归，是让模型学会‘思考’的关键。

结果与启示：推理的新尺度

实验结果表明，TRM不仅在性能上反超HRM，更在泛化能力与效率比上建立了新标准。

在Sudoku-Extreme上，它以5M参数实现87.4%准确率；

在Maze-Hard任务上，以7M参数实现85.3%；

在ARC-AGI系列测试中，表现超过Gemini 2.5 Pro与DeepSeek R1等大模型。

研究团队将这一成果概括为：“以递归取代规模，以思考取代堆叠。”

论文分析认为，大模型在生成式推理中往往容易被一次性错误放大，而TRM通过循环式的自我修正，将推理划分为多个小步，显著降低误差传播。

这种结构在小样本条件下尤为有效。

作者还发现，两层网络的泛化能力优于更深模型。当层数增加到四层或以上时，性能反而下降，原因在于过拟合。

团队引入指数移动平均（EMA）以稳定训练，使模型在小数据集上保持一致收敛。

研究指出，这种方法提供了一条新的“轻量AI推理路线”：当算力与数据受限时，小模型通过递归学习仍可实现复杂思维行为。

这为未来的边缘AI与低资源应用提供了方向。智能的深度，不一定来自规模，而可能来自重复思考。

注：头图AI生成

本文来自微信公众号“大数据文摘”，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+1

37

好文章，需要你的鼓励

你可能也喜欢这些文章

slop成为年度词汇，AI终究要污染整个互联网

Gemini 3 Flash闪电来袭：智力竟反超Pro，速度快3倍，全球免费

AI视频生成，如何撕开创作边界？

谷歌错失的三年和全球第八富豪最大的遗憾

大馋丫头靠小玩具实现和纸片人老公“边聊边X”，AI已经成了情趣PLAY的一环？

月活暴跌70%背后，Kimi走在钢索之上

Meta再爆大瓜，气走杨立昆的Wang也受不了小扎了？

小杯Gemini战胜GPT5.2，1分钟模拟Windows操作系统

砍掉标准版，小米 SU7 换代起步即 Pro，价格或上涨 2 万元

大数据文摘

特邀作者

TA没有写简介，但内敛也是一种表达

最近内容

三星 TRM 论文：少即是多，用递归替代深度，挑战 Transformer 范式

斯坦福最新研究：AI的上下文比参数重要，无需重训、不再微调

礼貌=更不准？宾夕法尼大学新论文：对 AI 粗鲁点，提升 4% 准确率

找雪中飞代工羽绒服，阿迪达斯做错了吗？

还有更多的硬仗要打。

2025-11-03

关于36氪

投资者关系

36氪欧洲站 36氪欧洲站 36氪欧洲站 Ai产品日报

网络谣言信息举报入口

热门推荐

合作伙伴

36氪APP下载

iOS & Android

36氪APP让一部分人先看到未来

36氪

鲸准

氪空间

推送和解读前沿、有料的科技创投资讯