堆推理链全错了,林俊旸离职首曝:曾在阿里 Qwen 踩中一个“致命”技术误区
在外界围绕“Harness Engineer”讨论得热火朝天之际,阿里千问技术负责人林俊旸在离职后首次公开发声。
昨天深夜,他发布了一篇长文《From “Reasoning” Thinking to “Agentic” Thinking》(从“推理”思维到“智能体思维”),对 AI 下一波能力跃迁作出了一次系统性的判断:大模型的未来,不是继续把推理链拉得更长,而是转向一种为了行动而思考、在环境中思考、并通过反馈闭环持续修正的“智能体思维”。
在这篇文章中,林俊旸罕见复盘了Qwen 在训练过程中的一次关键尝试,以及他为何最终改变了判断。
他在文中提到,2025 年初,团队曾试图挑战一件事:把 thinking 和 Instruct 模式合并到同一个模型中。在他的理想设定里,一个真正先进的模型,不应只有“会不会思考”这一个开关,而应该能够根据提示词和上下文,自动判断该投入多少推理计算:什么问题可以直接回答,什么问题需要多想一会儿,什么问题又值得显著增加计算量。
Qwen3 正是这一方向的一次大胆尝试,它首次引入了混合思维模式。但在林俊旸看来,结果并不理想。
合并之后,thinking 往往变得更啰嗦、更犹豫,而 Instruct 模式 也不再像过去那样干脆、稳定、低成本。问题的根源不在模型开关,而在数据本身:两种模式对应的数据分布不同、行为目标不同,如果缺乏精细化的融合与校准,最终往往不是“取长补短”,而是“两头都受损”。
这也是为什么,尽管 OpenAI 的 o1 和 DeepSeek-R1 已经证明推理能力可以被训练、被复现,并在 2025 年上半年将行业带入“推理模型时代”,大家都在思考如何让模型在推理阶段投入更多计算、如何用更强奖励信号训练它们、如何控制额外的推理开销时,林俊旸却开始追问另一个更根本的问题:大模型最好的思考方式,到底应该是什么样子?
他给出的答案是,单纯延长推理链并不是终点。真正更有效的方向,是让模型为了行动而思考。
在这一判断上,Anthropic 给了他重要启发。林俊旸注意到,Anthropic 在 Claude 3.7 和 Claude 4 上,始终强调“思考应该由目标工作负载来塑造”。
Claude 3.7 被定义为一个带有可控预算的混合式推理模型;Claude 4 则更进一步,允许推理过程与工具使用交错进行。这种思路背后的关键,不是让模型输出更长的思维链,而是让思考真正服务于编码、工具调用、长时任务和智能体工作流。
由此,林俊旸重新审视了自己此前的实验,也重新界定了“合并”这件事的真正含义。在他看来,理想中的统一,并不是把 thinking 和 Instruct 模式 粗暴塞进同一个 checkpoint,而是让模型拥有一个更平滑的推理光谱:它既能表达不同层级的推理强度,也能在理想情况下根据任务难度自适应地做出选择。
这也构成了他对 AI 下一阶段最核心的判断:从“推理思维”走向“智能体思维”。
如果说推理思维的典型形态,是静态的、内部的、偏独白式的长推理链;那么智能体思维则完全不同。它不是在封闭的模型内部“想得更久”,而是在与环境持续互动的过程中思考,在行动中调用工具、获取反馈、修正策略,并把思考真正嵌入到执行过程之中。
这意味着,未来更强的模型不只是“更会解题”,还必须能够处理一系列纯推理模型很难解决的问题:
- 决定什么时候该停止思考并采取行动
- 选择调用哪个工具,以及调用顺序
- 吸收来自环境的噪声观测或不完整观测
- 在失败之后修订计划
- 在多轮交互、多个工具调用之间保持一致性
这与最近被频繁讨论的Harness Engineering正相对应。
按照林俊旸的理解,未来智能体能力的核心,越来越不只来自模型本身,也来自围绕模型搭建的那套“脚手架”——也就是环境、工具、约束、反馈循环,以及多智能体协同机制。Harness Engineering 的价值,正是在于把一个“裸模型”变成一个能够在现实任务中持续行动、持续修正、持续完成工作的 Agent。
在推理时代,领先主要来自更强的强化学习算法、更稳定的反馈信号和更可扩展的训练流水线;而在智能体时代,领先将越来越取决于谁能构建出更好的环境、更紧密的训推协同、更强的 harness engineering,以及谁能真正把模型的决策与现实后果闭环起来。
以下是林俊旸全文展现:
从“推理”思维到“智能体思维”
过去两年,重塑了我们评估模型的方式,也重塑了我们对模型的期待。OpenAI 的 o1 表明,“思考”可以成为一项核心能力:它既可以被专门训练,也可以被直接呈现给用户。DeepSeek-R1 则证明,以推理为中心的后训练范式并非原始实验室独有,它可以在外部被复现并进一步扩展。OpenAI 将 o1 描述为一个通过强化学习训练、能够“先思考再作答”的模型;DeepSeek 则将 R1 定位为一个可与 o1 竞争的开源推理模型。
那个阶段当然重要。但 2025 年上半年,行业主要关注的仍然是“推理式思维”:如何让模型在推理阶段投入更多计算,如何用更强的奖励信号来训练它们,以及如何展示或控制这部分额外的推理开销。现在的问题是,下一步会是什么?我认为答案是:智能体思维。也就是为了行动而思考,在与环境互动的过程中思考,并根据来自外部世界的反馈不断调整计划。
1. o1 和 R1 的兴起,究竟教会了我们什么
第一波推理模型告诉我们:如果想在语言模型上扩展强化学习,就需要确定、稳定、可扩展的反馈信号。数学、代码、逻辑以及其他可验证领域因此变得格外关键,因为这些场景下的奖励信号远强于一般性的偏好监督。它们让强化学习优化的是“正确性”,而不是“看起来合理”。基础设施也因此变得至关重要。
一旦模型被训练到能够处理更长的推理轨迹,强化学习就不再只是监督微调上的一个轻量附加模块,而会变成一个系统工程问题。你需要大规模 rollout 生成、高吞吐验证、稳定的策略更新以及高效的采样。推理模型的出现,既是模型层面的故事,也是基础设施层面的故事。OpenAI 将 o1 描述为一条通过强化学习训练出来的推理模型路线;而 DeepSeek R1 随后进一步强化了这一方向,展示了基于推理的强化学习对专门算法和基础设施投入有多高。第一个重要转变,就是从扩展预训练,转向扩展面向推理的后训练。
2. 真正的问题,从来不只是“把思考模式和 Instruct 模式 合并”
在 2025 年初,Qwen 团队中的许多人脑海里都有一个颇具野心的愿景。理想中的系统,应当统一思考模式与 Instruct 模式。它应支持可调节的推理难度或推理光谱,类似 low 、 medium、high 这样的推理档位。更理想的是,它还能根据提示词和上下文自动判断合适的推理强度,让模型自己决定:什么时候可以立即回答,什么时候需要多想一会儿,什么时候又值得为真正困难的问题投入更多计算。
从概念上看,这个方向是对的。Qwen3 可以说是其中最清晰的公开尝试之一。它提出了“混合思考模式”,支持同一模型家族同时具备思考与非思考两种行为,强调可控的思考预算,并描述了一个四阶段的后训练流程,其中在长链思维冷启动和推理强化学习之后,明确包含了“思考模式融合”。
但“合并”说起来容易,真正做好却很难。难点在于数据。人们谈到合并思考模式与 Instruct 模式 时,往往首先想到的是模型侧的兼容性:一个 checkpoint 能不能同时支持两种模式,一个聊天模板能不能在二者之间切换,一套服务栈能不能暴露合适的开关。可更深层的问题在于,这两种模式对应的数据分布和行为目标本身就有明显差异。
在试图平衡模型合并与提升后训练数据质量、数据多样性的过程中,我们并不是每一步都做得尽善尽美。在那轮调整中,我们也格外关注了用户究竟是如何使用思考模式和 Instruct 模式 的。一个强大的 Instruct 模式 模型,通常因其直接、简洁、格式遵循度高,以及在重写、标注、模板化客服、结构化抽取、运营问答等高频高吞吐企业任务上的低延迟表现而受到奖励。一个强大的思考模型,则会因其在难题上愿意投入更多 token、能维持连贯的中间结构、能探索备选路径,并保留足够的内部计算以切实提升最终正确率而受到奖励。
这两种行为画像天然存在拉扯。如果合并数据没有经过足够精细的筛选和设计,结果往往是两边都做不好:“思考”行为会变得嘈杂、臃肿、犹疑不决;而“Instruct 模式”行为则会失去应有的利落、可靠和成本优势,不再符合商业用户的实际需求。
因此,在实践中,“分开做”依然很有吸引力。2025 年稍晚些时候,在 Qwen3 最初提出混合框架之后,2507 系列推出了彼此独立的 Instruct 和 Thinking 更新,其中包括分别独立的 30B 和 235B 版本。在商业部署中,大量客户依然需要的是高吞吐、低成本、强可控的 Instruct 模式 行为,用于批量化操作。对这些场景来说,合并并不一定带来明确收益。将产品线拆开,反而能让团队更清晰地分别解决两种模式各自对应的数据和训练问题。
其他实验室则选择了相反的道路。Anthropic 公开主张一种一体化模型哲学:Claude 3.7 Sonnet 被定义为一个混合式推理模型,用户既可以选择普通回答,也可以选择扩展思考;API 用户还可以设置思考预算。Anthropic 明确表示,他们相信推理应当是一种集成能力,而不是一个单独的模型。GLM-4.5 也公开将自己定位为混合式推理模型,同时支持思考与非思考模式,并统一了推理、编码和智能体能力;DeepSeek 后来在 V3.1 上也朝类似方向迈进,推出了“Think & Non-Think”的混合推理。
关键问题在于,这种融合是否是“自然长出来的”。如果思考模式和 Instruct 模式 只是被塞进同一个 checkpoint 里,但表现出来仍像两个生硬拼接的人格,那么产品体验依然不会自然。真正成功的融合,要求推理投入是一个平滑连续的谱系。模型应能够表达多个层级的推理强度,并且理想情况下,还能自适应地做出选择。GPT 风格的 effort control 正指向这个方向:它不是一个二元开关,而是一套关于计算投入的策略。
3. 为什么 Anthropic 的方向是一种有益的纠偏
Anthropic 围绕 Claude 3.7 和 Claude 4 的公开表述是相当克制的。他们强调的是一体化推理、用户可控的思考预算、真实世界任务、代码质量,以及后续在扩展思考过程中使用工具的能力。Claude 3.7 被描述为一个带有可控预算的混合式推理模型;Claude 4 则在此基础上更进一步,允许推理过程与工具使用交错进行。与此同时,Anthropic 还将编码、长时任务和智能体工作流明确放在核心目标位置上。
更长的推理轨迹,并不会自动让模型变得更聪明。很多时候,过度外显的推理反而暴露了资源分配不当。如果模型试图用同样冗长的方式去“思考”所有问题,它可能其实是在优先级判断上出了问题,没能有效压缩信息,也没能及时采取行动。Anthropic 的路线传达出一种更克制、更有纪律性的看法:思考应当由目标工作负载来塑造。如果目标是编码,那么思考就应当帮助模型进行代码库导航、任务规划、问题拆解、错误恢复和工具编排;如果目标是智能体工作流,那么思考就应当提升模型在长时间尺度上的执行质量,而不是产出一段看起来很厉害的中间推理文本。
这种对“目标效用”的强调,实际上指向了一个更大的变化:我们正在从“训练模型”的时代,迈向“训练智能体”的时代。我们在 Qwen3 的博客里也明确写过:“我们正在从一个专注于训练模型的时代,转向一个以训练智能体为中心的时代。”同时,我们也把未来强化学习的推进方向,与依赖环境反馈的长时程推理联系在了一起。一个智能体,是那种能够制定计划、决定何时行动、使用工具、感知环境反馈、修正策略,并在较长时间范围内持续推进任务的系统。它的本质,在于与世界之间的闭环交互。
4. “智能体思维”到底意味着什么
智能体思维对应的是一个完全不同的优化目标。推理式思维通常看重的是:模型在给出最终答案之前,内部思考的质量如何——它能不能解出定理、写出证明、产出正确代码,或者通过基准测试。智能体思维关注的则是:模型在与环境交互的过程中,能否持续推进问题的解决。
核心问题也因此从“模型能不能想得足够久”,转变为“模型能不能以一种能够支撑有效行动的方式去思考”。智能体思维必须处理若干纯推理模型往往可以回避的问题:
- 决定什么时候该停止思考并采取行动
- 选择调用哪个工具,以及调用顺序
- 吸收来自环境的噪声观测或不完整观测
- 在失败之后修订计划
- 在多轮交互、多个工具调用之间保持一致性
智能体思维,本质上是一种围绕行动展开、在环境中运作、并依赖反馈闭环不断修正自身的思维能力。它不是为了生成更长的中间过程而思考,而是为了让行动持续有效地推进。
5. 为什么智能体强化学习的基础设施更难
一旦目标从“解基准题”变成“解交互任务”,强化学习的整套技术栈就会发生变化。用于经典推理强化学习的基础设施已经不够用了。在推理强化学习里,你通常还能把 rollout 生成视为相对自包含的轨迹,配合相对干净的评估器。而在智能体强化学习里,策略是被嵌入在一个更大的执行框架中的:工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、记忆系统,以及各种编排框架。环境不再只是一个静态验证器,而成为训练系统本身的一部分。
这就带来了一个新的系统要求:训练与推理必须更彻底地解耦。如果做不到这一点,rollout 生成的吞吐会迅速崩掉。设想一个编码智能体,它需要把自己生成的代码放到实时测试环境里执行:推理侧会因为等待执行反馈而卡住,训练侧又会因为拿不到完成的轨迹而“断粮”,整条流水线的 GPU 利用率会远低于经典推理强化学习中的水平。再叠加工具延迟、部分可观测性和有状态环境,这些低效只会被进一步放大。最终,实验会在离目标能力还很远的时候,就已经变得缓慢、痛苦且难以扩展。
环境本身,也因此成了一类一等研究对象。在 SFT 时代,我们痴迷的是数据多样性;在智能体时代,我们应该痴迷的是环境质量:稳定性、真实性、覆盖面、难度、状态多样性、反馈丰富度、抗利用能力,以及 rollout 生成的可扩展性。环境构建已经开始从“顺手做的副项目”,变成一个真正的创业赛道。如果智能体的目标是在接近生产环境的设置中运行,那么环境本身就是核心能力栈的一部分。
6. 下一个前沿,是更“可用”的思考
我的判断是,智能体思维会成为未来最主要的思考形态。我甚至认为,它最终可能替代掉大量旧式的、静态独白式的推理:那种冗长、孤立的内部思维轨迹,试图通过输出越来越多文本来弥补无法交互的缺陷。即便面对非常困难的数学题或编码任务,一个真正先进的系统也应该有权去搜索、模拟、执行、检查、验证和修正。目标应当是稳健、高效地解决问题,而不是单纯展示一段很长的“思考过程”。
训练这类系统时最棘手的挑战,是 reward hacking。一旦模型获得了真正有用的工具访问权限,reward hacking 就会变得危险得多。一个带搜索能力的模型,可能会在强化学习过程中学会直接搜索答案;一个编码智能体,可能会利用代码仓库里的未来信息、滥用日志,或者发现一些让任务本身失效的捷径。一个存在隐蔽泄漏的环境,会让策略看起来像“超人”,而实际上它学到的只是作弊。这正是为什么智能体时代要比推理时代微妙得多。更强的工具当然会让模型更有用,但也同时扩大了伪优化的攻击面。我们应当预期,下一批真正严肃的研究瓶颈,将来自环境设计、评估器鲁棒性、反作弊协议,以及策略与世界之间更原则化的接口设计。尽管如此,方向是明确的:能够借助工具进行思考,显然比孤立思考更有用,也更有机会真正提升生产力。
智能体思维也意味着 harness engineering 会变得越来越重要。未来的核心智能,将越来越多地体现在多个智能体的组织方式上:一个负责规划与分发工作的协调器,一些扮演领域专家的专用智能体,以及一些处理更窄任务范围的子智能体;这些子智能体不仅负责执行,也有助于控制上下文、避免污染,并维持不同推理层级之间的隔离。未来的演进路径,将是从训练模型,走向训练智能体,再走向训练系统。
结论
推理浪潮的第一阶段,确立了一件重要的事:当反馈信号足够可靠、基础设施足以支撑时,在语言模型之上施加强化学习,能够带来质量层面显著更强的认知能力。
而更深层的变化,是从“推理式思维”走向“智能体思维”:从“想得更久”,转向“为了行动而思考”。训练的核心对象已经改变了。它不再只是模型本身,而是“模型 + 环境”组成的系统;更具体地说,是智能体及其周边的执行框架。这也改变了哪些研究产物最重要:模型架构和训练数据当然依旧重要,但环境设计、rollout 基础设施、评估器鲁棒性,以及多智能体协同所依赖的接口,同样变得关键。它还改变了“好的思考”到底意味着什么:真正有价值的,不是最长、最显眼的思维轨迹,而是在现实约束下最能支撑持续行动、最能在环境中有效运作、并能通过反馈闭环不断修正的那种思考。
这也改变了竞争优势将来自哪里。在推理时代,优势主要来自更好的强化学习算法、更强的反馈信号,以及更可扩展的训练流水线。而在智能体时代,优势将更多来自更好的环境、更紧密的训推协同、更强的 harness engineering,以及把模型决策与其后果真正闭环起来的能力。
参考链接:
https://x.com/justinlin610/status/2037116325210829168?s=46
本文来自微信公众号“AI前线”,作者:允毅,36氪经授权发布。















