智能体时代的强化学习:AReaL 框架与 Agent 最佳实践
随着大模型与智能体(Agent)技术的快速发展,强化学习(RL)正成为提升 AI 智能体自主决策能力的关键引擎。然而,传统的 RL 训练方法面临计算成本高、数据需求大、系统复杂度高等挑战,限制了 Agent 的规模化落地。
本文整理自清华大学交叉信息院助理教授,博士生导师,前 OpenAI 研究员吴翼博士在 2025 年 QCon 全球软件开发大会(上海站)的分享 “智能体时代的强化学习:AReaL 框架与 Agent 最佳实践”。他在演讲中重点介绍了针对 Agent 模型的强化学习训练系统 AReaL 及其在 Agent 场景下的最佳实践,并通过真实数据和可复现的代码,展示 AReaL 如何帮助开发者和企业高效构建智能体系统,并推动 AI Agent 从实验室走向产业应用。
内容亮点
- 面向 Agent 的强化学习技术突破;
- 独家开源实践;
- 前沿 Agent 场景落地。
以下是演讲实录(经 InfoQ 进行不改变原意的编辑整理)。
大家好,我叫吴翼,是清华大学交叉信息院的助理教授。多年来,我一直在从事强化学习及智能体相关的研究。今天,我非常荣幸能够受邀来到这里,与大家分享我们团队的工作成果,以及强化学习在大模型时代下智能体领域的一些新进展。
今天,我想和大家分享两个重要的观点:
- Agent 是 AGI 未来 5 年最重要的事;
- 强化学习是 Agent 的技术关键。
我希望在接下来的分享中,能够让大家对这两个观点有更深刻的理解。
1 AReaL 团队要做什么:以 RL 打造 Agent
我们先从强化学习说起。很多人对强化学习的了解始于 AlphaGo。当时,DeepMind 利用强化学习训练了一个围棋智能体,击败了世界顶尖棋手李世石和柯洁。此后,OpenAI 在 DOTA 等游戏中也利用强化学习取得了显著成果,击败了世界冠军 OG 战队。这些事件让强化学习逐渐进入大众视野。然而,在这些早期的应用中,强化学习智能体大多集中在游戏领域。这不禁让人思考:在大模型驱动的 AGI 时代,强化学习与大模型之间究竟有什么样的联系?
事实上,强化学习与大模型之间的关系并非一直如此紧密。直到 2020 年至 2022 年期间,情况才发生了显著变化。2020 年,OpenAI 推出了 GPT-3 的 API。当时的 API 与现在相比,功能上存在很大差异。例如,如果你要求它“用几句话向一个 6 岁的孩子解释登月”,它可能无法很好地完成任务。这是因为大模型的训练基于“下一个词预测”,而这种训练方式并不适合执行复杂的指令任务。
这种问题被称为“指令遵循问题”(instruction following problem)。简单来说,当我们向模型发出指令时,我们希望它能够理解并完成任务,而不是仅仅进行下一个词的预测。在 2020 年,大模型在指令遵循方面表现不佳。但随着时间的推移,OpenAI 不断改进 API,使其能够更好地理解和执行用户指令。这一改进过程不仅提升了大模型的实用性,也使得强化学习与大模型之间的联系更加紧密。
解决大模型指令遵循问题的方法是在 2022 年首次推出的 InstructGPT 模型,其核心是“人类反馈强化学习”(Reinforcement Learning from Human Feedback,RLHF)。当时,研究人员发现,尽管大模型具备强大的语言生成能力,但其输出往往无法精准遵循人类指令,甚至可能生成不符合预期的内容。为了解决这一问题,研究团队采用了 RLHF 技术,通过人工标注数据来训练一个奖励模型,该模型能够判断模型输出是否符合人类指令。
具体而言,研究人员首先收集了大量人类标注的示例数据,这些数据包括任务输入和期望的输出结果。随后,他们利用这些数据对预训练的 GPT-3 模型进行微调,使其初步具备遵循指令的能力。在此基础上,团队进一步收集了模型输出的偏好排序数据,并以此训练奖励模型。最终,通过强化学习算法(如 PPO)优化模型,使其能够根据奖励信号生成更符合人类意图的输出。也正是基于 RLHF 技术,OpenAI 在 2022 年年底推出了划时代的 AI 产品 ChatGPT。
2024 年,技术进一步发展,出现了推理模型,也就是著名的 ChatGPT o1 和 DeepSeek R1 模型,其技术核心是“推理强化学习”(Reasoning RL)。这类模型在接收到任务后,会先进行一段时间的“思考”,生成大量的中间思考 token,然后再输出最终答案。这种“思考”过程实际上是通过强化学习让模型自主探索最优解,从而提高答案的准确性。
2025 年,AI 领域迎来了“ Agent RL ”技术,即基于强化学习的智能体模型。这类模型不仅能够进行思考和推理,还能调用外部工具,如搜索引擎、浏览器等,甚至可以在虚拟环境中操作文件。例如, ChatGPT 的 Deep Research 功能允许用户指定研究主题,AI 会调用多种工具,进行长时间的信息收集和整理,最终生成详实的报告。此外,Minus 等产品进一步扩展了 AI 的能力,使其可以在虚拟环境中操作 PDF 文件、编辑文档等。
让我们来审视一下人工智能(AI)的发展趋势。从 2022 年开始,随着人工智能通用化时代的到来,我们见证了从推理模型到智能体模型的演变。从产品角度来看,这一过程呈现出两个显著的趋势。
以 ChatGPT 为例,它能够迅速响应用户的简单问题,例如询问某个词的中文或英文表达,几乎在瞬间给出答案。然而,随着技术的进步,到了推理模型时代,用户可以向 AI 提出更复杂的任务,比如计算一道物理题。这时,AI 会花费一分钟甚至更长时间进行思考,最终给出详细的解题步骤。而到了智能体模型阶段,AI 的能力进一步拓展。用户可以下达更具挑战性的指令,比如处理大量文件、批改作业等。例如,我们可以将 200 份作业交给 AI,它会在大约一小时内完成批改任务。从这个角度看,一方面,用户与 AI 的交互方式发生了变化。在 ChatGPT 时代,用户需要提供非常详细且冗长的提示(Prompt),明确描述自己的需求。然而,到了智能体时代,用户所需表达的内容变得越来越简洁抽象。另一方面,AI 的输出也从简单的文本回答,逐渐转变为能够主动采取行动,甚至在电脑中自主完成一系列复杂任务。
基于这些趋势,我们可以对未来进行一些展望。从交互的角度来看,我们希望未来的 AI 能够更加便捷,用户无需提供过多复杂的指令。从 AI 的能力角度而言,我们期待它能够承担更多任务,甚至实现 7×24 小时不间断工作。例如,我们可以为 AI 提供更多的计算资源,让它同时处理多个任务,甚至主动为用户安排事务。理想的情况是,用户无需明确指示,AI 就能提前完成任务。事实上,这种趋势已经在一些产品中初现端倪。例如,OpenAI 推出的 ChatGPT Pulse ,其最大的变化在于从被动响应(Reactive)向主动推送(Proactive)的转变。虽然目前它只是每天向用户推送一些信息,但这种全新的主动响应模式的出现意味着 AI 可以提前为用户提供更多形式的内容,比如报表、代码等。从概念上讲,这标志着 AI 从需要用户明确指示转变为能够主动为用户提供服务。我希望在明年的这个时候,我们能看到更多这种主动型智能体产品的出现。
回顾 AGI 产品的演变,从最初的对话框式快速响应,到具备“草稿纸”功能的推理模型,再到拥有“虚拟电脑”(Sandbox)的智能体模型,AI 的能力得到了显著提升。它不仅可以处理复杂的输入和调用工具,还能在虚拟环境中进行文件存储和创作,几乎可以完成人类能够通过电子设备完成的所有任务。这是一个巨大的进步。
当然,我们还可以用一个更抽象的例子来说明。在中国,许多老板习惯对下属说:“小李,你帮我把这件事搞定。”我们希望未来的 AI 也能像这样,用户只需简单地说“帮我把这个搞定”,AI 就能理解并执行任务。这背后涉及许多复杂的技术挑战。首先,人类的需求往往是模糊的,很难清晰地表达自己的意图。其次,每个人的需求都是个性化的,这意味着 AI 需要具备高度的定制化能力。最后,AI 需要具备主动规划的能力,因为有些任务可能需要提前准备。我们期待在未来一年中,这些领域能够取得更多突破性进展。
回到我们团队,一直以来,我们专注于强化学习领域的研究与应用。我们始终怀揣着一个愿景:希望通过强化学习,在智能体技术的前沿打造出卓越的智能体模型、服务和产品。这是我们团队的核心目标,也是我们不懈追求的方向。因此,我们希望让大家相信的第一件事是:智能体技术至关重要。
那么,一个优秀的智能体团队应该具备哪些特点呢?在人工智能通用化时代,团队的特质显得尤为重要。以 OpenAI 为例,其团队的运作模式令人印象深刻。例如,ChatGPT 的最初版本仅由少数人用一周时间开发出一个演示版本(demo),随后迅速走红并发展成一个完整的团队。Deep Research 项目也是如此,几位研究员在两周内完成了一个初步演示,之后便引发了广泛关注。再比如 Codex 项目,17 名成员用了 7 周时间完成了开发。这些例子充分说明了 AGI 时代的特点:迭代速度快,创新周期短。
AGI 时代,一切都以惊人的速度发展。我们难以预测哪些产品会成为爆款,但我们可以确定的是,能够迅速适应这种快速迭代的团队,将更有可能取得成功。Manus 项目就是一个很好的例子,它仅用了两个月时间就开发出了一个现象级产品。这表明,一个好的团队在组织架构上可能需要做出一些改变。我们希望团队能够充分整合 AI 技术,拥有完整的技术栈,而不是分散成多个独立的小组。我们希望团队能够快速将任何创意转化为原型,因为只有通过快速迭代和原型创新,才能在激烈的竞争中脱颖而出。
2 Agent 为什么需要 RL: ASearcher 的例子
这部分和大家深入探讨一下技术,尤其是智能体与强化学习之间的关系。有人可能会问:“吴老师,我们都认同智能体很重要,也都在努力创造智能体,但强化学习在其中究竟扮演什么角色呢?”确实,如今市面上已经有许多智能体框架,比如字节的 CoZe、LangChain、LangGraph 等,甚至 OpenAI 也推出了自己的智能体框架。在这样的背景下,强化学习似乎显得有些多余,毕竟通过简单的拖拉拽方式就能搭建出智能体的工作流程。那么,为什么我们还需要强化学习呢?
我认为,核心问题在于智能体面临的挑战往往非常复杂,仅靠现有的框架和规则是难以解决的。在我看来,有三个主要问题使得强化学习不可或缺。首先,智能体需要处理不确定性和冲突信息。现实世界中,冲突信息无处不在,即使在公司内部也不例外。例如,当我们搜索“ 阿里 CTO ”时,会发现阿里巴巴集团及其子公司蚂蚁集团有许多位 CTO,但其中只有一位是真正的集团 CTO。这种情况下,智能体需要通过进一步的信息收集和判断来做出准确的决策,而不是简单地依赖预设的规则。
其次,智能体需要具备长期记忆和个性化能力。以美团外卖为例,用户曾表示想吃清淡的食物,但用户实际上并不喜欢吃蔬菜,而是希望吃清淡的肉类。这种个性化需求和长期记忆的积累很难通过简单的规则来实现,因为它们需要智能体从大量的历史记录中挖掘出用户的真实偏好。
最后,当面对海量的工具和模型选择时,智能体需要具备自主决策的能力。不同的大模型各有优劣,比如 Claude 模型 的上下文窗口较短且成本较高,而 Gemini 虽然上下文窗口长且成本低,但生成的代码不够聪明。Reddit 上曾有人分享一个有趣的案例:他发现可以通过让 Claude 调用 Gemini 来读取代码仓库,再将结果交给 Claude 在 Cursor 中编写代码,从而实现优势互补。这说明,在面对众多模型和工具时,最佳实践可能是让智能体通过强化学习自主探索最优的调用策略,而不是依赖人工编写的规则。
除了这些挑战,我们还关注在线强化学习(Online RL)这一重要趋势。最近,Cursor 发布了一篇关于在线强化学习的帖子,虽然有些炫技的成分,但其观点是正确的。当一款产品上线后,通过在线交互不断迭代是未来的发展方向。然而,与推荐系统时代的数据飞轮不同,强化学习的数据要求极高且难以构造,并非所有上线的服务都能满足条件。尽管如此,我们希望未来能有一个平台,让智能体模型在上线后能够持续自我迭代、优化,并逐渐实现个性化。这无疑是一个重要的发展趋势,但具体如何实现,还需要我们共同探索。
如何通过技术手段解决复杂任务中的不确定性、长期记忆以及工具调用等挑战。这些问题在实际应用中显得尤为突出,而强化学习或许能为我们提供一种统一的解决方案。我们希望通过强化学习算法,让智能体在特定环境中自主探索,从而涌现出强大的泛化能力,以应对各种复杂的产品问题。虽然这些听起来可能有些抽象,但我想通过一个具体的例子来说明其中的挑战,以及为什么强化学习是必要的。
8 月份,我们 AReaL 团队发布了一个开源项目,名为 ASearcher,这是一个搜索智能体项目。它的任务非常简单:用户提出一个问题,它通过网络搜索并给出答案。然而,即使是这样看似简单的问题,也可能隐藏着巨大的挑战。例如,我们曾提出这样一个问题:“伦敦奥运会中国获得了多少枚金牌?”乍一看,这似乎是一个很容易回答的问题,通过简单的网络搜索就能找到答案。但事实并非如此。
伦敦奥运会上,中国代表团最初被报道获得了 38 枚金牌。然而,后来由于其他选手的兴奋剂违规,中国队的奖牌数发生了变化。具体来说,在女子田径竞走项目中,中国队原本获得了第三、第四和第五名。由于原本的金银牌选手因兴奋剂问题被剥夺奖牌资格,中国队的切阳什姐在 11 年后递补获得了金牌。因此,最终的正确答案是中国队获得了 39 枚金牌。
这个例子说明,即使是简单的问题,也可能涉及复杂的背景信息和动态变化。如果智能体不了解这些背景,仅依赖简单的搜索结果,很可能会得出错误的结论。我们测试了几款产品,包括 DeepSeek、 ChatGLM 和 ChatGPT 。其中,ChatGLM 和 DeepSeek 给出的答案是 38 枚金牌,而 ChatGPT 虽然发现了 39 枚金牌的线索,但最终仍认为 38 枚是更常见的答案。只有 ChatGPT 的 Agent 模式在开启 Agent 模式后,给出了正确的答案。
这表明,如果我们要开发一个专业的搜索产品,并不简单。如果要通过固定的工作流(Workflow)的方式来搭建 Agent 的话,我们可能需要构建一个复杂的多智能体系统,包括搜索智能体、核查智能体、知识调用智能体、验证智能体等等非常多的模块和。这样的系统不仅复杂,而且可能难以维护和优化。
然而,如果我们采用强化学习的方法,情况可能会有所不同。以 ASearcher 为例,它基于一个非常简单的模型,仅包含两个工具:搜索和网页点击。通过强化学习,这个模型能够在环境中自主探索,不断迭代以验证信息的准确性。在我们的测试中,ASearcher 在第五轮搜索中发现了 39 枚金牌的线索,并在经过 60 多次操作(action)后,最终确认了正确答案是 39 金。这一过程不仅展示了强化学习智能体强大的探索和推理能力。
事实上,我们发现通过强化学习训练的 32B 模型在多个基准测试中表现优异,准确率提升了 20% 到 30%。此外,强化学习还赋予了模型更强的泛化能力,使其能够在测试阶段灵活调用不同的工具,甚至替换为更强大的模型。最终,这种强化学习驱动的模型在准确度上达到了行业领先水平,甚至超越了一些商用产品。
总结一下强化学习的优势。它主要有两个显著的好处:一是能够简化智能体的工作流程(agent workflow),二是能够让人工智能涌现出复杂的多步推理能力。简单化和涌现性,这是强化学习最为突出的贡献。
3 Agent RL 的核心难点:AReal 团队的努力
为了实现这些目标,我们做了许多努力。在我看来,要做好强化学习,必须在三个方面下功夫:首先是基础设施(Infra)和算法,其次是数据,最后是环境。为什么呢?强化学习在实际应用中存在一些痛点。首先,智能体强化学习(Agent RL)的速度非常慢,稍后我会解释原因。其次,训练数据稀缺,因为虽然预训练可以使用网上的数据,但强化学习所需的训练数据无法直接从网上获取。最后,智能体需要一个 Sandbox 环境,而构建这样的环境需要强大的工程能力,这本身就是一个巨大的挑战。
我们希望能够从全栈的角度解决这些问题。先从基础设施和算法说起。为什么强化学习的速度会很慢?我们先来看看强化学习的算法流程。强化学习大致分为三个步骤:首先是让模型在环境中交互并生成数据,然后通过奖励模型计算奖励值,判断其是否正确,最后将数据放入训练环节进行训练。这个流程听起来似乎并不复杂,但如果我们跳出这个流程来看,会发现它实际上涉及三种完全不同的计算模块。例如,预训练模块(SFT,Supervised Fine-Tuning)以及评分和数据清洗模块。这些模块的计算模式和属性各不相同,但都被强化学习算法串联起来,形成了一个复杂的编排问题。这与传统的计算模式截然不同。无论是预训练、数据库还是推理,每一种计算方式都有固定的模式和算法。然而,强化学习的算法是动态变化的,它涵盖了多种不同的计算模式,例如训练卡和推理卡的计算模式不同,Sandbox 环境则运行在 CPU 上。因此,强化学习本质上是一个复杂的系统编排问题。
从技术角度来看,强化学习的复杂性既带来了挑战,也带来了新的机遇。这种机遇被称为“系统与算法协同设计”(Algorithm and System Co-design)。强化学习算法的创新很容易触及系统瓶颈,因为强化学习涉及多个系统模块,任何一个环节出现问题都可能成为瓶颈。为了支持更高效的强化学习算法,我们需要进行系统创新和调整。这种调整不仅涉及基础设施,还可能带来新的算法机会。因此,算法团队和基础设施团队之间的协作至关重要。如果两者能够相互了解并协同工作,将大大加快创新节奏。
AReaL 在这方面做了什么?我们首先解决了速度慢的问题。在搜索智能体(Search Agent)的场景中,存在大量需要多次搜索的提示词(Prompt),而每次搜索都需要调用搜索引擎并处理结果,这使得整个过程非常缓慢。我们做过统计,训练时一个批次(Batch)的提示词对应的平均搜索时间大约为 5 到 10 分钟。这个平均时间看起来似乎并不长,但在训练过程中,由于某些复杂的提示需要 AI 进行大量探索,同事强化学习也会鼓励模型进行多步探索,因此一个轨迹最长的搜索时间可能会长达 1 到 2 小时。这种超长的轨迹的存在会让整个批次数据的完成时长被拉长到 1 到 2 个小时。而如果每个批次的训练都需要等待这么久,模型每天只能更新 24 次,让整个训练任务变得效率极低。此外,这种长尾效应会导致大量 CPU 和 GPU 资源的闲置,因为收集每一个批次的完整数据时,系统必须等待最慢的轨迹完成才能进行下一个批次的数据采集。
AReaL 通过系统和算法的协同设计解决了这一问题。核心思路是让推理过程不再等待。我们采用了一种异步方式,让一部分计算卡持续进行推理,而另一部分则负责训练。当推理过程中需要更新参数时,系统会暂停推理,更新参数后再继续。这种设计避免了系统资源的浪费,虽然这也会带来一些算法上的问题,但通过适当的调整,可以在不损失效果的前提下充分利用 GPU 资源。在搜索智能体的场景中,这种方法可以实现 5 倍的速度提升。如果大家对技术细节感兴趣,可以查阅我们的 AReaL 论文,或者观看我们之前做的直播回放,我在那里详细讨论了这些问题。
第二是训练数据的问题。在强化学习中,训练数据完全依赖于合成数据。举个例子,正常人提出的问题通常是简单的,但在测试阶段,我们可能会遇到一些复杂且难以处理的问题。这些复杂问题在实际场景中很少出现,即使用户提出这样的问题,也很难被挖掘出来。因此,我们面临的问题是缺乏足够复杂的训练样本。为了解决这一问题,我们在 ASearch 项目中开发了一种“智能体式”的合成数据方法。我们从网页上抓取答案,因为搜索任务相对简单,可以从答案出发,逐步构造出更复杂的问题。同时,我们还需要评估这些问题,确保问题与答案的匹配是准确的,并且要对问题的难度进行检查。对于强化学习而言,问题的难度需要适中,既不能太难,也不能太简单,这样才能让模型在训练过程中不断提升。通过这样的自动化流程,我们构造了训练数据,使模型能够持续优化。如果大家对这一过程感兴趣,我们的数据生成代码和脚本已经开源,欢迎大家查阅。
最后简单提一下环境的问题。环境的构建是一个复杂的话题,但今天时间有限,我们不再展开讨论。不过,我们还有一个开源项目 AWorld,未来我们也会考虑开源更多与 Sandbox 相关的项目,以帮助大家更好地训练智能体产品。
4 AReaL 团队的里程碑回顾与分享
我们 AReal 团队从三个角度出发,致力于提供更好的技术,帮助大家开发更优秀的智能体项目和产品。从 2021 年开始,我们便投身于这一领域。当时,我们开发了一个多智能体强化学习框架。2022 年,我们推出了第一个大规模游戏场景下的强化学习分布式训练框架。2023 年,我们开发了当时最快的 RLHF 框架。到了 2024 年,我们启动了 AReal 项目,专注于智能体强化学习。如今,我们发现强化学习的发展似乎回到了起点。在 2025 年的当下,强化学习与多年前的游戏场景非常相似:有一个大模型在“玩游戏”,它拥有一个“半沙盒”环境,这个环境可以是浏览器,也可以是电脑。它面临的问题与当年的游戏场景相似:你有一个黑盒(即电脑),它运行缓慢,且无法修改。就像当年无法加速 DOTA 游戏一样,技术的发展似乎经历了一个循环。幸运的是,我们从一开始就参与其中,因此我们的系统设计较为灵活,能够预见强化学习未来的发展方向。
最后,我想分享一些我们在技术开发过程中总结的经验。我们一直致力于技术创新,希望走在技术前沿。但这里有两点需要特别注意:首先,技术需要在合适的时间被感知。例如,在 2022 年之前,强化学习技术很难被大众感知,这并非大家的错,而是技术尚未在合适的时机展现其价值。其次,技术需要通过优秀的产品来承载。如果没有 ChatGPT、推理强化学习或智能体模型的出现,强化学习技术可能仍然不为人知。因此,好的技术需要满足两个条件:一是等待合适的时机;二是需要优秀的产品来承载。否则,技术的价值将难以体现。技术本身可能没有价值,只有通过优秀的产品才能发挥其更大的价值。因此,我常对团队说,技术一定要产品化,所有技术同学都应该尽可能将技术转化为产品。我们希望最终能够开发出支持智能体和在线强化学习(Online RL)的产品。
最后,我想简单打个广告:我们团队目前正在招聘,欢迎大家联系我。也欢迎大家关注我们的开源项目、社交媒体账号。如果有兴趣的同学,请将简历发送给我。谢谢大家!
演讲嘉宾介绍
吴翼,清华大学交叉信息院助理教授,博士生导师,前 OpenAI 研究员,AReaL 项目负责人。博士毕业于加州大学伯克利分校,研究方向为强化学习。Google Scholar 引用超过 13000 次,曾获 NIPS 2016 best paper award,ICRA best demo award finalist, 2025 年 WAIC 云帆奖,以及入选 MIT Technology Review 2025 35 Under 35 Asia Pacific 名单。
本文来自微信公众号 “InfoQ”(ID:infoqchina),作者:吴翼 博士,36氪经授权发布。















