最爱喝奶茶的AI科学家,要做最能懂你的“智能体”

富充·2025年11月24日 15:57
从回国任教、创业到与大公司合作项目,吴翼的每一步,既是带些开创性的个人判断,也是当下中国AI创业者时代缩影。

文|富充

编辑|苏建勋

无论是在学校的科研中,还是在与蚂蚁集团这样大公司的合作项目里,吴翼都希望他的团队能保持创业心态:不怕踩坑,快速迭代。

作为清华大学交叉信息学院助理教授,AReaL项目负责人,吴翼聚焦强化学习算法和AI应用创新。其清华团队和蚂蚁研究院一起于2025年5月开源了首个异步强化学习训练框架AReaL-lite,能显著提升AI训练效率,减少GPU的浪费。

作为90后的技术负责人,吴翼要求团队“在试错中成长”。他现在最不喜欢的借口就是“没有资源,所以工作没法做”,因为从0到1的本质,正是创造资源。

今年9月的外滩大会上,吴翼阐述的产品观也体现了这一点:做出来就赶紧发布,即使市场反馈不好,也要知道问题在哪里并做出相应改善,不要等待一个完美开局。

这份对创新的体悟,源于吴翼此前的创业经历。2023年,他的团队创办了基于强化学习的AI Agent公司边塞科技,这也是AReaL的前身。

因在AI领域相似的背景与研究经历,吴翼与星动纪元创始人陈建宇、千寻智能联创高阳、星海图首席科学家许华哲三位留美AI学者并称为“伯克利四子”。

鲜为人知的是,吴翼是四人中最早决定回国的,也正是他的建议与推动,促成了其他三位的归来。

吴翼喜欢做有开创性的事情。在清华,他常告诫学生“创新就是要到无人区去”。他坚信,AI创新不能靠多点布局“赌一把”,而是要源于深度的思考与长期的坚持。

他对AI的未来有独特判断:智能体必将能理解人类的模糊意图,完成长程任务,并最终从数字世界走向物理世界,成为具身智能的“大脑”。

今年WAIC上的演讲中,他举例描述,未来只需对机器人说“整理一下房间”,它便能花上数小时,妥善完成。

对于这个目标,吴翼认为,自己正在从事的强化学习训练方法,将是大幅提升AI的智能水平的关键。

因为强化学习的训练的特点是让AI在实践中自主学习,并培养出探索的能力。而之前的监督学习,需要人一直告诉AI如何工作,这种方法难以适用于长时间执行的任务。

△在杭州参加机器人学术会IROS后,吴翼发了个小红书,照片里他手捧奶茶笑得很开心,图片:采访人提供 

在专业领域态度严谨的吴翼,在社交媒体上却展现出另一面。

这位自称的“高能量I人博导”,经常在小红书上分享科研进展,也乐于回复有关AI求职与发展的提问。

因为喜欢喝奶茶,吴翼不仅会认真评选Top5奶茶口味,还会专门拍照打卡喜欢的奶茶品牌。

△吴翼喜欢奶茶,在小红书上发的招聘信息,配图也是一杯奶茶,图片:网络截图 

近日,吴翼接受了《智能涌现》的专访,分享了很多对AI前景、创业的思考,其中也包括帮自己快速决策、提升团队效率的方法。内容经作者整理:

AI的未来是聪明的智能体

智能涌现:目前AI还没有出现在大规模普及的应用,你认为AI产品的未来机遇在哪里?它会如何服务大众的生活?

吴翼:我觉得让AI实现长程任务是一个不可逆的趋势。此外,人对AI表达的命令会越来越简单、含糊。

现在还很难讲最终的产品形态,但AI产品上最终出现“从用户需要主动驱动AI,到AI提前猜到用户想要什么并完成”的变化。

这个事情在移动互联网上就出现过。比如在搜索引擎时代,是人们有了需求主动去找信息。然后有了知乎,再有了字节的各个产品,算法可以把用户想要的内容推送过来,让用户被动接受信息。

所以我想,最终人们会慢慢忘记主动搜索的对话框。聪明的AI可以越来越多服务“懒”人的需求。

最终一定会出现这样一个全新的产品,它是一个大的时代的机遇。

智能涌现:你在WAIC等活动上都提到,当智能体(Agent)有了身体子以后,就变成了具身智能体(Embodied Agent),可以与物理世界交互。简而言之,这就是AI机器人。具身智能体能做什么样的工作?

吴翼:聪明的具身智能体(Agent)仅凭模糊的指令,就能准确推测用户的意图,高质量完成任务,甚至还能主动考虑到用户尚未意识到的需求。

比如,你在家里跟机器人说,我的充电宝找不到了,它就会自己推理、行动,根据你的使用习惯和它记忆中你上次用过充电宝的位置帮你寻找。

智能涌现:聪明的具身智能体也能多机协作吗?多具身智能体是如何配合的呢?

吴翼:具身智能体可以一起配合,完成更复杂的任务。

比如在机器人足球队里,机器人们和人类球员一样,当遇到训练过的情况时,互相眼神一对,就知道该组成什么阵型了。

如果有了多个聪明好用的智能体,那多出来的一步就是定义他们之间怎么沟通。

在数字世界里面,智能体沟通的方式可能是有一个Master Agent去驱动很多小的Agent。你可以用不同的模型,你也可以用一个模型,但结构上像是有一个人在不断做规划,很多人在同时围绕规划做执行,这就所谓的Multi-Agent System。

我常举的一个例子是 Claude Code和Gemini 的协作。

Claude Code的代码能力很强,但上下文短、成本高;而 Gemini 虽然笨,但能处理大量内容。于是就可以让Gemini先读完整个Code Base,筛出最关键的内容,再交给Claude Code写代码。

相当于一个聪明但身体不好的人,和一个体力无限的傻子,两者协作,就形成了一个多智能体Multi-Agent System的高效组合。

放到具身智能体干活的场景,比如需要几个机器人一起打扫空间。大家“沟通”之后会有一个任务规划,谁负责扫地、谁负责擦地,一起配合完成。

智能涌现:从数字世界的智能体到物理世界的具身智能体,怎么过渡?

吴翼:从数字世界到物理世界的过渡,需要多模态数据,训练环境也从电脑里来到现实世界。

在数字世界里面用的工具,就基本上是Bits,这是一个执行成功率很高的东西。那么你基本上你去写一段代码就能执行相应的功能了,确定性比较高。当然,怎么写代码这件事本身并不容易。

而真的到了物理世界用工具的话,比如说拎包开门,机器人去执行这个任务时,失误率目前还是很高的。因此具身智能的发展会更复杂,也会更慢。

但是,我觉得站在宏观上看长远的发展,如果有一天智能体的底层物理世界已经数字化改造得差不多了,各种智能体的核心技术挑战最终是统一的。

比如,当我们真的有一个机器可以对大部分物理世界工具形成100%成功调用,那么在此之上构造一个能自主运行一整天的具身智能体,从技术上就和Bits世界的智能体其实没什么区别。

△今年WAIC上,吴翼和伯克利时期导师Stuart Russell的合影,图片:采访人提供

AI创新不能靠“赌一把”

智能涌现:你本身在字节实习过,自己的团队创办了边塞科技,后来又选择和大厂合作推动强化学习技术,走了这么一大圈,回头看有什么思考吗?

吴翼:早期的边塞科技团队,其实选人上踩了不少坑。当时有不少员工其实是抱着上班的心态来工作的,并没有意识到创业意味着什么。客观来看,整个团队确实不大ready,不大符合AI时代的创业精神。当然,大家都是第一次,踩坑也不可避免。

我现在很不喜欢的一句话是,“没有资源,我没法做某件事”。创业团队并没有丰富的条件,人们都是创造资源去做自己目标的事情。

所以,创业团队其实更需要有创新的火苗,以及相应的觉悟的人。

创新是没有Bet(“赌一把”)之说的,创业需要对所做的事情有坚信,我们没有那么多的资源去押注不同的赛道,赌一个能跑出来的未来,这样会造成很多中庸的方案。

创业精神是,我坚信有些事情即使我没做成,但它是对的,总有一天会被实现的,哪怕不是我。

智能涌现:“伯克利四子”(指吴翼、高阳、许华哲和陈建宇四位毕业自加州大学伯克利分校的青年学者,目前皆活跃于AI、具身智能领域)种你是最先决定回清华任教的,然后你带动了其他人回国。这是为什么?

吴翼:2018年8月份我结束在北京的字节实习。我虽然在Berkeley读的PhD,但我其实受字节影响不小。

从2016年开始,我就断断续续在北京字节的不同团队实习,也是字节AI Lab最早的成员之一,恰巧见证了中国移动互联网的尾巴。2018年8月,我结束最后一段字节的实习之后,就想清楚了我要回国。

一方面是感到了中国发展的巨大机会,另一方面也是明显感觉到华人在美国的天花板。除非你变成一个美国人,那么就回到了一个根本的问题:如果你想做出有影响力的事情,那么你想成为中国人还是美国人。我发现我并不想妥协成为一个美国人。

面对选择时,很多人会说,“我现在不Ready,要等未来准备好了再如何如何”。比如,关于回国这件事,就会有人说“我在美国再发展一段时间,过几年我再回国”。

但我有一个理论:如果你未来确定想做一件事情,最好的时间是过去,其次是现在。于是我觉得,那不如就选择回国吧。

回国做什么呢?我想了一个月之后拒绝了字节的Return Offer;2018年10月,我敲开了姚先生办公室的门,选择回清华做老师。

然后我就跟当时的几个Berkeley的同学分享了我的想法,说大家赶紧回,是有机会的。我的想法也很简单,看到好的机会我就想和大家分享,也确实影响到了一些人。

我们站在这么多年后去会看,确实对于回国这件事来说,那个时间点是个好的Timing,我们也确实作为早期回国的学者享受到了一些红利。

智能涌现:印象里你总会做一些挑战,然后一边学习一边调整,才走到了后来的路上。比如博士先选到了不喜欢的专业后才改到了强化学习;比如同批回国的学者里你似乎又是先开始创业的,等到同一批的同学都开始创业了,你又选择和大厂合作。你的经历听起来也像是一个强化学习的过程?

吴翼:对,我真是一路强化学习,一路踩坑,我能把我能想到的坑全部快速的踩了一遍。哈哈,我自己感觉通过踩坑学习比SFT(监督微调)学得要深刻一些,泛化得好一些。

做产品其实也类似。我常说做出一个产品要赶紧拿出来,AI时代,酒香也怕巷子深,要赶紧把产品拿到巷子口让大家用起来,得到反馈。即使市场反馈是失败的,也知道坑在哪里,快速试错迭代。

当然,这里也是要和大家说一下,如果能有高质量SFT数据的话,再去做强化学习可以学习效率高一些。因为强化学习的探索得到负反馈还是挺消耗的,所以我也希望把我的经历和看法做一些分享给大家,让大家能够进步的快一些。

智能涌现:开创性的机会往往意味着没有那么多可参考的经验,你是如何说服自己下决心的?

吴翼:遇到需要下决心的事情时,我有一套快速决策的方法:先抛个硬币。硬币落地之前,其实心理就已经知道答案了。

我总是那个先抛硬币的人。

智能涌现:对你来说,是想做的事情重要,还是光环重要?如果可以实现理想做出伟大的成绩,但要隐姓埋名你愿意吗?

吴翼:我愿意。

我想过这个问题:如果我能从0到1建立一个好的创业公司,后来这家公司进入1到100的阶段、组织迅速变大,而我不再是最被光环围绕的管理者。这件事我能不能接受?答案是可以。

到那个拐点,我很可能会引入职业经理人,自己再去做下一个0到1。原因很简单,从1到10甚至1到100往往需要上百人协作,这么庞大的管理不是我最享受的工作。

不过我现在也确实在反思,是不是被这种理想主义的状态限制住了。也许真的那个时间点到来的时候,我会做不一样的选择。但如果你现在问我,我可能倾向于一直做那个0到1。

强化学习是通往AI未来的钥匙

智能涌现:AReaL团队所做的强化学习,为什么能很好地服务于AI的训练?

吴翼:强化学习的训练特点是让AI自己在实践中学习,这更能训练出很聪明的人工智能。

之前的所谓监督学习、SFT(监督微调)的方式,是人去告诉AI这个事情怎么做。但这是很难的,因为它的可能性很多,人不能在10小时里一直下指令。

而且,人给的指令可能和AI想的不一样,很多时候指令给多了,AI死记硬背后不见得真的会“理解”,于是模型很可能泛化能力会很差。

所以,我们希望通过强化学习技术,让AI主动跟环境交互,甚至做到在自己拿不准的时候能学会问问题。这种鼓励AI自我迭代的训练模式,本质上是在培养AI自己探索的能力,这只有通过强化学习才可以做到,

智能涌现:我们下面来聊一聊技术的Know How。你之前说,要做好强化学习,技术上有三个要素很重要,就是奖励机制(Reward Model)、搜索和探索,还有Prompt(提示词),但三点都很难做好。都很难的话,怎么解决?

吴翼:我现在的感觉其实最重要的是Prompt,如何创造大量高质量的Prompt。

这三点可以用一个具体的例子解释,比如老师想辅导高中生做数学题,Prompt相当于老师出的题,搜索和探索是学生自己解题的能力和过程,Reward model是老师给学生的反馈。

什么样的题可以把学生的水平提高很重要。比如给中学生高等代数的题,可能会太难;如果给太简单的题又得不到提高。如何出恰到好处的题,是非常重要的。

这也是强化学习框架下对于数据的最大挑战:量大并不管用,核心是要合适,才能提高模型能力

智能涌现:强化学习和具身智能体间有什么关系,强化学习是如何让聪明的机器人为人类服务的?

吴翼:强化学习和具身智能体的关系其实有两个方向,一个是Locomotion,也就是运动控制,这里的强化学习技术成熟的比较早,并且完全不需要预训练。

还有一个是长程推理和规划相关,一般和经过预训练的大模型结合。这个方向随着ChatGPT的诞生才逐渐普及,相对比较新。

这两个方面其实代表着具身智能的一个谱线,从高频率控制完成短的控制任务,到抽象的任务规划完成更复杂的推理任务。

传统的强化学习解决控制问题是不需要预训练的,比如各种跑酷的机器狗,比如控制机器人跑跳。这些都是直接通过微小尺寸的神经网络,直接在物理仿真环境里面进行强化学习训练后,直接迁移到现实中的,并不依赖预训练。

在这里,强化学习通过算法训练神经网络,输出对于机器人每个关节的底层控制信号,以此控制机器人运动。这些任务的特点就是控制频次很高,同时任务完成周期很短:比如跑跳可能是通过几十次关节控制在几秒钟内完成了任务。

那么,ChatGPT,Deepseek R1所代表的强化学习技术,就是和大模型预训练紧密结合的:先要有一个经过预训练的基础模型;预训练完成后再通过强化学习做后训练,去激发模型强大的思考和推理能力。

比如Deepseek R1就是这样。最近OpenAI和Gemini去比IMO、IOI这些数奥竞赛,也是通过强化学习增强了模型的推理能力去实现的。

经过强化学习训练的大模型,可以做分钟级到小时级的思考,可以有常识,可以把复杂的问题进行任务拆解,可以调用工具。不过目前推理强化学习的成功实践还是在数字世界,没有广泛影响物理世界。

但这其中是有中间态的,就是具身智能常说的VLA(Vision-Language-Action model)。

智能涌现:那如何从VLA的中间态,推进到具身智能体的最终态?

吴翼:VLA是大家尝试用预训练的思想,解决物理世界问题的方法。

人们收集很多数据,去尝试预训练一个针对物理世界的大模型,让物理世界的模型不光能够完成几秒钟的跑跳任务,也能有足够的泛化能力去完成几分钟级别的人物,比如叠毛巾,比如给杯子倒水。

那再往后发展呢?如果我们希望完成一个更长程的任务,比如做个饭、打扫卫生。

这些任务可能需要几个小时才能完成,中间需要非常非常多的机器人的控制,也需要很抽象和常识性的分解和规划,甚至和人做交互——就像数字世界的智能体一样,只不过是在物理世界里。

所以我会把这样的智能体叫做具身智能体。我个人觉得,具身智能体恐怕是需要把Locomotion的强化学习或者VLA看成物理世界的工具或者小脑,并且把类似ChatGPT这种完全基于预训练的强化学习技术看成大脑。两部分需要结合起来。

和数字世界的智能体LLM(大语言模型) Agent的爆火不同,物理世界的智能体概念大家还关注的比较少。大部分人还是更关注硬件,更关注底层控住,在关注杯子能不能抓问,分拣能不能准确。当然这些也确实是具身智能和LLM的不同之处——改造物理世界总是困难的。

因为我自己更关注强化学习和智能体技术本身,所以我会先关注大脑的部分,思考怎么让智能体能够稳定可靠地完成10小时的事情。然后再去和物理世界的强化学习技术结合。

智能涌现:所以,在具身智能这件事上,你的强化学习和VLA将如何、在哪个节点配合起来?

吴翼:我们现在给的方案就是分层。

这也是我WAIC讲的一件事情,就是你看这个世界的两端越往上越需要人类世界的知识,越往下越不需要。

往下的部分可能是一些直觉的反应,比如说拿一个杯子,可能具备一些力反馈,或者一些简单直观的物理知识,就可以办这件事。

但往上就需要一些先验知识。

那上下之间的切割点在哪里,就是把涉及物理世界和数字世界Agent之间可以做一个区别。

我并不认为VLA是最终范式,因为VLA预训练的规模并不能支撑它直接成为一个很好的智能体。

所以我会先做好这个数字世界的智能体。同时有其他的从业者在做具身与物理世界相关的探索,之后再在合适的机会做结合。

智能涌现:你在外滩大会上说,在自己负责的AReaL团队上也在寻求一种全新的、极简的组织形态。这是为什么?

吴翼:互联网时代,要做一个产品,高低得找四五个人,一个前端、一个后端,一个产品经理。

但在AI时代,这些工作也许是一个人和AI就可以的。

过去有很多小的组织,会找外包团队。而AI时代,不仅组织内部会被AI简化,外包的部分也可以节省。

我认为如果组织内可以做到大量AI化,那能力一定是可以溢出的。因为如果是AI的方式来服务自己,那它也可以服务别人,这个一定会带来新的产品机会。

AReaL团队现在有6个人,但从外部而言会需要一些支持团队。如果把所有外部的同学都算进AReaL大团队,那肯定还可以调整做到更精简。我希望团队保持一个AI时代的极简状态,这也是AReaL核心团队人一直很少的原因。

智能涌现:不过大公司的组织形态会是比较庞大的,你具体是如何在一个大公司里实现AReaL团队的组织简化?

吴翼:首先,作为一个现代的Agent团队,一定自己每天要使用大量的agent才可以。

此外,我让算法和Infra团队组合在一起,形成全栈团队。

传统的组织团队,会把算法和系统团队分开,还会有别的工程团队,比如数据团队去做数据收集和清洗工作等等。传统的组织方式做模型时会强调分工,强调投入,让这些工程团队去支持算法团队。所以好像算法团队是个甲方,工程团队是个做“脏活累活”的乙方。

这个事情的问题在于,一旦你做了乙方,就失去了创新的空间;而一旦习惯做甲方,就很容易不愿意做脏活累活,这会很容易失去对于技术最底层的观察,感知,和创新所需要的自驱力。

OpenAI其实并没有发明什么震惊世界的算法,它是把很多细节做到很强。

所以我觉得,要做好Infa、做好数据,把细节堆出来,下了这个苦功,算法就可能有很好的表现。

因此,算法和Infra是不能脱离成两个团队的。两者不能有边界,要共同设计,协同演进就可以形成一支小而有战斗力的团队。

大的团队管理问题在于,如果这个组织里有200个人,就不可能没有边界。因为人的沟通带宽是有限的,所以必然会走向职责划分和管理,然后人类糟糕低效的Context Sharing能力就成为了整个团队的效率瓶颈。

所以极小的组织形式和全栈的创新能力是相辅相成的。我觉得大家要忘掉200人的组织,反正AI时代都是0到1,要激进一些做全新的尝试。

+1
5

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

2025年古偶导演们交出了怎样的成绩单。

26分钟前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业