绿洲对谈温颖教授:合作难于竞争
大语言模型的助推,能否加速实现智能体与智能体、智能体与人类的价值对齐和良好配合?
我们邀请到了上海交通大学约翰·霍普克罗夫特计算机科学中心温颖教授来与我们分享多智能体深度学习的种种。Enjoy。
绿洲:请介绍一下您的研究方向和最新的研究进展。
温教授:我的研究方向是多智能体学习,针对不同类型的博弈,比如合作的、竞争的以及混合的,使用深度强化学习算法进行博弈均衡求解,希望能学习到与其他智能体或人类可以进行较好竞争或者合作的策略。
多智能体强化学习是从 2016 年 AlphGo 火了之后才逐渐爆发的,之前只能在简单的表格场景做尝试和试验,无法解决现实或者复杂问题。2016 年之后,多智能体强化学习进展很大,例如 AlphGo、围棋、星际争霸、Dota 之类的竞争性博弈。过去几年在竞争性博弈上,多智能体强化学习能解决越来越复杂的博弈问题,从刚开始的围棋是双方处于完全可观测状态,到星际争霸复杂的状态动作空间,还存在部分用了联盟学习(league training)训练方式的可观测问题。
Dota 和王者荣耀这类游戏,是基于种群的学习(与联盟学习概念类似),只要训练量足够,都能训练出很好的策略。前几年冷扑大师的双人德扑做得很好,对 N 人的德扑还是开放的问题,在多玩家博弈、一般化奖励设计博弈等方还要做进一步研究。去年 Meta 在“强权外交”上也做了尝试,为了支持更多玩家,整个动作空间、状态空间都要用更复杂的自然语言表述。我们组这两年基于种群的训练方法做了一系列工作,针对复杂双人零和博弈的问题已经做得不错了,接下来希望扩展到更复杂的多人博弈。
双人零和博弈更容易进行基准测试,比如下围棋有段数,打游戏有分数,方便找到水平相当的对手进行训练。从 16 年开始,多智能体深度强化学习加上了通信机制,或者通过中心化训练到分散式执行的方法,学习到更好的合作策略。我们之前针对合作问题的设置是一组固定队友玩的情况下,如何良好配合完成任务,但这种设置并不泛用。打个比方,在一个宿舍,四五个人天天一起开黑,分数很高,但并不代表个人合作能力强。现实里打排位赛需要的是和随机队友打配合的能力,也就需要设置即兴对弈(Ad-Hoc Play)。合作是比竞争更复杂的问题,我们希望设计相应的多智能体强化学习算法,在训练中学到策略,与未知的对手配合,并在此基础上做延伸——训练出的策略能和智能体以及人类都能完成更好的配合。
Stanford 的 “Generative Agents”,通过大语言模型设置了 25 个角色性格不同的智能体,借助大模型模拟人类行为的能力,加上记忆或者反思机制,结合经济学场景、社会学场景、公共政策场景做模拟研究和评估。大模型发展迅速,我们组也在探索多智能体设置与大模型结合的可能性,最近想做的是把大模型放到多智能体系统场景下做模拟评估,针对基于大模型的智能体,除了做模拟之外,再加上学习机制,在社会化的交互场景下,能否提升大语言模型的能力,可以更拟人化地与 AI 或人类做交互,对齐人类价值等等。
绿洲:星际争霸、AlphGo 也是 OpenAI 早期的重要项目之一,从技术路线和方法来看,和 OpenAI 后来推崇的”大力出奇迹“的大语言模型是有差异的。大语言模型本身的发展对您的研究方向有借鉴和帮助么?
温教授:应该说有很大的借鉴和帮助。无论是单智能体或者多智能体,深度强化学习领域一直想摆脱的两个问题,就是样本效率和泛化性能。
针对样本效率,最早是通过 On-policy(在策略)和 Off-policy (离策略)的方式。On-policy 一直得拿当前策略去采样新数据,去提升模型,由于采样效率很低,因此改为 Off-policy,通过其他策略采样出来的经验轨迹,去训练提升策略。然而效率还是太低了。于是又把离线数据上直接学好的策略,放到在线环境上用,这种“离线预训练”的方式就和大语言模型的思路很类似。大语言模型本质上是在高质量语料上进行离线预训练,强化学习也需要高质量离线数据进行强化。
大语言模型对网络架构层也起到了帮助。语言模型是 Transformer 结构,强化学习的策略网络或者价值网络也开始采用新的 Transformer 网络架构,获得了更强的建模能力。以前用 NLP 或者 LSTM 的任务,在替换成 Transformer 之后,效率显著提升。
再说泛化能力。决策任务也是序列,采用 Transformer 网络后,可以参考 GPT 语言模型对决策任务进行统一的自回归序列建模。具体来说,当前时刻观察到状态,采取行动,跳转到下一个状态的过程,是一个序列结构,可以直接把不同模态的观测与动作输入序列,根据历史信息预测下一步的观测、动作或汇报。近两年很多研究在尝试把多智能体强化学习变成序列建模,也是借鉴了语言模型的思路。比如,给定一个状态,预测下一个时刻的动作,或者直接给定历史中状态(state)= 动作(action)的结果,预测下一时刻的状态,做类似“世界模型”。
另外,为了进一步让强化学习的泛化性能和语言模型一样强,还有一步就是 scaling-up。我们组也做了一些工作,比如去年尝试复现了 Gato,推出了 DB1 模型,还有最近的 TDM,动力学模型。我们之前一直在探索离线数据预训练,用 Transformer 架构做序列建模。具体就是在模型规模扩上去之后,加入更多类型和数量的任务(比如 DB1 中有五类,870 多个任务),统一标记化后塞到 Transformer 模型里,直接做序列建模。
可以说大语言模型激发了很多研究思路,也许会殊途同归,最近也可能有大一统的趋势,譬如 CV 或者语音也都采用 Transformer 收集更多数据,做离线预训练,提高数据样本利用效率和泛化性能。
绿洲:目前大一统的方向,科研成果的相互影响,会让哪些以前难以落地的应用变成可能呢?
温教授:老实说,多智能体强化学习是很难落地的(笑),单智能体更容易。之前基于 Learning-based 的方法,更多解决的是适应性或者泛化性,效果一直停留在实验室。通过 Transformer 或者预训练的方式,策略算法和策略网络学习能力已经很强了。Berkeley 基于大语言模型学习到的底层控制策略而做的移动机器人应用,我们组也做了类似尝试,效果都不错。现在因为能收集到大量优质数据,机器人、机械手臂或者机器狗之类的策略在更复杂的场景上,可能会实现商业落地。
此外,大语言模型文本能力强大,可以理解自然语言指令,并分解复杂任务,这点可以与简单任务的控制模型相结合,完成复杂任务。指令跟随策略(language conditional / instruction following policy)的控制模型,拿一杯水、拿一个苹果,是很容易学到的。这方面我还很有兴趣,去年 SayCan 之类,最近的 TidyBot,PALM-E 都是这方面结合的工作,能够让机器人在譬如厨房、家庭、办公室等室内环境中,良好执行低操作精度和低安全要求的任务,存在比较好的泛化能力及个性化服务的潜力。
绿洲:多智能体落地少的原因是什么?
温教授:多智能体和单智能体的区别在于,单智能体完成任务的目标很明确,终极目的是通过算法学习,将固定目标下的长期折扣回报最大化。
多智能体是在这个基础上引入智能体交互,除了目标不同,智能体之间也会互相影响,不存在明确的学习目标,你的收益取决于他人,其中的设置显然比单智能体复杂得多。不仅仅是工具层面,社会动态场景中存在更大的复杂性,需要找到具体的结合点才能落地。
多智能体更多的是建模的工具或者方式去结合具体问题,看能否用已有的算法解决,同时还涉及目标是什么。多智能体在棋牌类游戏和游戏 AI 都做得很好,但在其他现实场景是否能复用,就要逐一分析。如果某个多智能体任务,用中心化的单智能体也能完成,又何必引入额外的复杂性呢?
绿洲:现在多智能体落地更直接的场景就是游戏类么?
温教授:游戏已经有很多落地应用,成本高,商业价值却没那么高。训练一个强大的 AI Bot,可以辅助游戏的研发或设计,但对游戏整体收益的提升影响不大,最多是一个陪练,或者队友下线临时找个 AI bot 组队。虽然有两三家游戏 AI 公司,比如启元、超参数、腾讯开悟会做探索性的工作,但现实应用的影响力和商业价值有限。
我更关注多智能体引入人类建模,目前智能体或者 AI 算法的部署也越来越多了。未来很多任务是需要人机合作完成的,需要开发让人和智能体互相理解的 AI,这是未来很有意思的发展点。
绿洲:如果无人机、机器狗等未来有统一的目标,要做大规模的自主协作,是否算是多智能体可以明确落地的场景?
温教授:无人机群的控制算法在很多现实场景里已经做得很好了,比如编组、穿障等等。这些场景下,无人机体现的还是工具属性。要完成特定任务,智能体间的交互就比较弱。事先做好规划,直接将多智能体强化学习用上去,未必会出好的效果。
绿洲: 既然多智能体落地比较困难,那这个研究方向是不可或缺的么?
温教授:除了游戏落地之外,还是有很大的研究价值的。AI 与人的协作,就是一个多智能体的问题。现在大家讨论的 AI 价值对齐,就可以建模成多智能体问题。最近也有研究尝试让 AI 和 AI 之间做社会化交互,当做不同智能体的不断交互来最终实现与人的价值对齐。
还有其他很多适合建模成多智能体来解决的问题。比如边境巡检防范偷渡的场景被建模成安全博弈,也证明有效。
绿洲:传统机械背景做机器人强调控制算法,您的研究使用 learning-based 算法,对于这两派的争论您怎么看?是否较难融合?
温教授:基于控制的算法在特定任务上肯定比 learning-based 的表现好很多。对于精度要求高,重复性的固定生产流程,直接用控制算法就搞定了,不需要强适应性或者泛化性场景。Learning-based 则希望在非标场景下能表现得更好。
譬如室内轮式机器人移动的算法,很多时候根本不需要用到 learning-based,直接用底层控制算法去控制移动就行了。如果是双足四足底盘,或者底盘基础上加个机械手臂,抓取非标化物件,就需要靠 learning-based 的算法才能有较好的适应性。这当中还包括突发状况,比如说拿的东西掉了,遇到障碍物,控制算法就会有局限性。
这两者并不冲突,也可以把控制算法当作底层的小技能模块。各有各的优势和局限性,主要还是看场景和需求,完全可以互补、结合。
绿洲:这波浪潮里有您比较关注或者感兴趣的领域和分支么?
温教授:多智能体强化学习涉及感知、决策控制、博弈等等,意味着对 AI 的所有方向都要去了解。
语言模型是人类发明的对世界的抽象描述。能否在多模态、预训练大模型的基础上,把交互的知识融合,进一步提升多智能体性能,是我们的关注点。
绿洲:有些研究领域因为这波浪潮觉得研究方向消失了,但是多智能体学习反而受到了更多关注和推动,是这样么?
温教授:语言模型是一个很好的先验模型,之前我们都做单一任务,学到的策略无法映射到统一的空间。Atari 上学的东西,在机械臂控制上没用。大语言模型带来的先验知识,除了不断把其他模态的静态数据 / 知识接地到语言上,连射门、投篮等动态动作也能接地到语言空间上,实现持续泛化。
绿洲:您觉得人机互动最大的难点是什么?
温教授:难点首先在于无法对合作能力做很好的评估。这也是个开放性问题,合作能力水平没有量化的标准和评估的指标,目前没有定论,也是我们在探索的其中一个问题。
第二,价值对齐。有的场景需要以人为主导,让智能体完成配合;有的场景以智能体为主导,人只是在其遇到困难时提供信息完成最终合作。现在更多的是单向对齐,最终目标是实现双向对齐。
绿洲:这波大模型浪潮被成为”第四次工业革命“,当年工业革命替代了很多劳动力,AI 的发展是否会取代更多脑力劳动者?
温教授:应该说替代的是脑力劳动中重复性比较多的任务,对于逻辑思维要求高的任务只能做出辅助。比如把我们今天的访谈整理成一个格式化文本,大模型就很擅长。但如果需要对内容、进度、访谈目的提出针对性问题,本身就需要对行业和技术有深刻了解,这点 AI 是做不到的。
人机交互方式的革命,是这波浪潮的核心之一。在此之上,针对简单和重复性的任务,大语言模型可以结合参数化存储的知识及简单的逻辑推理能力做出良好应对。大语言模型也学习了程序语言,可以写代码,调接口,连接人类自然语言与机器编程语言,是工具增强的语言模型。如同一个中枢大脑,像一个更智能化的操作系统,能直接理解人类自然语言指令,将所有需要的工具调用连接起来,完成更个性化的任务。
绿洲:智源大会中提到“Empowered by AI, don't be overpowered by AI”, 学术界有感觉到人类会被 AI overpower 么?
温教授:我觉得完全没有(笑)。一开始大家的确被震惊了,多用用发现也就这样,没有想象中那么强大。AI 本身就是发挥自身优势,辅助人类去更好地完成任务。现阶段无论机器人也好,语言模型也好,解决的都是简单而重复性的任务,解放人类这部分劳动力,加快工作自动化。大家可能觉得它会取代很多岗位,但我认为它反而可以创造更多新的岗位。
从大语言模型的发展速度来说,现在核心还是大数据、大算力、大模型。语言模型微妙的地方是文本数据好获取也好处理,信息密度又高,人类信息化的过程中在互联网上已经积累了大量电子化文本数据,很容易搜集和训练。大语言模型花 20% 的努力做完 80% 的工作,大家感到很惊艳。但从 80% 到90%,再到 100%,就需要更多模态的数据和交互流程轨迹数据,收集难度会越来越大,虽然在逐步往前推进,但速度肯定不会像头两年那么快。
绿洲:当下还是有很多人觉得 AGI 在 5 年内就会到来了,您怎么看?
温教授:我觉得差距还是很大的。比如最近很火的 AutoGPT,思路很好,拆解任务做规划,但最终难的还是执行。AutoGPT 还是以自然语言为主的输入输出,然后递归逐个解决子问题,全都依赖大语言模型本身的选择与决策,同时依赖外部文本存储的“记忆”,是一个很好的 demo,但对于解决现实问题 / 需求的成功率不高。这里面存在很多问题,比如语言边界太开放,要完成具体任务,需要很强的边界约束,需要生成机器可以执行的精准指令。这个问题虽然可以靠工具或 API 去弥补,但落到具体任务是需要一个个去写适配,中间有很大的工程落地细节,才能真正产生实际的作用和价值。当然,还有其他任务如何分解、执行、反思、试错和记忆机制等挑战,都需要逐步解决,一步步扩展大模型能力的边界,才能逐渐接近“AGI”。
参赞生命力
你觉得什么是科技生命力?
我愿景的 AGI,是希望让机器智能在预训练基础上,进一步与环境、其他 AI 和人持续交互,进行自我提升,扩展能力边界。而我理解的科技生命力与 AGI 类似,强调了科技的可塑性和不断进化的能力,使得科技能够适应和应对不断变化的环境和需求。
—— 温颖教授,上海交通大学约翰·霍普克罗夫特计算机科学中心
本文来自微信公众号“緑洲资本 Vitalbridge”(ID:Vitalbridge),作者:参赞生命力,36氪经授权发布。















