纽约大学 Alex Sheng:AI 程序员 Devin 的自我迭代之路 —— Agent Insights

绿洲资本·2024年06月19日 14:13
自高中起便开始钻研机器学习的 Alex Sheng,到现在拥有7年独立研究经验,并得到 Google 和 IBM 的资助。受 LSTM 之父 Jurgen Schmidhuber 的启发,他开发出了能够自我进步迭代的计算机 Agent。虽然目前 Self-Improving Computer Agent 还存在一些限制,但科技的发展往往就是从想象逐步变为现实。Enjoy

《From Language Models to Practical Self-Improving Computer Agents》

让 Computer Agent 实现自我进步的算法

论文链接:https://arxiv.org/pdf/2404.11964

解决问题:传统 Agent 功能增强包括 RAG 检索、CoT 推理、WebGPT 互联网语言增强、程序评估、ReAct LLM 增强等方式,然而过程中无法进行有效的生成内容实时调整,Agent 无法实现自我迭代。团队开发出了 Self-Improving Computer Agent,能够实现计算机 Agent 的自我增加与完善,在不断生成的过程中增强自身能力,发现问题自我解决,实现计算机任务的自动化命令执行

模型框架: 框架前端接入大模型 API,中间层加入 Prompt Loop,持续收敛用户输入进行迭代优化,过程会重新解析指令与生成内容,并放回 Prompt Loop 形成闭环,最外端将整个框架部署在电脑系统进行工程化落地 

使用效果: 团队创建的自我完善计算机 Agent 能够无限扩展、开箱即用,通过建议文件创建和编辑工具使用功能,实现检索增强,同时加入人类协作指令,完成灵活部署计算机任务的执行,对比其他计算机 Agent 拥有更强的可编辑性、创造性、灵活性 

应用空间:计算机 Agent

Prompt Loop 中的人类协作过程 

绿洲:能否帮我们简单介绍下您过去的研究经历以及对于 Agent 的理解?

Alex: 我过去有 7 年的 AI/ML 独立研究经历,一开始我专注在机器学习中的 Few-Shot 领域,在少量的数据条件下增强学习能力。在 2020 年之前,神经网络训练需要大量训练数据,我在那之前就在寻找迭代和优化 Few-Shot 算法的方法。那时候 Google 的 TPU Research Cloud Program 资助我研究了几年,Google 为研究员提供足够数量的 TPU 授权,让我能够使用足够数量的 TPU 完成研究论文,后来到 NYU 之后开始和 IBM 合作其他的论文。 

Alex 和 IBM Research AI 合作的 Zero-Shot 论文

在此之前我还写过一篇大模型相关的论文叫《Self-Programming Artificial Intelligence Using Code-Generating Language Models》,在那篇论文里我们团队就阐述了如何应用 Zero-Shot 在大模型中,用代码生成大模型来调整生成的代码,而在这篇最新的论文中,我们阐述了如何建立一套完善的 LLM-based Agent 体系,在 OS 系统中直接生成并执行代码。 比起纯粹的 AI Agent 研究人员,我的背景更加复合,例如我更关注如何利用代码使得 Agent 学会自我修复与进步,同时我也很关注 Prompt Engineering 领域的发展,这些促使我开发出了在代码层面拥有自我改进能力的计算机 Agent。 

绿洲:您在高中就开始研究机器学习了?

Alex: 我一直对科技很感兴趣,其实 7 年前人工智能将改变世界的趋势就很明显了,所以我选择了这份令人兴奋的行业。整个人工智能行业非常开放,大部分研究和论文都是开源的,非本科生和博士生也能很容易自我学习。我从一开始学习最新的研究,到后来参与一部分研究,到最后自己完成 AI 系统的完整开发,整体都是非常顺畅的过程。另外从谷歌获得计算资源对我帮助很大,Google 是开发 Transformer 的公司,他们对于机器学习底层的理解是很深的。 

绿洲:Google 当时是如何资助您进行机器学习研究的?

Alex: 我当时参与的 Google TRC Program(TPU Research Cloud Program),TPU 是 Google 自家推出专门用于机器学习的加速卡,和 GPU 不同,Google 从不公开出售 TPU 设备,而是完全集成在 Google Cloud 里,提供挂载 TPU 的云计算服务。TPU 的算力强大,最新款的 TPU v3-8 相当于 8 块 GPU。TRC 的成员能够免费访问由 1,000 多台云 TPU 设备组成的集群,利用包括 TensorFlow、PyTorch、Julia 和 JAX 在内的各种框架。我当时成为了最早一批 Google TPU 的使用者,最早的论文就是基于 Google TPU 进行训练的,用超级计算机做分布式进化优化算法,应用于分布式交易模型等类型的扩展,将算法扩展到大型集群并进行分配。 

Alex 在 Google AI TRC Program 中发布的论文

绿洲:在第一篇论文之后,是什么促使您想进行第二篇论文的研究,开发 Self-Improving Agent?

Alex: 我最早的灵感受到德国著名计算机科学家 Jurgen Schmidhuber 的启发,他的戈德尔机器模型指出人类要达到最终的智能,需要拥有具有自我进化能力的 AI 系统。长期我希望看到能够帮助科研人员进行研究的 Agent,让人类变得更聪明,因此短期我选择了开发能够在代码领域自我进化的 Agent。 

之所以选择代码领域,原因是代码是一种能够在创造过程中进行高度修改的创作方式,并且代码都部署在计算机 OS 系统中,一旦 Agent 学会了自我迭代,它们就可以非常自然地调整自身的生成过程,甚至有机会迭代出一套新的 AI 系统,就像 Jurgen Schmidhuber 提到的那样。 

绿洲:能否帮我们简单介绍 Self-Improving Agent 的基础结构?

Alex: 整体 Agent 的结构非常简单,后端接入类似 GPT-4 的 API,中间层加入我们设计的 Prompt Loop,最外端将整个框架部署在电脑系统中,做一些工程化工作。其中 Prompt Loop 会持续收敛用户的输入进行迭代和优化,生成代码和终端命令,最终所有动作会在计算机环境中执行,整个过程会重新解析并放回 Prompt Loop 形成闭环。 

在把初始化指令提出之后,Agent 会在计算机中生成并运行代码块,由 Prompt Loop 进行解析后保存,放到计算机环境中可以访问的文件或其他地方,然后大模型生成终端指令复制该代码,在 Python 中运行,最终输出执行命令,过程中提示词和 Prompt Loop 非常重要。 

绿洲:这套框架在除了 Windows OS 系统中,在其他计算机系统中也适用吗?

Alex: 是的,在 macOS 以及 Linux 中也完全适用,整套框架最终的输出是终端命令(Terminal Commands),因此你看也非常容易部署在其他计算机系统中运行,我自己使用 Windows系统,所以论文中讨论 Windows 比较多。 

绿洲:目前 Self-Improving Agent 有什么限制,未来我们将如何改进这些限制?

Alex: 目前一共有三大限制。第一大限制是目前的 Self-Improving Agent 仍然高度依赖于底层模型的能力;第二大限制是目前其自我改进能力仍高度受限于提示词质量,Prompt Loop 存在大量提示词的交互过程,同时有时候有大量的复杂自动化任务,越复杂的任务越需要人类进行一定的协助;第三大限制是安全问题,目前大模型生成的代码仍然可能存在安全漏洞,它可以访问任何你不想访问的东西,甚至进行一些破坏。 长期而言,提升大模型生成内容安全性可以通过对齐(Alignment)的方式,另外全世界也有很多研究人员在往 AI 安全领域持续发力。 

绿洲:请问计算机 Self-Improving Agent 能够应用在哪些场景?

Alex: 我认为 Self-Improving Agent 提供了一套非常好的低代码运行框架,使创作者利用自然语言实现 Agent 的修改并促进其自我迭代,成熟之后甚至可以生成很多过去计算机环境中不存在的计算机指令。 

比如最近很火的 Devin,我们的 Agent 框架能够实现类似 SWE Agent 的效果,另外我也在做让 Self-Improving Agent 自己生成工具的实验,帮助用户搜索互联网,我之前试验过让 Agent 根据某个研究课题进行文献综述,它的好处在于可修改性,研究人员再也不需要使用别的特定 Agent,而可以通过其自我改进能力进行任何类型的 Agent 开发。长期来看我期待它服务于有一定技术背景的开发人员作为 Copilot Agent。 

绿洲:您相信 AGI 吗?如果相信,您认为完全实现您心目中的 AGI 需要多久?

Alex: 我完全相信着 AGI 的到来,并且我认为大概 5 年之内我们就将迎来类似于漫威电影中贾维斯的助手走进现实。我目前在研究的动机也是想开发一种能够实现任何你告诉它任务的 Agent,能够自我改进解决它一开始没办法解决的任务。另外底层的大模型每年都在变得更强大,我们看到 GPT-4 以及在生成代码方面为我们展现了超越非凡的能力,我们会逐渐看到注意力机制(Attention)以及缩放定律(Scaling Laws)技术的发展而带来 LLM 和 Agent 能力的提升,因此短期之内完全有机会看到普通的 Agent 能够实现越来越复杂的现实世界任务。 

绿洲:AGI 对您来说意味着什么?

Alex: 我认为 AGI 很难定义,我和很多其他研究员都讨论过这个问题,最终大家都会得到不同的意见。但其实假如我们有一架时光机,我们在一定程度上已经实现 AGI 了,因为 7 年前我们都想象不到 ChatGPT 等应用的出现。7 年前我们做了很多基础的研究,那时候比 GPT 还要早,我们还在用 RNN 和 LSTM 的时候,完全想不到后来 GPT-2、3、4 的发布以及注意力机制的发展,这些也是真正打动我想要持续在 AGI 这条路上研究下去的原因。 

所以今天也一样,我们很难定义 AGI 最终会变成什么样。我现在在做的工作就是尽量解决 AGI 需要的底层能力,例如自我改进能力、安全、价值观对齐等工作,为整个 AGI 进程贡献有价值、有意义、有未来的基础框架。 

本文来自微信公众号“緑洲资本 Vitalbridge”(ID:Vitalbridge),作者:参赞生命力,36氪经授权发布。

+1
2

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

Agent 是建立在基础模型与人类多轮交互后,拥有端到端问题解决能力的智能体,然而当前的 Agent 缺少了模型与环境之间准确、灵活且能自动优化的交互能力。 美国伊利诺伊大学厄巴纳-香槟分校(UIUC) 博士王星尧开发 CodeAct 以提供一条新奇的思路,底层利用代码让 Agent 与环境进行交互,效率大大提升。CodeAct 未来能够持续提升在线学习能力,模型在环境交互的过程中寻找新数据,持续优化迭代,一定程度上缓解互联网数据即将用尽,模型能力遇到瓶颈的问题。Enjoy

2024-06-19

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业