纽约大学 Alex Sheng：AI 程序员 Devin 的自我迭代之路 —— Agent Insights

绿洲资本·2024年06月19日 14:13

自高中起便开始钻研机器学习的 Alex Sheng，到现在拥有7年独立研究经验，并得到 Google 和 IBM 的资助。受 LSTM 之父 Jurgen Schmidhuber 的启发，他开发出了能够自我进步迭代的计算机 Agent。虽然目前 Self-Improving Computer Agent 还存在一些限制，但科技的发展往往就是从想象逐步变为现实。Enjoy

《From Language Models to Practical Self-Improving Computer Agents》

让 Computer Agent 实现自我进步的算法

论文链接：https://arxiv.org/pdf/2404.11964

解决问题：传统 Agent 功能增强包括 RAG 检索、CoT 推理、WebGPT 互联网语言增强、程序评估、ReAct LLM 增强等方式，然而过程中无法进行有效的生成内容实时调整，Agent 无法实现自我迭代。团队开发出了 Self-Improving Computer Agent，能够实现计算机 Agent 的自我增加与完善，在不断生成的过程中增强自身能力，发现问题自我解决，实现计算机任务的自动化命令执行

模型框架： 框架前端接入大模型 API，中间层加入 Prompt Loop，持续收敛用户输入进行迭代优化，过程会重新解析指令与生成内容，并放回 Prompt Loop 形成闭环，最外端将整个框架部署在电脑系统进行工程化落地

使用效果：团队创建的自我完善计算机 Agent 能够无限扩展、开箱即用，通过建议文件创建和编辑工具使用功能，实现检索增强，同时加入人类协作指令，完成灵活部署计算机任务的执行，对比其他计算机 Agent 拥有更强的可编辑性、创造性、灵活性

应用空间：计算机 Agent

Prompt Loop 中的人类协作过程

绿洲：能否帮我们简单介绍下您过去的研究经历以及对于 Agent 的理解？

Alex： 我过去有 7 年的 AI/ML 独立研究经历，一开始我专注在机器学习中的 Few-Shot 领域，在少量的数据条件下增强学习能力。在 2020 年之前，神经网络训练需要大量训练数据，我在那之前就在寻找迭代和优化 Few-Shot 算法的方法。那时候 Google 的 TPU Research Cloud Program 资助我研究了几年，Google 为研究员提供足够数量的 TPU 授权，让我能够使用足够数量的 TPU 完成研究论文，后来到 NYU 之后开始和 IBM 合作其他的论文。

Alex 和 IBM Research AI 合作的 Zero-Shot 论文

在此之前我还写过一篇大模型相关的论文叫《Self-Programming Artificial Intelligence Using Code-Generating Language Models》，在那篇论文里我们团队就阐述了如何应用 Zero-Shot 在大模型中，用代码生成大模型来调整生成的代码，而在这篇最新的论文中，我们阐述了如何建立一套完善的 LLM-based Agent 体系，在 OS 系统中直接生成并执行代码。比起纯粹的 AI Agent 研究人员，我的背景更加复合，例如我更关注如何利用代码使得 Agent 学会自我修复与进步，同时我也很关注 Prompt Engineering 领域的发展，这些促使我开发出了在代码层面拥有自我改进能力的计算机 Agent。

绿洲：您在高中就开始研究机器学习了？

Alex： 我一直对科技很感兴趣，其实 7 年前人工智能将改变世界的趋势就很明显了，所以我选择了这份令人兴奋的行业。整个人工智能行业非常开放，大部分研究和论文都是开源的，非本科生和博士生也能很容易自我学习。我从一开始学习最新的研究，到后来参与一部分研究，到最后自己完成 AI 系统的完整开发，整体都是非常顺畅的过程。另外从谷歌获得计算资源对我帮助很大，Google 是开发 Transformer 的公司，他们对于机器学习底层的理解是很深的。

绿洲：Google 当时是如何资助您进行机器学习研究的？

Alex： 我当时参与的 Google TRC Program（TPU Research Cloud Program），TPU 是 Google 自家推出专门用于机器学习的加速卡，和 GPU 不同，Google 从不公开出售 TPU 设备，而是完全集成在 Google Cloud 里，提供挂载 TPU 的云计算服务。TPU 的算力强大，最新款的 TPU v3-8 相当于 8 块 GPU。TRC 的成员能够免费访问由 1,000 多台云 TPU 设备组成的集群，利用包括 TensorFlow、PyTorch、Julia 和 JAX 在内的各种框架。我当时成为了最早一批 Google TPU 的使用者，最早的论文就是基于 Google TPU 进行训练的，用超级计算机做分布式进化优化算法，应用于分布式交易模型等类型的扩展，将算法扩展到大型集群并进行分配。

Alex 在 Google AI TRC Program 中发布的论文

绿洲：在第一篇论文之后，是什么促使您想进行第二篇论文的研究，开发 Self-Improving Agent？

Alex： 我最早的灵感受到德国著名计算机科学家 Jurgen Schmidhuber 的启发，他的戈德尔机器模型指出人类要达到最终的智能，需要拥有具有自我进化能力的 AI 系统。长期我希望看到能够帮助科研人员进行研究的 Agent，让人类变得更聪明，因此短期我选择了开发能够在代码领域自我进化的 Agent。

之所以选择代码领域，原因是代码是一种能够在创造过程中进行高度修改的创作方式，并且代码都部署在计算机 OS 系统中，一旦 Agent 学会了自我迭代，它们就可以非常自然地调整自身的生成过程，甚至有机会迭代出一套新的 AI 系统，就像 Jurgen Schmidhuber 提到的那样。

绿洲：能否帮我们简单介绍 Self-Improving Agent 的基础结构？

Alex： 整体 Agent 的结构非常简单，后端接入类似 GPT-4 的 API，中间层加入我们设计的 Prompt Loop，最外端将整个框架部署在电脑系统中，做一些工程化工作。其中 Prompt Loop 会持续收敛用户的输入进行迭代和优化，生成代码和终端命令，最终所有动作会在计算机环境中执行，整个过程会重新解析并放回 Prompt Loop 形成闭环。

在把初始化指令提出之后，Agent 会在计算机中生成并运行代码块，由 Prompt Loop 进行解析后保存，放到计算机环境中可以访问的文件或其他地方，然后大模型生成终端指令复制该代码，在 Python 中运行，最终输出执行命令，过程中提示词和 Prompt Loop 非常重要。

绿洲：这套框架在除了 Windows OS 系统中，在其他计算机系统中也适用吗？

Alex： 是的，在 macOS 以及 Linux 中也完全适用，整套框架最终的输出是终端命令（Terminal Commands），因此你看也非常容易部署在其他计算机系统中运行，我自己使用 Windows系统，所以论文中讨论 Windows 比较多。

绿洲：目前 Self-Improving Agent 有什么限制，未来我们将如何改进这些限制？

Alex： 目前一共有三大限制。第一大限制是目前的 Self-Improving Agent 仍然高度依赖于底层模型的能力；第二大限制是目前其自我改进能力仍高度受限于提示词质量，Prompt Loop 存在大量提示词的交互过程，同时有时候有大量的复杂自动化任务，越复杂的任务越需要人类进行一定的协助；第三大限制是安全问题，目前大模型生成的代码仍然可能存在安全漏洞，它可以访问任何你不想访问的东西，甚至进行一些破坏。长期而言，提升大模型生成内容安全性可以通过对齐（Alignment）的方式，另外全世界也有很多研究人员在往 AI 安全领域持续发力。

绿洲：请问计算机 Self-Improving Agent 能够应用在哪些场景？

Alex： 我认为 Self-Improving Agent 提供了一套非常好的低代码运行框架，使创作者利用自然语言实现 Agent 的修改并促进其自我迭代，成熟之后甚至可以生成很多过去计算机环境中不存在的计算机指令。

比如最近很火的 Devin，我们的 Agent 框架能够实现类似 SWE Agent 的效果，另外我也在做让 Self-Improving Agent 自己生成工具的实验，帮助用户搜索互联网，我之前试验过让 Agent 根据某个研究课题进行文献综述，它的好处在于可修改性，研究人员再也不需要使用别的特定 Agent，而可以通过其自我改进能力进行任何类型的 Agent 开发。长期来看我期待它服务于有一定技术背景的开发人员作为 Copilot Agent。

绿洲：您相信 AGI 吗？如果相信，您认为完全实现您心目中的 AGI 需要多久？

Alex： 我完全相信着 AGI 的到来，并且我认为大概 5 年之内我们就将迎来类似于漫威电影中贾维斯的助手走进现实。我目前在研究的动机也是想开发一种能够实现任何你告诉它任务的 Agent，能够自我改进解决它一开始没办法解决的任务。另外底层的大模型每年都在变得更强大，我们看到 GPT-4 以及在生成代码方面为我们展现了超越非凡的能力，我们会逐渐看到注意力机制（Attention）以及缩放定律（Scaling Laws）技术的发展而带来 LLM 和 Agent 能力的提升，因此短期之内完全有机会看到普通的 Agent 能够实现越来越复杂的现实世界任务。

绿洲：AGI 对您来说意味着什么？

Alex： 我认为 AGI 很难定义，我和很多其他研究员都讨论过这个问题，最终大家都会得到不同的意见。但其实假如我们有一架时光机，我们在一定程度上已经实现 AGI 了，因为 7 年前我们都想象不到 ChatGPT 等应用的出现。7 年前我们做了很多基础的研究，那时候比 GPT 还要早，我们还在用 RNN 和 LSTM 的时候，完全想不到后来 GPT-2、3、4 的发布以及注意力机制的发展，这些也是真正打动我想要持续在 AGI 这条路上研究下去的原因。

所以今天也一样，我们很难定义 AGI 最终会变成什么样。我现在在做的工作就是尽量解决 AGI 需要的底层能力，例如自我改进能力、安全、价值观对齐等工作，为整个 AGI 进程贡献有价值、有意义、有未来的基础框架。

本文来自微信公众号“緑洲资本 Vitalbridge”（ID:Vitalbridge），作者：参赞生命力，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

纽约大学 Alex Sheng：AI 程序员 Devin 的自我迭代之路 —— Agent Insights

最近内容

下一篇