上海 AI Lab 研究员吴志勇：Tomorrow's FRIDAY | Agent Insights

绿洲资本·2024年03月22日 11:23

大语言模型加速了构建 Agent 的进展，如何实现与计算机自主交互，拓展 Agent 对一般计算机任务的适应性，是具有巨大潜力的长期挑战。上海 AI Lab 吴志勇团队引入 OS-Copilot 框架创建了 FRIDAY，一个拥有自我改进能力，更具有活力和生命力的计算机通用 Agent。我们距离下一代更具智能的 Agent 还有多远？Enjoy

《OS-Copilot : Towards Generalist Computer Agents with Self-Improvement》

*论文中提到的 OS-Copilot 是一套通用计算机 Agent 框架，FRIDAY 是建立在 OS-Copilot 上的计算机 Agent 之一

解决问题： 过去计算机 Agent 与不同 OS 元素（Web，Code，代码，多媒体等）交互过于局限，FRIDAY 作为一款通用且拥有自我改进能力的计算机 Agent，提升了计算机任务的成功率

模型架构： FRIDAY 前端利用 LLM 将任务请求分解为子任务，配置器维护工作存储库，存储检索到的工具、知识，后端执行器根据配置器生成的 Prompt 执行动作指令

使用效果： FRIDAY 在通用 AI 助手 Benchmark GAIA 上的 466 个 QA 问答上进行评估的成功率最高能达到 40.9%，对比 GPT-4 Plugins 30.3% 的成功率以及 AutoGPT-4 15.1% 的成功率有大幅提升

应用空间：计算机通用 Agent

自主学习： FRIDAY 能够学习新知识，为了掌握某项工具的使用，会被提示执行与该目标相关的任务流指示，从简单再到具有挑战性，形成该工具的熟练运用能力

OS-Copilot自我学习示例

实验： FRIDAY 在通用 AI 助手 benchmark GAIA 上的 466 个 QA 问答上进行评估，FRIDAY 在最易级别的任务中取得了 40.9% 的成功率

FRIDAY在GAIA上的测试结果

绿洲：为什么起 FRIDAY 这个名字呢？

吴老师： FRIDAY 是一个更加升级版的智能管家，它的名字源于钢铁侠系列电影（笑）。大家比较熟知的可能是 JARVIS，JARVIS 被合到幻视后，Tony 做了一个新的管家机器人叫 FRIDAY，也就是“星期五小姐”。我们希望 FRIDAY 能比现在开源的系统做得更好，所以起了这个名字。

智能助手一直存在，并非是有了 ChatGPT 才兴起的东西。在工业界，对话助手、对话机器人已经做了十来年了。ChatGPT 能把以前很复杂的对话助手、对话机器人设计变得简单且效果更好，兴趣使然，我们赶上了下一代智能助手的时间点。

绿洲：请具体介绍一下 OS-Copilot 和 FRIDAY 的能力和特点。

吴老师： OS-Copilot 更多是一个概念层面的框架，目前还不是一套真的协议。框架的设计学术界和工业界都在进行尝试，比如微软的 Windows Copilot，AutoGen。OS-Copilot 相较于以前的 RPA（机器人流程自动化）通用助手能够展现更多强大的功能，对比过去比较出名的 AutoGPT 等 Agent 项目，FRIDAY 最与众不同的点是它的自学习（Self-Directed Learning）模块。

自学习和人类掌握技能学习是相似的。例如人类想学习使用 Excel，会去找教程，学习之后通过不断练习，积累使用经验。FRIDAY 也一样，你让它去使用 Excel，它会自己提出一系列由 GPT-4 自动提出的跟 Excel 相关的任务，例如画柱状图，添加计算公式等。FRIDAY 拿到任务，尝试解决，并在解决过程中积累相关技能，将技能编写成代码工具。后续遇到类似任务时，FRIDAY 可以调用积累的工具，以较高的准确率完成任务，类似英伟达的智能体 Voyager。

绿洲：自学习之后，FRIDAY 的记忆存储在哪里呢？

吴老师：这是记忆的问题。我们仿照生物学的概念，将 Agent 的工作记忆分为长期记忆和短期记忆。长期记忆比如陈述性记忆或者程序，类似 RAG（Retrieval Augmented Generation），以文本形式存在文件系统，需要时去检索和使用。短期记忆则是实时维护内存中的内容，与大模型中常说的上下文学习和推理能力相关。

FRIDAY 中最核心的是短期工作记忆这一块，提取一些过去的经验，结合当前用户指令内容进行信息处理，再给大模型完成推理，生成具体执行的命令，后端通过执行器完成动作指令。工作记忆是最终完成推理的最核心的地方。

绿洲：您觉得 FRIDAY 最大的应用空间在哪儿？

吴老师：目前更适用于一些小众的需求，例如通过调整 Agent 框架设计为 Excel、PPT、代码等辅助工具。传统大的 RPA 公司不会专门为小需求花费精力和资源制作工具，OS-Copilot 提供了一个能够保证精度的框架，用户直接生成一个了解你还满足你个人需求的 Agent。

未来从更宏观的方面来看，OS-Copilot 会逐渐成为一个开源 OS 标准协议（Protocol），或是一种广泛接受的框架，帮助开发者节省重复开发时间。同时大家在社区中持续开发积累经验和案例，效果会越来越好。

绿洲：就 FRIDAY 和您的其他研究，接下来想往哪个方向走呢？

吴老师：关于 FRIDAY，未来首先会花更多时间在工程化上，准备重构代码和大量的教学案例吸引开发者来做开源。在研究方面，我们想做一个类似于模拟器（Simulator）的 OS 生态，让大量出现的 Agent 在其中不断自我学习和探索环境，开发者更方便地权衡 Agent 效果。这对于后期合成数据的构造至关重要。

目前 FRIDAY 做控制是以代码形式完成的。但真实应用场景中很多软件不开放 API 调用，比如微信、腾讯会议无法通过调用代码或者写代码的形式来控制或者操作，因此从代码控制有天然的局限性。从这个角度考虑，我们将投入大块精力做多模态版本的 FRIDAY，通过鼠标键盘，像人类一样去使用这些操作系统。

针对更广义的 LLM 研究，我们会集中在做新架构。现在 Transformer 是基本主导，但它本身结构上的设计有天然上限，比如它的 Attention 限制了对长序列的处理。我们想在下一代语言模型结构上进行探索。

绿洲：在 Agent 领域研究中，今年您有期待的突破点么？

吴老师：针对 Agent 我有两个期待吧。首先是多模态版本的 Agent。今年是多模态大模型爆发的时间点，模型能力上会有很大提升。现在基于视觉的 Agent 尽管性能还比基于代码的 Agent 差不少，但拥有更好的泛化性，能支持那些闭源软件的控制。视觉 Agent 完成任务更像人类完成任务的方式，更自然，更富有“直觉”（Intuitive）。

第二关注点是希望今年会出现统一的 Agent 标准协议（Protocol），比如 Agent 之间怎么交流，接口应该是什么样的。到目前为止并没有一套很统一的指导原则，因此大家很难复用，一套标准的框架能够减少开发者很多重复劳动。在 Prompt Engineering 领域已经看到有很多人在做标准协议，比如微软的 Guidance 库和斯坦福的 DSPy。因此，如果有一些大机构牵头来完成 Agent 领域的标准制定，我感觉会对整个 Agent 领域的发展有很重要的指导意义。我认为今年会是 Agent 领域出初步标准协议的重要时间点，让我们拭目以待。

本文来自微信公众号“緑洲资本 Vitalbridge”（ID:Vitalbridge），作者：参赞生命力，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

上海 AI Lab 研究员吴志勇：Tomorrow's FRIDAY | Agent Insights

最近内容

下一篇