上海 AI Lab 研究员吴志勇:Tomorrow's FRIDAY | Agent Insights

绿洲资本·2024年03月22日 11:23
大语言模型加速了构建 Agent 的进展,如何实现与计算机自主交互,拓展 Agent 对一般计算机任务的适应性,是具有巨大潜力的长期挑战。上海 AI Lab 吴志勇团队引入 OS-Copilot 框架创建了 FRIDAY,一个拥有自我改进能力,更具有活力和生命力的计算机通用 Agent。我们距离下一代更具智能的 Agent 还有多远?Enjoy

《OS-Copilot : Towards Generalist Computer Agents with Self-Improvement》

*论文中提到的 OS-Copilot 是一套通用计算机 Agent 框架,FRIDAY 是建立在 OS-Copilot 上的计算机 Agent 之一 

解决问题: 过去计算机 Agent 与不同 OS 元素(Web,Code,代码,多媒体等)交互过于局限,FRIDAY 作为一款通用且拥有自我改进能力的计算机 Agent,提升了计算机任务的成功率 

模型架构: FRIDAY 前端利用 LLM 将任务请求分解为子任务,配置器维护工作存储库,存储检索到的工具、知识,后端执行器根据配置器生成的 Prompt 执行动作指令 

使用效果: FRIDAY 在通用 AI 助手 Benchmark GAIA 上的 466 个 QA 问答上进行评估的成功率最高能达到 40.9%,对比 GPT-4 Plugins 30.3% 的成功率以及 AutoGPT-4 15.1% 的成功率有大幅提升 

应用空间:计算机通用 Agent 

自主学习: FRIDAY 能够学习新知识,为了掌握某项工具的使用,会被提示执行与该目标相关的任务流指示,从简单再到具有挑战性,形成该工具的熟练运用能力 

OS-Copilot自我学习示例 

实验: FRIDAY 在通用 AI 助手 benchmark GAIA 上的 466 个 QA 问答上进行评估,FRIDAY 在最易级别的任务中取得了 40.9% 的成功率 

FRIDAY在GAIA上的测试结果

绿洲:为什么起 FRIDAY 这个名字呢?

吴老师: FRIDAY 是一个更加升级版的智能管家,它的名字源于钢铁侠系列电影(笑)。大家比较熟知的可能是 JARVIS,JARVIS 被合到幻视后,Tony 做了一个新的管家机器人叫 FRIDAY,也就是“星期五小姐”。我们希望 FRIDAY 能比现在开源的系统做得更好,所以起了这个名字。 

智能助手一直存在,并非是有了 ChatGPT 才兴起的东西。在工业界,对话助手、对话机器人已经做了十来年了。ChatGPT 能把以前很复杂的对话助手、对话机器人设计变得简单且效果更好,兴趣使然,我们赶上了下一代智能助手的时间点。 

绿洲:请具体介绍一下 OS-Copilot 和 FRIDAY 的能力和特点。

吴老师: OS-Copilot 更多是一个概念层面的框架,目前还不是一套真的协议。框架的设计学术界和工业界都在进行尝试,比如微软的 Windows Copilot,AutoGen。OS-Copilot 相较于以前的 RPA(机器人流程自动化)通用助手能够展现更多强大的功能,对比过去比较出名的 AutoGPT 等 Agent 项目,FRIDAY 最与众不同的点是它的自学习(Self-Directed Learning)模块。 

自学习和人类掌握技能学习是相似的。例如人类想学习使用 Excel,会去找教程,学习之后通过不断练习,积累使用经验。FRIDAY 也一样,你让它去使用 Excel,它会自己提出一系列由 GPT-4 自动提出的跟 Excel 相关的任务,例如画柱状图,添加计算公式等。FRIDAY 拿到任务,尝试解决,并在解决过程中积累相关技能,将技能编写成代码工具。后续遇到类似任务时,FRIDAY 可以调用积累的工具,以较高的准确率完成任务,类似英伟达的智能体 Voyager。

绿洲:自学习之后,FRIDAY 的记忆存储在哪里呢?

吴老师:这是记忆的问题。我们仿照生物学的概念,将 Agent 的工作记忆分为长期记忆和短期记忆。长期记忆比如陈述性记忆或者程序,类似 RAG(Retrieval Augmented Generation),以文本形式存在文件系统,需要时去检索和使用。短期记忆则是实时维护内存中的内容,与大模型中常说的上下文学习和推理能力相关。

FRIDAY 中最核心的是短期工作记忆这一块,提取一些过去的经验,结合当前用户指令内容进行信息处理,再给大模型完成推理,生成具体执行的命令,后端通过执行器完成动作指令。工作记忆是最终完成推理的最核心的地方。

绿洲:您觉得 FRIDAY 最大的应用空间在哪儿?

吴老师:目前更适用于一些小众的需求,例如通过调整 Agent 框架设计为 Excel、PPT、代码等辅助工具。传统大的 RPA 公司不会专门为小需求花费精力和资源制作工具,OS-Copilot 提供了一个能够保证精度的框架,用户直接生成一个了解你还满足你个人需求的 Agent。

未来从更宏观的方面来看,OS-Copilot 会逐渐成为一个开源 OS 标准协议(Protocol),或是一种广泛接受的框架,帮助开发者节省重复开发时间。同时大家在社区中持续开发积累经验和案例,效果会越来越好。

绿洲:就 FRIDAY 和您的其他研究,接下来想往哪个方向走呢?

吴老师:关于 FRIDAY,未来首先会花更多时间在工程化上,准备重构代码和大量的教学案例吸引开发者来做开源。在研究方面,我们想做一个类似于模拟器(Simulator)的 OS 生态,让大量出现的 Agent 在其中不断自我学习和探索环境,开发者更方便地权衡 Agent 效果。这对于后期合成数据的构造至关重要。

目前 FRIDAY 做控制是以代码形式完成的。但真实应用场景中很多软件不开放 API 调用,比如微信、腾讯会议无法通过调用代码或者写代码的形式来控制或者操作,因此从代码控制有天然的局限性。从这个角度考虑,我们将投入大块精力做多模态版本的 FRIDAY,通过鼠标键盘,像人类一样去使用这些操作系统。

针对更广义的 LLM 研究,我们会集中在做新架构。现在 Transformer 是基本主导,但它本身结构上的设计有天然上限,比如它的 Attention 限制了对长序列的处理。我们想在下一代语言模型结构上进行探索。

绿洲:在 Agent 领域研究中,今年您有期待的突破点么?

吴老师:针对 Agent 我有两个期待吧。首先是多模态版本的 Agent。今年是多模态大模型爆发的时间点,模型能力上会有很大提升。现在基于视觉的 Agent 尽管性能还比基于代码的 Agent 差不少,但拥有更好的泛化性,能支持那些闭源软件的控制。视觉 Agent 完成任务更像人类完成任务的方式,更自然,更富有“直觉”(Intuitive)。

第二关注点是希望今年会出现统一的 Agent 标准协议(Protocol),比如 Agent 之间怎么交流,接口应该是什么样的。到目前为止并没有一套很统一的指导原则,因此大家很难复用,一套标准的框架能够减少开发者很多重复劳动。在 Prompt Engineering 领域已经看到有很多人在做标准协议,比如微软的 Guidance 库和斯坦福的 DSPy。因此,如果有一些大机构牵头来完成 Agent 领域的标准制定,我感觉会对整个 Agent 领域的发展有很重要的指导意义。我认为今年会是 Agent 领域出初步标准协议的重要时间点,让我们拭目以待。

本文来自微信公众号“緑洲资本 Vitalbridge”(ID:Vitalbridge),作者:参赞生命力,36氪经授权发布。

+1
18

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业