一夜之间,AI终获"永久记忆",最难考试99%刷爆SOTA,全网直呼疯狂

新智元·2026年03月23日 20:40
一夜之间,AI有了「永久记忆」

AI终于有了「永久记忆」!今天,超级记忆系统ASMR重磅登场,在业界公认最难AI记忆考试中,刷爆SOTA拿下99%成绩。全网直呼太疯狂。

AI记忆难题,已彻底被解决?

今天,一个Supermemory团队爆火出圈,向全世界扔出了一颗核弹——

超级记忆系统「ASMR」问世,把AI记忆界最难考试LongMemEval,刷到了99%准确率。

全球数十亿Agent都需要记忆,而如今,AI「健忘症」几乎被攻克了。

是的,你没有听错!

ASMR以近乎无敌的姿态刷爆SOTA,一时间登上了今天X的热榜。

它抛弃了传统的「向量数据库」,抛弃了嵌入(embedding)模式,完全在内存中运行。

这一次,ASMR全程采用「多Agent并行推理」的流水线,具体分工如下:

3个「观察者Agent」并行读取原始数据,提取个人信息、偏好、时间线等六大维度信息; 

当用户提问时,再派出3个「搜索Agent」进行主动推理检索。

如今,全网被「太疯狂了」刷屏了。

值得一提的是,ASMR将于4月初开源全部代码,AI记忆的「大航海时代」正式开启!

一夜之间,AI有了「永久记忆」

首先,还是要mark下这篇博客第一句话——

AI Agent的记忆问题现在可能已经完全解决了。

几个月前,Supermemory祭出首份研究报告,便在LongMemEval-s测试中拿下了85%的成绩。

这一分数,早就领先于当时所有公开的记忆系统。

而今天,超级记忆系统「ASMR」(智能体搜索与记忆检索)的出世,再一次刷新了纪录。

它的技术实现,非常简单。

不需要向量数据库、嵌入(embeddings),直接完全在内存中运行。

这意味着,它可以被内嵌到其他系统中,甚至是机器人等硬件中。

那么,ASMR具体是如何被打造出来的?

ASMR:多Agent并行干活

要知道,LongMemEval是目前公开可见的、最严苛的长期记忆基准测试之一。

很多基准测试只考量短上下文中的简单检索,但LongMemEval不同,它旨在模拟真实生产环境中的各种混乱情况:

在超11.5万智元(Token)的对话历史、相互矛盾的信息、跨越多个会话的零散事件,还需进行时间推理的复杂问题。

大多数记忆系统表现不佳,问题往往出在「检索」上,而不是推理上。

即便召回率很高,如果检索过程中伴随着大量噪音,LLM同样很难利用这些信息。

首要难题在于,如何只将正确的信息放入上下文窗口;更困难的是——如何判断检索到的事实已经过时,并已经被更新的版本所取代。

不仅如此,标准的向量搜索在多数情况下都很好用。

但在处理信息密度高、跨越多会话的时序数据细节时,它就力不从心了。语义相似度匹配无法可靠地区分某个事实是「旧信息」还是「新修正」。

为了应对LongMemEval的复杂性,必须从头开始重新构思信息摄取与检索管道,用主动的Agent推理来取代向量数学计算。

由此,团队跳出了传统RAG框架,构建了一个「多Agent协同编排」的管道。

3+3 Agent,各有分工

就像ASMR一样,这项技术简单直白,且让人极度舒适。

观察者Agent:并行摄取

首先,部署一个由3个并行读取器——观察者Agent,组成的智能体编排器。

它们背后由Gemini 2.0 Flash加持,不用针对用户对话进行分块和嵌入就能执行任务。

这些Agent会并发地阅读原始会话,比如,Agent 1负责会话 1、3、5;Agent 2负责 2、4、6。

观察者Agent目标是围绕「六个维度」进行定向的知识提取:个人信息、偏好、事件、时序数据、信息更新、助手信息。

然后,这些结构化的发现会被「原生存储」,并映射回它们的源会话中。

搜索Agent:主动检索

当接收到问题时,ASMR不会去查询向量数据库。

通过部署的3个并行的「搜索Agent」,这些AI会主动阅读并推理已存储的发现,每个Agent都有专属的侧重点:

Agent 1:搜索直接事实和明确陈述; 

Agent 2:寻找相关的上下文、社交线索和暗示; 

Agent 3:重建时间线和关系图谱。

编排器会汇总所有三个「搜索Agent」的发现,并提取原文会话的逐字片段来进行细节验证。

这种机制使得系统能够基于真实的认知理解来进行智能检索,而不仅仅是依赖关键词或数学上的相似度。

一旦上下文整合完成,单一的提示词无法应对LongMemEval中种类繁多的问题。

有些问题需要推断细节,而有些则要求给出极其具体的答案。

接下来,Supermemory尝试了两种截然不同的AI Agent回答工作流。

8变体集群(98.6%准确率)

将检索到的上下文路由给并行运行的8个高度专业化的提示词变体。

比如,精准计数器、时间专家、Context Deep Dive等,每个变体都会独立评估上下文并生成答案。

如果这8条截然不同的推理路径中,有任何一条成功得出了正确答案(Ground Truth),该问题就会被标记为正确。

这种并行的多重判断方法,让ASMR达到了惊人的98.60%整体准确率,完美覆盖了盲区。

12变体决策森林(97.2%准确率)

为了测试一个旨在产出单一、权威答案,而依赖多次独立尝试的系统,团队又将ASMR扩展为了一个包含12个变体的决策森林。

在这里,12个高度专业化的AI Agent(由GPT-4o-mini驱动)独立回答提示词。

并且, 还引入了一个「聚合大模型」作为最终的裁判。

聚合器通过多数投票、领域信任度和冲突解决机制来综合这12个答案。

这种单一的共识模型,同样取得了高达97.2%的惊人准确率。

需要说明的是,ASMR目前还没有用在Supermemory的核心生产环境中。

这次实验不仅刷新了数据,更验证了几个关键观点:

Agent检索优于向量搜索: 主动搜索消除了语义相似度陷阱,解决了时序变化导致的信息失效问题。

并行处理是效率核心: 将负载分配给多个专用Agent,显著提升了提取的速度与颗粒度。

专业化分工胜过通用模型: 专用专家(如细节提取器)的表现远超单一的全能提示词。

Supermemory才是真正的野心

但如果你以为ASMR只是一个刷榜实验,那就太小看这个团队了。

ASMR背后,是一个叫Supermemory的完整记忆引擎——一套面向所有AI应用的记忆与上下文基础设施。

Your AI forgets everything between conversations. Supermemory fixes that.

你的AI在对话之间什么都记不住,Supermemory来修。

GitHub地址:https://github.com/supermemoryai/supermemory

记忆≠RAG,这是两件事

前面说的ASMR,解决的是「怎么从海量对话里精准找到正确信息」。

但Supermemory要解决的问题更大:让AI真正拥有记忆,而不只是检索。

区别在于,RAG不认人,今天给张三返回的结果和明天给李四的一模一样;而Supermemory会从对话中主动提取事实,追踪变化,处理矛盾,甚至自动遗忘。

举个例子,你上个月跟AI说「我住在北京」,这个月又说「我刚搬到上海」。RAG会把两条信息都丢给大模型,让它自己猜。Supermemory知道后者覆盖了前者,只返回「上海」。

更狠的是「自动遗忘」机制。你说「我明天有个考试」,等日期过了,这条记忆自动失效。临时事实不会变成永久噪音。

Supermemory默认把RAG和记忆合并在同一次查询里跑,知识库检索和个性化上下文一次返回。

50毫秒,一个API调用搞定用户画像

记忆之外,Supermemory把用户画像也一并接管了。

传统方案里,你想让AI「认识」一个用户,需要自己搭建用户画像系统,手动维护标签、偏好、历史行为。Supermemory把这件事全自动化了。

它会把用户信息拆成两层:

静态事实(「资深工程师」「用Vim」「偏好暗色模式」)

动态上下文(「正在做认证模块迁移」「在debug限流问题」)。

一次API调用,延迟约50毫秒,你的Agent就知道对面坐的是谁。

把这个画像注入system prompt,Agent瞬间从「陌生人模式」切换到「老朋友模式」。

「全家桶式」的连接能力

记忆光靠对话还不够,Supermemory还接通了一整套外部数据源。

Google Drive、Gmail、Notion、OneDrive、GitHub,全部通过实时Webhook自动同步。

文档上传后自动处理,PDF解析、图片OCR、视频转录、代码AST级分块。传上去就能搜,零配置。

对开发者来说,集成成本被压到了最低。

npm装一个包,几行代码就能给自己的Agent加上完整的记忆能力。Vercel AI SDK、LangChain、LangGraph、OpenAI Agents SDK、Mastra,主流AI开发框架全部有现成的封装。

内置Claude Code、OpenCode、OpenClaw插件

甚至不写代码也行。

Supermemory提供了MCP服务器,一行命令安装,Claude Desktop、Cursor、Windsurf、VS Code直接用。

记忆这场仗,才刚刚开始

从实验到产品,Supermemory团队做的事情其实可以用一句话概括:把AI的「工作记忆」从一个附加功能,变成一层基础设施。

过去几年,大模型的竞争集中在参数规模、推理速度、上下文窗口长度。

但一个128K上下文窗口再大,对话结束就清空,下次见面还是陌生人。

记忆才是让AI从「工具」变成「搭档」的最后一块拼图。

当每一个Agent都能记住你是谁、你在做什么、你上次说到哪里,人机交互的体验会出现一次静悄悄的质变。

不是AI变聪明了,而是它终于不再失忆了。

参考资料:

https://x.com/DhravyaShah/status/2035517012647272689?s=20 

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

+1
41

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

无论是当下的单环节赋能,还是未来的营销机制重构,AI正在将营销推向一场结构性变局。

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业