99后华人科学家创业,掏出全球首个视觉记忆大模型,无限上下文,已获三星投资

智东西·2025年07月25日 16:12
性能测试远超谷歌OpenAI,首月免费体验!

智东西7月25日消息,今天,前Meta员工沈俊潇(Shawn Shen)在海外社交媒体X上宣布,其和Enmin Zhou联合创立的Memories.ai,正式推出其首款大型视觉记忆模型(Large Visual Memory Model)

沈俊潇还宣布Memories.ai已完成由Susa Ventures领投,Crane Venture Partners、三星Next、Fusion Fund等机构跟投的800万美元(约合人民币5730万元)种子轮融资

感兴趣的用户立即享受首月免费体验,无需任何附加条件。

体验地址:https://memories.ai/app

沈俊潇官宣推文(来源:X)

这一技术旨在为多模态大语言模型(multi-modal LLMs)赋予视觉记忆回溯能力。该模型实现了视觉记忆检索功能,能够解析用户意图,检索相关视觉记忆片段,整合关联的视觉记忆信息,并基于这些记忆和用户查询进行推理。

其创新点在于智能决策机制,能自主判断何时、如何及调取哪些视觉记忆。完成记忆信息整合后,模型能生成记忆引用,并以正确输出格式回答用户问题,这使得多模态大模型具备无限长视觉记忆上下文处理能力。

Memories.ai的两位联合创始人均是华人,沈俊潇在博客中透露自己14岁就远赴英国读高中。

01.

两位华人联合创立

曾14岁就远赴英国求学

1999年出生的沈俊潇,初中在苏州上学,14岁就获得奖学金到远赴英国读高中。领英主页显示,其本硕博均在剑桥大学就读,2019年取得了工程专业的文学学士学位( 剑桥大学等部分高校保留传统BA授予制度,其工程专业毕业生仍获BA学位),2020年取得都柏林圣三一学院的工程学硕士学位,2023年获得工程学哲学博士学位。

在本科就读期间,沈俊潇还曾回到上海摩根士丹利短期实习,在博士就读期间,2022年,他到了Meta现实实验室工作,担任研究科学家职位。2024年沈俊潇离职创业,联合创立了Memories.ai。

左:沈俊潇,右:Enmin Zhou(图源:Memories.ai)

Memories.ai联合创始人兼CTO Enmin Zhou,2020年从美国加州大学洛杉矶分校毕业,获得数学与计算科学学士学位,后在美国布朗大学就读数据科学专业,于2022年毕业。

本科就读期间他也曾回到上海,在上海深察信息科技短暂实习,硕士毕业后在Meta就职,担任机器学习工程师一职。2024年Enmin Zhou离职创业,联合创立了Memories.ai。

在博客中,沈俊潇写道,他们正是因为意识到解决视觉记忆问题刻不容缓,才离开Meta共同创立Memories.ai。

02.

视频问答能力超越Gemini 2.5 Pro、

OpenAI GPT 4o和GPT4.1

从性能上看,在视频零样本分类基准测试中,Memories.ai的分数都较历史第一的模型PE-G都一定上涨,其中在HMD8数据库中,分数上涨了7.6分,在K400数据库中,分数上涨了6.6分

视频检索基准测试中,Memories.ai在所有数据集中的分数都超越了历史第一Perception Encoder,各项测试均夺得桂冠,其中在AVN数据集的文字转视频测试中,其分数较Perception Encoder提升了11分

视频问答基准测试中,Memories.ai在MVBench、NextQA以及Temp Compass数据集中,全面超越OpenAI GPT 4o;在ActivityNetQA和Perception Text数据集中,超越谷歌Gemini 2.5 Pro和OpenAI GPT4.1,取得新的性能记录。

包括OpenAI和谷歌模型系统在内的比较数据,均源自OpenAI和谷歌各自的官方发布博客。

03.

受人类记忆机制启发,建立初始记忆架构

在另一篇技术博客中,沈俊潇介绍到,Memories.ai的创造是受了人类记忆机制启发,而创立的整个大视觉记忆模型的初始记忆架构,包括:

将记忆线索转化为可搜索请求的查询模型、用于粗粒度检索的检索模型、全模态索引模型、用于细粒度细节提取的选择模型、用于记忆监控的反思模型,以及用于记忆重构的重建模型。

记忆检索过程可分解为以下关键步骤:

1、记忆线索:激发回忆过程

回忆通常始于线索。线索可以是外部的,如问题、旧照片、旋律、气味、地名;也可以是内部的,如念头、情绪。当大脑接收线索时,会激活与目标记忆相关的特定神经网络。

在系统中,采用查询模型将线索(主要为基于文本的线索)转化为具体的、可搜索的内容,涉及文本解析和转录等步骤,将线索转化为适合后续处理的格式。

2、粗粒度检索:初步 “筛选”

激活过程并非总是精确的,初始检索往往粗略且泛化。大脑快速搜索海量信息,寻找与当前线索最匹配的模式,一些相关的视觉片段可能会被初步激活,此为 “线索依赖性回忆”。

在系统中,使用检索模型进行粗粒度检索。对于上一步解析的查询对象,检索模型选择合适的数据库和查询方法,识别所有相关片段,减轻 “线索依赖性回忆” 的影响,并激活所有相关视觉片段。

3、细粒度细节提取:深度 “阅读” 与 “编辑”

当初始线索激活相关区域后,大脑进入更精细的处理阶段,记忆的重构特性开始显现:

细节补全:大脑填补记忆的细节,这些细节可能基于对世界的理解、逻辑推理和过往经验推断补充。

关联整合:大脑将不同信息片段(如视觉图像、听觉片段和情绪波动)关联整合,形成更完整的记忆图景。

过滤选择:大脑根据当前目标和问题,从所有激活信息中过滤出最相关和最重要的片段,具有高度目的性。

在系统中,使用全模态字幕模型和选择模型进行细粒度细节提取。对于所有视觉片段,全模态字幕代理结合记忆线索为关键核心内容添加字幕。选择代理基于所有已字幕内容进行推理,筛选出若干最相关的视觉片段,缩小记忆搜索范围,基本完成视觉记忆检索过程。

4、记忆监控:记忆的 “自我校正”

回忆过程中,大脑会监控和验证检索到的信息,评估其准确性和真实性,包括将其与现有的知识、信念和其他相关记忆进行比较。若回忆信息与已知事实相矛盾,可能会尝试进一步回忆或修正。

在系统中,使用反思模型进行记忆检测和验证。当检索到的记忆内容与事实冲突或不一致时,会重新进入细粒度细节提取阶段。

5、记忆重构:从碎片到 “精修版”

回忆复杂事件时,大脑倾向于提取事件的核心要点、主要参与者和关键结果,过滤掉较不重要或冗余的信息,将其概括为更易存储和检索的形式。重构过程还涉及将分散的记忆碎片整合成有意义的模式,组织成连贯的叙述或概念。

在系统中,使用重建模型进行记忆重构。基于记忆线索和所有当前检索到的信息,识别信息模式,利用世界知识和逻辑推理补全缺失细节,过滤和精炼无关或冗余信息,将分散的感知、概念和情感片段整合成连贯、有意义的叙述或概念结构。

04.

结语:或将成为AGI发展的重要节点

沈俊潇在博客中称“这是在通用人工智能(AGI)发展中的一步。”

Memories.ai此次推出的大型视觉记忆模型,在技术路径上以人类大脑的记忆机制为参照构建了初始架构,其具备的视觉记忆检索、整合及推理能力,在视频分类、检索、问答等基准测试中展现出一定性能优势。

而800万美元种子轮(约合人民币5730万元)融资的完成,也体现了投资机构对该技术方向的关注。

本文来自微信公众号“智东西”(ID:zhidxcom),作者:王涵,编辑:漠影,36氪经授权发布。

+1
1

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业