滴普科技赵杰辉：记忆，是智能体的“灵魂”

时氪分享·2026年05月08日 14:22

Token 经济时代下，企业级 AI 落地的一条主线。

作者：赵杰辉滴普科技创始人、执行董事、董事会主席兼CEO

AI+ 产业深入落地，是一道经济学题—— 每一个 token 创造的生产力价值，能不能大于它消耗的算力成本。而决定这道题如何算平的，也许不仅是模型—— 还有一个变量：智能体的记忆机制。

这是我作为滴普科技创始人的一份产业观察。文中关于其他平台的描述，都来自其公开文档、官方发布与学术论文，可逐一查证；关于滴普的部分，主要在文章的后半段。

一·我们一直忽视了一个问题

从 2023 年到 2026 年，关于 AI 的讨论，主旋律一直是"模型"——模型更强、跑分更高、上下文更长、推理更准。但有一个事实，你只要做企业 AI 落地就一定会遇到：模型变强，并不直接等于企业的专业岗位能用上 AI 员工规范的执行。

为什么？我自己的体会是：AI 产业化要走通，归根到底要回答一道经济学题——

每一个 token 在价值端创造的生产力价值，能否大于在成本端它所消耗的算力、人力、运营成本。这就是 "token 经济" 的根本约束。

过去三年大多数企业关于深度的专业岗位 AI 落地挑战，根本原因不是模型不够强，是 token 创造的价值依然不够。这道题要算平，单纯靠 token 单价下降是不够的，第一性原理是在企业具体场景中把 token 的"生产力的价值密度"拉上来。

企业搭建的 AI 平台，要让每个 token 真正产出业务价值，需要面对的因素非常多——企业治理、模型智力与规划能力、数据质量、组织协同等等。但在模型工程层面，有一个变量被严重低估了：

大模型本质上是无状态的。每一次 API 调用都是独立的——它不记得上一次的对话，不记得用户是谁，不记得这家公司的业务，不记得你昨天告诉它的那条业务规则。

模型的"知识"被冻结在训练参数里，对话过程中产生的所有信息，在 API 返回的那一刻就消失了。一个无状态的系统，要想成为企业里的"员工"，就必须有记忆——员工的核心特征之一，是"知道自己是这家公司里的一个具体岗位"。

从无状态的大模型到有状态的智能系统，中间是靠什么连接的？答案是——记忆机制。智能体平台过去三年的工作，归根到底，很大一部分都是在做这一件事：给无状态的大模型，造一个能用的记忆系统。

而记忆机制的好坏，直接决定了 token 经济等式的两端：好的记忆机制让 AI 真正"理解这家企业的具体知识基础"，每个 token 的业务价值密度成倍上升；糟糕的记忆机制让 AI 反复重读重算，每个任务消耗的 token 成倍放大。同样的算力账单，能不能换回真正的业务产出，记忆机制是其中一个关键变量。

记忆机制的代际跃迁，是一个被低估的产业变量——也是这篇文章想试着讲清楚的事情。

二·第一代记忆：早期 LangChain、Dify 的"会话级记忆"

第一代的代表是早期的 LangChain 和早期的 Dify。

Dify 是开源智能体平台早期最具代表性的产品之一，它解决了 2023 年那个时点最迫切的工程问题：让 LLM 在多轮对话里"不要忘记上一句话"。Dify 的解决方案就是为每个会话维护一个对话历史缓冲区，按 token 计数动态截断，自动注入到下一次 LLM 调用的 prompt 里。Dify 文档里清晰地写着这个机制的硬性边界：最多 2000 tokens 和 500 条消息，超出就自动截断。LangChain 早期也是同一思路。

在 2023 至 2024 年的产业语境里，这是一个伟大的开源贡献——它让数十万开发者得以在数小时内构建一个可用的对话型 AI 应用。但放在企业级 AI 的语境里看，会话级记忆有一个天然的边界：

会话结束，记忆基本随之消失。每一次新会话，智能体都从零开始——它不积累，也不沉淀。

对企业来说，这不是一个工程小问题，是一个根本性的问题。企业最有价值的资产之一，是 know-how、规程、经验、客户档案。如果智能体每次会话都"失忆"，企业的知识资产就缺乏一个长期的载体。这也是为什么 2024 至 2026 年间，市场上出现了不少为这一代平台补充"跨会话记忆"的第三方服务——MemU、Mem0、Letta（前身 MemGPT）等。Dify 自己也在文档里坦诚提到："工作流自动化的规模已经达到 1.4 million machines，但缺乏共享记忆。"

第一代解决了"对话连续性"，这是一件了不起的事。下一代要解决的，是"任务连续性"。

三·第二代记忆：Manus 与 DeepResearch 的"任务级记忆"

第二代记忆的代表是 2025 年迅速走红的 Manus，以及 OpenAI、Google 等推出的 DeepResearch 类产品所共享的范式。

Manus 解决的核心问题是：当一项任务需要数十次工具调用、数小时的连续推理、跨网页/文件/代码的复杂研究时，智能体如何把过程中的中间结果、推理路径、外部信息组织起来，不被上下文窗口限制击穿。

Manus 的做法是把记忆从"会话缓冲"升级为"任务级工作空间"：在沙箱中维护文件系统、检索摘要、中间产物的层级化记忆，配合任务规划与回溯，让智能体在长任务里"记得自己在做什么、走到哪一步、看过哪些资料"。OpenAI 的 DeepResearch、Google 的 Deep Research 在思路上同源——都是围绕"一次复杂研究"的生命周期构建短中期记忆。

相对第一代会话级记忆，这是一次实质性的进步——智能体第一次能在数小时跨度的任务中保持连贯。这一代记忆机制有它清晰的设计目标，也有相应的边界：

它面向的核心场景是"帮一个用户完成一次复杂研究"——任务结束，工作空间随之归档或清理，跨任务的知识沉淀不是它的设计目标；它服务的是通用研究场景，没有内置企业知识的本体结构、约束规则、权限模型；它在长任务中的 token 消耗会显著放大，在企业大规模并发场景下成本控制有挑战。

企业的需求和这条产品线的设计目标，并不完全重合——企业要的不是"做完一件复杂的事"，而是"一群智能体，在一家公司里长期、规范、安全地工作"。

四·第三代记忆：OpenClaw 与 Hermes Agent 的"持久化记忆"

第三代记忆的代表是 OpenClaw 和 Nous Research 在 2026 年开源的 Hermes Agent。它们要解决的问题更进一步：让记忆跨任务、跨会话长期持久存在，并且能够"自我进化"。

OpenClaw 把记忆变成可持久化的工件。它选择用"结构化文本文件"作为记忆载体：MEMORY.md 记录持久事实、用户偏好、项目状态；AGENTS.md 是智能体启动序列与角色定义；SKILL.md 沉淀可复用的技能脚本——智能体在完成复杂任务后会自动创建新的 SKILL.md，实现技能的"积累"。这套设计的哲学很清晰：让记忆变成可以读、可以改、可以提交到 Git、可以团队共享的工件，这是从"情景记忆"走向了"程序性记忆"。

2026 年 2 月，Nous Research 开源了 Hermes Agent，是当前学术与工程界在记忆架构上做得较深入的开源智能体框架之一。它的核心理念被 Nous Research 写在主页最显眼的位置：

The agent that grows with you. （一个与你共同成长的智能体。）

—— Hermes Agent · Nous Research

Hermes 的记忆架构由三层叠加构成：上下文压缩层（接近窗口上限时自动 LLM 摘要压缩历史）；SQLite + FTS5 全文索引层（所有历史会话存入本地数据库，支持跨会话语义召回）；MEMORY.md 持久层 + Honcho 用户模型（继承 OpenClaw 的 markdown 持久记忆模式，但额外增加辩证式用户建模）。Hermes 引入了"自我改进"的闭环：智能体能在执行复杂任务后自动总结生成新的 SKILL，发现已有 SKILL 过时或错误时主动修订，定期"提醒自己"持久化重要知识，并通过 Honcho 持续"假设-验证-修正"对用户的理解。这把记忆从"被动文档"升级为"主动演化的认知系统"。

OpenClaw 和 Hermes 让记忆真正跨越了任务边界，第一次实现了"持久化"和"自进化"。

而当我们试图把这一代范式直接放到企业大规模落地的语境里，会遇到几个需要继续解决的工程课题。这些课题不是这一代设计目标的核心，但恰好是企业级落地必须回答的：

一是结构化推理。文本文件本质是扁平字符串。"客户 A 的设备 B 在去年 6 月发生过故障 C"存在 MEMORY.md 里只是一行文字——智能体不容易回答"这个故障与哪些其他故障相关"或"这类设备的历史故障率分布如何"，因为这些回答需要跨实体的因果推理，结构化推理的能力天然依赖于知识本身的结构化表示。

二是 token 经济性。学术研究（arxiv 2603.00902）显示，文件式记忆框架在很多场景下存在数倍的 token 放大——每次会话都要重新加载 SKILL.md / MEMORY.md / AGENTS.md，叠加文档膨胀和工具输出污染。这对个人开发者影响有限，但在企业大规模并发场景下，单位 token 的业务价值密度需要进一步优化。

三是写回与冲突管理。让智能体自主决定"写入什么"，需要配套的写回质量校验与知识冲突管理机制。社区也意识到这个课题，发展出了 ClawMem、claude-mem 等"记忆蒸馏"插件来补充。

四是组织视角与合规。Hermes 的"成长"是围绕一个用户的偏好和工作流，而组织级智能体面对的是"几千名员工 + 几十万实体 + 复杂业务规则"，这是数量级的差异；权限模型、审计日志、监管合规这些企业级能力，也不是这一代开源框架的核心交付物——这并不是它们的设计缺陷，只是它们设计目标之外的事。

从第一代到第三代——每一代都在解决前一代的问题，每一代都是真正的进步。但有一个共同点：它们都在文档/向量/会话日志这个范式内做工程优化。无论是 buffer、任务工作空间、markdown，还是 FTS5 索引——记忆载体本质都是"通用形式"，企业知识必须被翻译成这种通用形式才能被记住。而企业知识的本来面目，其实早有实践——就是本体逻辑。翻译，就会有损。

五·产业其他玩家正在收敛于哪里

一个判断如果只来自一家公司，那是观点；如果来自学术界、产业界几个独立团队的同时收敛，那就更接近趋势。

在思考智能体记忆机制需要从"文档/向量"转向"结构化、可推理"这件事之后，我开始留意其他团队在做什么——同一个方向，正在不同的团队里被独立地提出与验证。

Glean——把企业图谱（Enterprise Graph）作为 Agent 的工作上下文。Glean 在 2025 年 12 月发布的第三代平台 "Enterprise Context"，将记忆、连接器、索引、个人图谱（Personal Graph）、企业图谱（Enterprise Graph）和治理整合到一起，作为自主智能体的统一上下文层。Glean 的设计哲学是：智能体的记忆不是"文档堆"，而是"一家公司里人、文档、概念、动作之间的关系图"，并叠加权限与治理。Glean 在企业级 Agent 平台中已经规模化部署。

Snowflake / Databricks 等数据平台——在数据之上构建语义层（Semantic / Ontology Layer）。Snowflake 在 2025 年的研究指出，在企业数据 Agent 中引入"本体层"（ontology layer）后，回答准确率有显著提升、工具调用次数明显减少——他们在博客中称这一层为 "semantic understanding layer between users and their data"。Databricks 的 AI/BI Genie、Snowflake Cortex Agents 都在朝同一个架构收敛：在数据与 LLM 之间显式插入一层语义/本体表示。

学术界的方向同样清晰。arxiv 2604.20795 直接提出："自动本体构建作为 LLM 的外部记忆、验证、规划层"，并论证这种架构是"构建企业级 AI 系统、机器人系统等需要持久知识、可解释性、可靠决策的应用的基础"。

没有人约好——但 Glean、Snowflake、Databricks、滴普以及学术界—— 都在朝同一个方向收敛：智能体记忆的下一代，需要走向结构化、可推理、本体驱动。

几个独立团队不约而同地走向同一个方向，通常说明这是一个真实的趋势。

六·第四代：滴普科技探索的"本体范式记忆"——以 Deepexi 企业大模型本身作为记忆载体

讲到这里，我必须把滴普科技的工作放进来。这是这篇文章的"立场披露"部分——我不是在做第三方陈述，我是在讲我们自己的选择。

从 2024 年至今，我们一直在构建 FastAGI 这个企业级智能体平台，并反复回到同一个问题——前三代记忆机制都不能直接用在我们想做的事情上。FastAGI 的设计目标是"承载一家成百上千甚至更大规模企业的真实知识体系"，这是前三代的设计目标之外的事。

我和团队最后做了一个非常基本的判断：

前三代的记忆载体都是"通用形式"——文本、向量、文档、索引。通用形式有一个根本问题：它需要把企业知识"翻译"成通用形式才能存储。那如果我们让记忆载体本身就是"企业知识的真实形态"呢？

"企业知识的真实形态"是什么？我们的认识是：本体（ontology）——实体、关系、规则、因果路径。这恰好是企业每天真实运行的逻辑：产品有 SKU 层级，规程有版本演化，客户有组织架构，故障有因果链，合规有约束规则。

于是 FastAGI 的设计走了一条与前三代不同的路：我们基于 400 多家头部客户的本体建模所积累的 know-how 作为高质量数据集，训练 Deepexi 企业大模型的本体建模能力，让 Deepexi 企业大模型本身成为 FastAGI 的记忆机制的交付组件。这一句话听起来简单，但它的含义有两层。

Deepexi 企业大模型，承载"静态"的本体记忆。Deepexi 不是把企业数据"存"起来，而是把企业的稳定知识（行业本体、业务规则、产品结构、规程框架、领域语义）"理解"成一个可推理的本体模型，编码进模型的参数。这是记忆载体的形态升维——从"文本/向量/会话日志"升维为"可推理的本体范式的大模型，以承载企业的具体知识"，记忆载体本身具备推理能力。它解决的是"这家企业的业务，从结构上看本来是什么样"。这是企业知识里相对慢变、规则化的那一层。

FastAGI 智能体工程，承载"动态"的演进记忆。业务每天都在变化——新客户、新工单、新故障、新规程、新约束。这些动态变化通过 FastAGI 的智能体工程进入系统：实时连接业务系统、捕获事件、进行本体一致性校验、写回知识图谱、触发权限审计与监管合规。前三代记忆机制中，"记忆"和"理解"是分开的：智能体先读取记忆（文档/数据库），再用通用模型去理解。FastAGI 让记忆与认知协同——Deepexi 提供本体推理的"骨架"，FastAGI 负责让骨架随业务"活起来"。它解决的是"这家企业的业务，从动态上看在如何演进"。这是企业知识里快变、增量化的那一层。这些动态的企业知识经过沉淀，又会被训练进 Deepexi 企业大模型——这构成了静态本体与动态记忆之间的闭环：业务在 FastAGI 中演进，演进的成果回流到 Deepexi，Deepexi 再以更精确的本体支撑下一轮的智能体工作。

我们把这个范式叫做"本体范式记忆（Ontology-Paradigm Memory）"，它具备五个企业级特性：动态持久性——企业知识在 Deepexi 中持久存在，且随业务变化动态更新；本体结构性——知识以实体-关系-规则-因果的本体结构存在；推理一致性——本体内置逻辑约束，记忆中的事实尽量自洽；企业语义精确——以企业真实业务语义存在，而非通用语义；Token 价值密度——本体注入精确语义，单 token 业务价值密度有提升空间。

为了让这套记忆机制真正运转起来，滴普科技沉淀了两类资产。一类叫 Deepology——企业本体语料高质量数据集，目前已沉淀 108 个业务本体集，覆盖五大行业的语义数据集。Deepology 是 Deepexi 的"营养"，每多服务一个客户、每深入一个场景，就多沉淀本体高质量数据集。另一类叫 Skills——FastAGI 平台的预置技能集，目前已积累 280+ Skills，组合形成 AI 员工的专业能力。Deepology 让 AI"懂业务"，Skills 让 AI"能执行"。两个飞轮交叉转动，是我们认为可持续的护城河。

回到 token 经济的根本约束——FastAGI 把 Deepexi 大模型作为记忆机制，本质上是在增量构建 token 经济等式的价值产出端：用本体范式让 token 更"懂业务"，用 FastAGI 编排让各类技能模型（Coding、视频、具身）按企业规则正确执行，用静态—动态的双层架构让企业的知识资产可沉淀、可演进、可复用。这不是一个理论命题，是我们和几百家企业客户落地过程中，被一个个真实的"业务账本算不过来"逼出来的工程选择。

七·这件事对产业意味着什么

如果"智能体记忆机制的代际演进"这件事被讲清楚了，我个人觉得它对中国企业级 AI 产业，可能有三层意义。

第一层是技术路径上的：智能体平台的下一阶段竞争，可能很大程度上是记忆机制的竞争。过去三年，行业的注意力主要在模型本身——参数规模、上下文长度、推理能力。模型之上的那一层——记忆机制是否适配企业知识的真实形态——也许会是决定企业级 AI 落地深度的更关键因素。

第二层是产业格局上的：通用模型与企业大模型，更可能是协同关系而不是替代关系。通用模型负责"通用智能"——理解语言、生成代码、调用工具、生成视频等，它解决的是 token 经济等式的"成本端"，不断把技能 token 单价压下来。企业大模型负责"企业本体记忆"——精确刻画一家企业的业务结构、规则、因果，它解决的是 token 经济等式的"价值端"，把单 token 的业务生产力密度提上来。两者协同，token 经济才能在企业级场景里真正成立。

第三层是产业窗口上的：本体资产的积累需要时间。一个客户场景的本体建模、一类业务规则的精确刻画、一类故障因果的完整沉淀——都不是一个季度能完成的工作，是 3 至 5 年的累积。这意味着今天在本体范式的企业大模型上投入的玩家，3 年后可能会建立起后来者较难追赶的壁垒。

过去 18 个月，行业一直在讨论"AI Agent 浪潮"。再过一段时间回头看，2026 年这个时间点上，决定 token 是否经济的，也许不仅是模型——还有记忆，智能体的"灵魂"。

八·写在最后

滴普科技 2018 年创立，到今天将近 8 年。我们从最早做企业本体数据治理（FastData 智能湖仓平台），到 2023 年开始做企业大模型（Deepexi）以替代 FDE 工程师的本体建模工作，再到 2025 年构建 FastAGI 企业智能体平台——这条路没有任何戏剧性，每一步都是被前一步推出来的。

做数据治理的时候，我们发现企业最难的问题不是"数据存在哪"，而是"数据是什么意思"——所以我们开始做本体建模。做本体建模的时候，我们发现没有一个推理引擎能让本体真正活起来——所以我们做 Deepexi 大模型。做完 Deepexi 大模型，我们发现单一模型无法构建一个 AI 员工——所以我们做 FastAGI 智能体平台。

文章里所有的判断，都是滴普视角的判断——读者可以认同、可以保留意见、可以有完全不同的看法。我希望它能为这场仍在进行中的讨论，提供一个稍微不一样的角度。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

滴普科技赵杰辉：记忆，是智能体的“灵魂”

AI+ 产业深入落地，是一道经济学题—— 每一个 token 创造的生产力价值，能不能大于它消耗的算力成本。而决定这道题如何算平的，也许不仅是模型—— 还有一个变量：智能体的记忆机制。

一·我们一直忽视了一个问题

每一个 token 在价值端创造的生产力价值，能否大于在成本端它所消耗的算力、人力、运营成本。这就是 "token 经济" 的根本约束。

大模型本质上是无状态的。每一次 API 调用都是独立的——它不记得上一次的对话，不记得用户是谁，不记得这家公司的业务，不记得你昨天告诉它的那条业务规则。

二·第一代记忆：早期 LangChain、Dify 的"会话级记忆"

会话结束，记忆基本随之消失。每一次新会话，智能体都从零开始——它不积累，也不沉淀。

三·第二代记忆：Manus 与 DeepResearch 的"任务级记忆"

四·第三代记忆：OpenClaw 与 Hermes Agent 的"持久化记忆"

The agent that grows with you. （一个与你共同成长的智能体。）

—— Hermes Agent · Nous Research

五·产业其他玩家正在收敛于哪里

没有人约好——但 Glean、Snowflake、Databricks、滴普以及学术界—— 都在朝同一个方向收敛：智能体记忆的下一代，需要走向结构化、可推理、本体驱动。

六·第四代：滴普科技探索的"本体范式记忆"——以 Deepexi 企业大模型本身作为记忆载体

前三代的记忆载体都是"通用形式"——文本、向量、文档、索引。通用形式有一个根本问题：它需要把企业知识"翻译"成通用形式才能存储。那如果我们让记忆载体本身就是"企业知识的真实形态"呢？

七·这件事对产业意味着什么

过去 18 个月，行业一直在讨论"AI Agent 浪潮"。再过一段时间回头看，2026 年这个时间点上，决定 token 是否经济的，也许不仅是模型——还有记忆，智能体的"灵魂"。

八·写在最后

最近内容

下一篇

滴普科技赵杰辉：记忆，是智能体的“灵魂”

AI+ 产业深入落地，是一道经济学题—— 每一个 token 创造的生产力价值，能不能大于它消耗的算力成本。 而决定这道题如何算平的，也许不仅是模型—— 还有一个变量：智能体的记忆机制。

一·我们一直忽视了一个问题

每一个 token 在价值端创造的生产力价值，能否大于在成本端它所消耗的算力、人力、运营成本。 这就是 "token 经济" 的根本约束。

大模型本质上是无状态的。每一次 API 调用都是独立的——它不记得上一次的对话，不记得用户是谁，不记得这家公司的业务，不记得你昨天告诉它的那条业务规则。

二·第一代记忆：早期 LangChain、Dify 的"会话级记忆"

会话结束，记忆基本随之消失。 每一次新会话，智能体都从零开始——它不积累，也不沉淀。

三·第二代记忆：Manus 与 DeepResearch 的"任务级记忆"

四·第三代记忆：OpenClaw 与 Hermes Agent 的"持久化记忆"

The agent that grows with you. （一个与你共同成长的智能体。）

—— Hermes Agent · Nous Research

五·产业其他玩家正在收敛于哪里

没有人约好——但 Glean、Snowflake、Databricks、滴普以及学术界—— 都在朝同一个方向收敛：智能体记忆的下一代，需要走向结构化、可推理、本体驱动。

六·第四代：滴普科技探索的"本体范式记忆"——以 Deepexi 企业大模型本身作为记忆载体

前三代的记忆载体都是"通用形式"——文本、向量、文档、索引。 通用形式有一个根本问题：它需要把企业知识"翻译"成通用形式才能存储。 那如果我们让记忆载体本身就是"企业知识的真实形态"呢？

七·这件事对产业意味着什么

过去 18 个月，行业一直在讨论"AI Agent 浪潮"。 再过一段时间回头看，2026 年这个时间点上，决定 token 是否经济的， 也许不仅是模型——还有记忆，智能体的"灵魂"。

八·写在最后

最近内容

下一篇

AI+ 产业深入落地，是一道经济学题—— 每一个 token 创造的生产力价值，能不能大于它消耗的算力成本。而决定这道题如何算平的，也许不仅是模型—— 还有一个变量：智能体的记忆机制。

每一个 token 在价值端创造的生产力价值，能否大于在成本端它所消耗的算力、人力、运营成本。这就是 "token 经济" 的根本约束。

会话结束，记忆基本随之消失。每一次新会话，智能体都从零开始——它不积累，也不沉淀。

前三代的记忆载体都是"通用形式"——文本、向量、文档、索引。通用形式有一个根本问题：它需要把企业知识"翻译"成通用形式才能存储。那如果我们让记忆载体本身就是"企业知识的真实形态"呢？

过去 18 个月，行业一直在讨论"AI Agent 浪潮"。再过一段时间回头看，2026 年这个时间点上，决定 token 是否经济的，也许不仅是模型——还有记忆，智能体的"灵魂"。