Agent 热潮年度回望：一切火爆早有预兆

36氪的朋友们·2026年02月09日 15:59

协议在演进、skills在扩张、memory在巩固、垂直应用在试水

本文为《智能体·新世界》系列策划的第四篇，聚焦 2026 年开年以来 Agent 的突然提速，从一名AI行业从业者的视角出发，系统回顾过去一年，究竟是哪些关键变量共同推动了 Agent 的集中爆发。

有一次在湾区一个饭局上，有人半开玩笑地说，去年讨论 Agent 的气氛，像 1999 年谈互联网。那种“历史正在发生”的语气，空气里都带电。

当时大家讲的不是产品，是未来组织结构，是人类的角色转移。有人已经在认真讨论，未来公司的主体可以由一组 Agent 组成，人类只做监督。超级个体与一人公司（OPC）的概念开始映入现实。

我记得当时有个做企业系统的人突然插了一句：“能不能让它先稳定跑一个月再说。”

那句话后来我反复想。曾几何时，也就一两年前吧，Agent 还是“五步不过冈”（超过五步的执行链条就无法保证了）。

01 收敛

过去这一年，曾被称为 Agent 元年，Agent 这个词被反复提起，与推理强化一起形成一次范式跃迁。模型突然不只是聊天，它开始“做事”了。能规划，能拆解任务，能调用工具，甚至能自己写代码。那种感觉确实像一个拐点——软件从此不再只是被点击，而是会主动行动。

那时候的语气是高的。多智能体社会、自治系统、AI 员工、数字组织结构重构……讨论的尺度一下子被拉大。AutoGPT、multi-agent、各种自治叙事，像一场技术狂欢。很多人相信，我们正在目睹一个类似移动互联网诞生的瞬间。

但当你把它放进真实环境，兴奋感会迅速被工程细节吞没。真正把这些系统接入生产环境的人，很快发现兴奋背后有另一面。模型会偏航，权限边界模糊，长任务不稳定，成本不可预测。你不知道它什么时候会多想一步，也不知道它什么时候会漏掉关键的一步。它可以写一段漂亮的代码，也可能漏掉一个边界条件；它能跑一个长任务，但中途如果出错，你很难判断问题出在哪里。那种不确定性，不适合放进严肃的工作流里。

最微妙的问题是，它足够聪明，更像人，却不像系统。系统的美在于可预期。人的魅力与软肋在于不可预期。Agent 一开始就自然偏向了它的创造者。

02 协议建设

Agent方向第一波系统性尝试，其实来自协议，尤其是MCP和A2A。

MCP 想做的事情其实非常有雄心——为模型接入工具和数据建立一种统一方式和接口。A2A 更进一步，希望Agent 之间可以跨平台协作。

它们背后的愿景非常清晰——如果接口统一，生态自然扩展；如果通信标准化，Agent 才可能真正“组网”。这是为 Agent 时代铺设互联网底层。MCP/A2A 常被类比成 Agent 时代的 TCP/IP。

TCP/IP 统一了互联网时代的网络通信方式，Web 和移动互联网才真正爆发。如果 Agent 之间、模型与工具之间拥有统一协议，生态是否也会在其上自然生长？但TCP/IP 出现时，物理网络已经稳定，通信需求高度一致。而 Agent 面对的是复杂多样的工具体系、权限约束与商业边界。它不是在一张已经铺好的网线上统一协议，而是在一张仍在扩张的认知网络上尝试建立秩序。

可协议从来不是一夜成熟的。版本在变，厂商立场不同，实现也不完全一致。你能感觉到一种谨慎——大家都明白标准的重要，但没有人愿意把命运完全交给还在生长中的规范。

图：MCP（左）和A2A（右）对比

03 架构分层：从场景应用到能力单元

转折并不是某个发布会，而是一种气氛的变化。

一年过去，热闹渐退，Agent 的形态反倒清晰了。大家慢慢意识到：与其给每个场景都造一个专门的小代理Agent，不如保留一个通用的认知内核——让它负责理解意图、拆解任务、做计划、管对话——然后把那些一旦落地就会产生外部后果的动作拎出来，做成可复用、可治理的执行能力。换句话说，Agent 变成一套“认知 + 执行”的组合体：上层允许灵活推理，下层必须可控落地。

于是所谓“架构分层”重新回到台面，这是被现实逼出来的分工，包括认知层、技能层连接层和持续层。LLM作为认知层，天生带着不确定性，擅长想办法、做权衡。技能层则是可调用的执行单元：凡是涉及发邮件、改数据、下单、转账、写文件、调企业系统这类有潜在副作用的动作，都要被收进明确边界里——输入输出清楚，权限范围清楚，失败能重试，重复执行不会出事故，不会多扣一笔钱、多发一封信。

连接层负责把这些技能接到外部世界：数据库、SaaS、企业内部系统、浏览器、终端命令行——这些是“手”和“接口”。最后是所谓“持续层”，管“状态与记忆”：任务跑到哪一步了、断点续跑所需的状态、长期记忆与必要的知识缓存，都落在这里。模型不再承担一切，它退回到“决策者”的位置；执行的确定性、合规性、可控性，被系统层接管。

很多人把这个阶段的象征押在 Claude Code 上。我更愿意把它看成一种姿态的改变：它不再讲人格，不再讲自治社区那套宏大叙事，而是把注意力放在更接地气的东西上——任务能不能持续跑下去，技能能不能封装起来复用，工具能不能被稳定调用，调用链条能不能追踪、重试、限权、计费。它把 Agent 从舞台中央拉回到工作台。

在这个过程中，一个旧词重新获得了意义——skills（技能）。

如果回到 Alexa 时代，skill 是规则插件，是在语义能力不足的前提下，对语言理解做垂直补丁。每个 skill 是一个小岛，依赖意图分类与模板匹配，维护独立状态。为了各种不同的问答场景，需要构建千千万万独立的skills，问天气、问股票、问时间等等。

在大模型时代，skill 被重新定义。理解被中心化到模型。skill 不再负责“理解”，它只是技能层中的执行单元——一个可调用、可约束、可审计的 action primitive。连接与状态管理仍由系统层承担。模型负责决策，Skill 负责动作，系统负责边界。

什么叫“可调用、可约束、可审计”呢？或问：API 不也可以被 LLM 调用吗？那 Skill 到底新在哪里？是不是不过把 API 换了个名字？

图：Skill图解（AI辅助生成）

还是拿具体场景为例。

假设用户说：“帮我分析最近三个月 Tesla 的股价走势，如果有异常波动解释一下，并生成一张图。”

在传统 API 结构里，哪怕是 LLM 参与，通常是这样的：程序员预先写好流程。先调获取数据接口，再调分析接口，最后调绘图接口。LLM 可能只负责填参数。流程是写死的。失败怎么办？整段重跑。出现分支怎么办？提前写好判断逻辑。组合能力存在，但组合顺序在代码里，而不在模型里。

API 是工具，流程属于程序员；Skill 仍然是工具，但流程开始被模型掌握。

系统内部不再只有“接口”，而是有一个技能注册表。获取数据、趋势分析、生成图表、生成解释——这些技能被明确描述、被登记、被纳入一个可见的技能空间。模型在规划阶段生成的是一份抽象计划：先获取数据，再分析趋势，如果波动超过阈值则生成解释，最后生成图表。顺序不再预写，而是在运行时决定。

注意这里的变化：API 时代，组合逻辑写在代码里；Skill 架构下，组合逻辑在模型的规划里。

这不是“API 换皮”，而是控制权的迁移。

再往深一点看。假如系统里有两个趋势分析技能——一个快但粗略，一个慢但精细。在传统结构里，你必须提前决定调用哪个版本。Skill 框架下，模型可以根据对用户提示中关于速度或精度的理解进行选择。技能成为可被比较的对象，而不是固定调用的函数。

再比如失败处理。如果某一步返回异常，调度层可以重试该技能，而不是重跑整个流程。系统可以统计每个技能的成功率、延迟和成本，把这些信号回流到编排里，逐步优化技能组合——说白了，API 时代也能做这些统计，只不过那更多是给运维看的：看服务活没活、慢不慢。

到了 skills 这一套，统计开始变成“给调度用的”：它不仅告诉你哪个接口不稳、慢了、错了，还能看清这一步一旦出问题，会把整条任务链路拖成什么样——是局部卡顿，还是连锁失败，还是需要立刻切换备选路径。

这才是 Skill 真正站得住的地方。当然，这套技能级观测与优化的闭环，目前更多存在于领先团队的实践中，还远未成为大规模标准化现实。但结构已经具备，剩下的只是规模与时间。

API 本质上是给程序员用的。Skill 是被模型规划的。前者假设人类写流程。后者假设模型生成流程。一旦组合权从程序员迁移到模型，技能的意义就发生了变化。它不再只是代码库中的函数，而是技能图中的节点。Skill 的价值，不在它比 API 更高级，而在它让“运行时组合”成为可能，同时仍然保持工业边界。理解仍然由大模型承担，执行开始有清晰的约束。这一步，看似保守，其实是工业化。

一个成熟的 skill，至少意味着三件事：输入输出是结构化的（定义了schema）；执行是可重试、可回滚的；权限是隔离的，状态是可审计的。你可以限制它的访问范围，可以记录它的调用链，可以为它计费，可以随时撤销它的权限。这些听上去一点都不性感，却是企业真正关心的东西。

它不像革命，更像基础设施建设。某种意义上，skill 是一种折中，是在标准尚未成熟之前的现实妥协。有一次听一位工程师说：“协议是理想主义，skill 是现实主义。” 就是这个意思。

或许两条路线终会合流。但目前，它们更像不同时间尺度上的试探：一个在设计未来的秩序，一个在支撑当下的落地应用。

04 技能密度

如果只是把 skill 理解为架构收敛，那还是低估了它。真正值得注意的，不是我们如何组织技能，而是技能如何开始形成密度。

过去两年谈大模型，我们几乎离不开参数规模、榜单成绩、推理分数。仿佛模型越强，生态自然跟上。但当模型能力逐渐进入同一量级，分差开始变得细微——97 分与 95 分的差别，很难再决定命运。那时候，问题悄悄换了一个方向：不是谁更聪明，而是谁背后站着更多真实可用的技能。

想象两个认知层几乎等价的模型。一个背后有二十个高质量 skill，另一个背后有两百个。前者能解决二十类问题，后者则可以在这些技能之间自由拼接、叠加、递归组合。二十个技能是工具箱；两百个技能，是图谱。工具箱解决问题，图谱开始创造路径。

技能一旦被模块化，它的价值就不再是线性的，而是网络化的。新增一个技能，不只是多一种用途，而是多出若干种组合可能。密度越高，组合空间越大，系统的“解题维度”也越多。这才是技能密度的真正含义。

移动互联网时代的经验其实早已给过提示。决定平台胜负的，并不是操作系统内核本身，而是应用数量、分发效率、支付体系与开发者活跃度。内核差异存在，但真正形成飞轮的是生态。当基础能力逐渐趋同，竞争自然转向外围的网络结构。Agent 时代未必合适做完全类比，但方向上的相似已然浮现。

于是，关键问题不再是 skills 有多少，而是它们之间能不能流动。能不能被检索？能不能被不同模型规划？能不能跨系统复用？如果技能只是堆在某个平台内部，那只是库存；只有当它们开始彼此连接、彼此调用，密度才会转化为网络效应。到那时，模型反而退到幕后，成为驱动能力网络运转的认知引擎，而不是舞台中央的主角。

这也是为什么协议和 skill 看似分岔，却可能指向同一个终点。协议更像公路标准，skill 像车和货。没有统一标准，技能难以跨域迁移；但没有真实技能，标准也只是空架子。眼下行业更像是先让车跑起来，再慢慢铺路。两条路线不是对立，而是不同节奏下的推进。

最后，那个大家期待的“App Store 时刻”还有多远？

移动互联网真正爆发，是因为分发体系成熟，支付打通，用户规模到位，超级应用出现。Agent 还没有迎来这样的节点。没有大规模的第三方能力市场，没有稳定分发的 skill 商店，也没有形成网络效应的爆款应用。Agent 现在更像移动互联网早期——有 SDK，有开发热情，但还没有形成生态飞轮。

真正的拐点可能不是几个应用的走红，而是一种结构的固化——某些技能节点开始被高频复用，某些组合路径成为默认范式，某个技能图谱逐渐变成事实标准。当技能密度高到一定程度，迁移成本自然升高，生态便悄悄形成壁垒。

垂直行业的爆发似乎一直在“即将发生”。法律、医疗、金融、教育……效率提升在发生，但结构性重塑还没有真正显现。责任边界、监管约束、数据壁垒，这些都比移动互联网复杂得多。

也许 Agent 不会以移动时代的形式爆发。它可能不是一个商店，不是一个下载按钮，不是一个用户主动选择的前台应用。它更可能以skill的形式嵌入既存系统，以后台能力的形式存在。你甚至不会意识到自己在使用 Agent，但系统已经被悄悄重写。

05 Memory：任务连续性的保障

Memory可能是这一年最容易被低估的进展。

早期的 Agent 最大的问题，不是不聪明，而是短命。一次对话里很聪明，换一个窗口就失忆。企业环境下，这几乎是致命的。你无法建立长期协作关系，无法积累项目语境，无法形成持续的上下文。所有任务都从零开始，所有协作都像第一次见面。

memory 的加入，不只是为了“更懂用户”，而是为了保障任务连续性。当 Agent 开始记住偏好、约束、历史项目、上下文背景，它才真正从一次性推理工具，变成持续存在的系统。当系统开始“有历史”，它才真正具备组织价值。

但在讨论 memory 之前，需要把几个常被混淆的概念拆开。长上下文、RAG、持久状态，常常被笼统称为“记忆”，但它们其实处在不同层次。

长上下文更像 working memory——它扩展的是模型在当前任务中的注意力范围。窗口越大，模型能在一次推理中考虑的历史越多。但它仍然属于“当下”。一旦任务结束，注意力就消散。

RAG 更像外部存储的检索机制——当模型需要某些信息时，从知识库中调取资料。它解决的是“查阅”的问题，而不是“持续”的问题。它让系统在需要时能找到过去的信息，却并不自动形成时间连续。

真正意义上的 memory，是持久的（persistent）。它至少涉及三层结构。

第一层是任务状态。任务跑到哪一步？哪些子步骤已经完成？是否可以断点续跑？这决定了系统是否具备持续执行能力，而不是每次失败都从头再来。

第二层是长期语境。用户偏好、组织约束、历史项目、权限边界——这些不应在每次对话中重复解释，而应成为系统可更新、可检索、可继承的背景。它减少重复解释的成本，可以在多任务之间共享背景，可以在组织内部形成稳定的协作节奏。

第三层是行为轨迹与决策历史。系统过去在类似场景中选择了什么路径？哪些能力组合更可靠？哪些尝试曾经失败？这已经开始接近一种“经验结构”。不是简单存储信息，而是积累行动模式。

当这三层逐渐成形，Agent 才真正拥有时间持续性。它不再只是一个即时推理引擎，而开始成为持续体。它的价值不再体现在单次回答的聪明程度，而体现在长期协作中的稳定性与积累性。

当然，这条路径仍然早期。长上下文依然昂贵，RAG 仍然粗糙，长期记忆的更新与遗忘机制尚未成熟。更棘手的是，记忆不仅带来效率，也带来风险。错误会不会被固化？偏见会不会被积累？系统是否需要主动遗忘？在持续体的世界里，遗忘和记住往往同样重要。时间既是资产，也是负担。

如果说 skill 解决的是行动边界，技能密度解决的是横向组合，那么 memory 解决的，是持续性。没有持续性，Agent 永远只是聪明的工具；一旦有了时间，它才可能成为组织的一部分。

06 开源大模型的重要性

还有另一条线索，在全球悄悄改变力量结构——那就是中国开源大模型的角色。

过去一年，如果只盯着闭源巨头，很容易忽略开源模型的跃迁速度。千问、Kimi、Step等模型开始频繁出现在开发者真实工作流里。不只是聊天测试，而是跑代码、跑 Agent 任务、跑多模态处理。

阶跃星辰春节前发布的 Step 3.5 Flash，是一个有象征意味的节点。

它的意义不在“参数更多”，而在方向感。它采用了稀疏混合专家（MoE）结构：1960 亿总参数，每次只激活约 110 亿。不是盲目扩张，而是强调效率与结构。

当传统模型用线性注意力硬撑长上下文时，它采用滑动窗口与全局注意力的混合方式。像读推理小说，大部分注意力集中在当前段落，但关键伏笔可以被快速召回。

当逐 token 生成成为默认路径时，它引入多 token 并行预测，提高速度。

这些改变，恰好对应 Agent 时代的核心需求：更长上下文、更低延迟、更稳定的逻辑执行。

Agent 不是聊天机器人。它需要等待工具执行，需要在多轮任务中保持一致性，需要在长上下文下快速响应。

更有象征意义的是，本地部署。

当一个 256K 上下文的模型，可以在 128GB 内存的 MacBook 上运行时，权力结构开始变化。Agent 的“原生大脑”不再完全锁在云端 API 里。开发者可以在终端侧构建私有工作流。这是一种终端平权。

开源在这里变得关键。垂直行业不会轻易把核心流程托付给闭源黑盒。医疗、金融、法律，需要可控、可调优、可部署的基座。

开源模型降低了实验门槛，也降低了创新门槛。很多垂直 Agent 的试验，正发生在这些模型之上。

写在最后

有时候我会想，这一年真正的变化，不在技术指标上，而在心态上。我们不再问：“它像不像个员工？” 我们开始问：“它能不能长期、稳定、可治理地做事？” 这是一个从幻想走向结构的过程。

协议还在演进。skills 在扩张。memory 在巩固。垂直应用在试水。一切都在进行，时间还不足以让它们马上成熟。

如果说这一年教会我们的是什么，也许是这一点：技术革命往往不是轰然到来，而是慢慢嵌入。当你意识到它已经成为结构的一部分时，它才真正发生。

雾还没有散。但轮廓已经出现。

本文作者立委博士，多模态大模型应用咨询师、出门问问大模型团队前工程副总裁、Netbase前首席科学家。

本文来自微信公众号“腾讯科技”，作者：立委博士，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。