Agent 热潮年度回望:一切火爆早有预兆

36氪的朋友们·2026年02月09日 15:59
协议在演进、skills在扩张、memory在巩固、垂直应用在试水

本文为《智能体·新世界》系列策划的第四篇,聚焦 2026 年开年以来 Agent 的突然提速,从一名AI行业从业者的视角出发,系统回顾过去一年,究竟是哪些关键变量共同推动了 Agent 的集中爆发。

有一次在湾区一个饭局上,有人半开玩笑地说,去年讨论 Agent 的气氛,像 1999 年谈互联网。那种“历史正在发生”的语气,空气里都带电。

当时大家讲的不是产品,是未来组织结构,是人类的角色转移。有人已经在认真讨论,未来公司的主体可以由一组 Agent 组成,人类只做监督。超级个体与一人公司(OPC)的概念开始映入现实。

我记得当时有个做企业系统的人突然插了一句:“能不能让它先稳定跑一个月再说。”

那句话后来我反复想。曾几何时,也就一两年前吧,Agent 还是“五步不过冈”(超过五步的执行链条就无法保证了)。

01 收敛

过去这一年,曾被称为 Agent 元年,Agent 这个词被反复提起,与推理强化一起形成一次范式跃迁。模型突然不只是聊天,它开始“做事”了。能规划,能拆解任务,能调用工具,甚至能自己写代码。那种感觉确实像一个拐点——软件从此不再只是被点击,而是会主动行动。

那时候的语气是高的。多智能体社会、自治系统、AI 员工、数字组织结构重构……讨论的尺度一下子被拉大。AutoGPT、multi-agent、各种自治叙事,像一场技术狂欢。很多人相信,我们正在目睹一个类似移动互联网诞生的瞬间。

但当你把它放进真实环境,兴奋感会迅速被工程细节吞没。真正把这些系统接入生产环境的人,很快发现兴奋背后有另一面。模型会偏航,权限边界模糊,长任务不稳定,成本不可预测。你不知道它什么时候会多想一步,也不知道它什么时候会漏掉关键的一步。它可以写一段漂亮的代码,也可能漏掉一个边界条件;它能跑一个长任务,但中途如果出错,你很难判断问题出在哪里。那种不确定性,不适合放进严肃的工作流里。

最微妙的问题是,它足够聪明,更像人,却不像系统。系统的美在于可预期。人的魅力与软肋在于不可预期。Agent 一开始就自然偏向了它的创造者。

02 协议建设

Agent方向第一波系统性尝试,其实来自协议,尤其是MCP和A2A。

MCP 想做的事情其实非常有雄心——为模型接入工具和数据建立一种统一方式和接口。A2A 更进一步,希望Agent 之间可以跨平台协作。

它们背后的愿景非常清晰——如果接口统一,生态自然扩展;如果通信标准化,Agent 才可能真正“组网”。这是为 Agent 时代铺设互联网底层。MCP/A2A 常被类比成 Agent 时代的 TCP/IP。

TCP/IP 统一了互联网时代的网络通信方式,Web 和移动互联网才真正爆发。如果 Agent 之间、模型与工具之间拥有统一协议,生态是否也会在其上自然生长?但TCP/IP 出现时,物理网络已经稳定,通信需求高度一致。而 Agent 面对的是复杂多样的工具体系、权限约束与商业边界。它不是在一张已经铺好的网线上统一协议,而是在一张仍在扩张的认知网络上尝试建立秩序。

可协议从来不是一夜成熟的。版本在变,厂商立场不同,实现也不完全一致。你能感觉到一种谨慎——大家都明白标准的重要,但没有人愿意把命运完全交给还在生长中的规范。

图:MCP(左)和A2A(右)对比

03 架构分层:从场景应用到能力单元

转折并不是某个发布会,而是一种气氛的变化。

一年过去,热闹渐退,Agent 的形态反倒清晰了。大家慢慢意识到:与其给每个场景都造一个专门的小代理Agent,不如保留一个通用的认知内核——让它负责理解意图、拆解任务、做计划、管对话——然后把那些一旦落地就会产生外部后果的动作拎出来,做成可复用、可治理的执行能力。换句话说,Agent 变成一套“认知 + 执行”的组合体:上层允许灵活推理,下层必须可控落地。

于是所谓“架构分层”重新回到台面,这是被现实逼出来的分工,包括认知层、技能层连接层和持续层。LLM作为认知层,天生带着不确定性,擅长想办法、做权衡。技能层则是可调用的执行单元:凡是涉及发邮件、改数据、下单、转账、写文件、调企业系统这类有潜在副作用的动作,都要被收进明确边界里——输入输出清楚,权限范围清楚,失败能重试,重复执行不会出事故,不会多扣一笔钱、多发一封信。

连接层负责把这些技能接到外部世界:数据库、SaaS、企业内部系统、浏览器、终端命令行——这些是“手”和“接口”。最后是所谓“持续层”,管“状态与记忆”:任务跑到哪一步了、断点续跑所需的状态、长期记忆与必要的知识缓存,都落在这里。模型不再承担一切,它退回到“决策者”的位置;执行的确定性、合规性、可控性,被系统层接管。

很多人把这个阶段的象征押在 Claude Code 上。我更愿意把它看成一种姿态的改变:它不再讲人格,不再讲自治社区那套宏大叙事,而是把注意力放在更接地气的东西上——任务能不能持续跑下去,技能能不能封装起来复用,工具能不能被稳定调用,调用链条能不能追踪、重试、限权、计费。它把 Agent 从舞台中央拉回到工作台。

在这个过程中,一个旧词重新获得了意义——skills(技能)。

如果回到 Alexa 时代,skill 是规则插件,是在语义能力不足的前提下,对语言理解做垂直补丁。每个 skill 是一个小岛,依赖意图分类与模板匹配,维护独立状态。为了各种不同的问答场景,需要构建千千万万独立的skills,问天气、问股票、问时间等等。

在大模型时代,skill 被重新定义。理解被中心化到模型。skill 不再负责“理解”,它只是技能层中的执行单元——一个可调用、可约束、可审计的 action primitive。连接与状态管理仍由系统层承担。模型负责决策,Skill 负责动作,系统负责边界。

什么叫“可调用、可约束、可审计”呢?或问:API 不也可以被 LLM 调用吗?那 Skill 到底新在哪里?是不是不过把 API 换了个名字?

图:Skill图解(AI辅助生成)

还是拿具体场景为例。

假设用户说:“帮我分析最近三个月 Tesla 的股价走势,如果有异常波动解释一下,并生成一张图。”

在传统 API 结构里,哪怕是 LLM 参与,通常是这样的:程序员预先写好流程。先调获取数据接口,再调分析接口,最后调绘图接口。LLM 可能只负责填参数。流程是写死的。失败怎么办?整段重跑。出现分支怎么办?提前写好判断逻辑。组合能力存在,但组合顺序在代码里,而不在模型里。

API 是工具,流程属于程序员;Skill 仍然是工具,但流程开始被模型掌握。

系统内部不再只有“接口”,而是有一个技能注册表。获取数据、趋势分析、生成图表、生成解释——这些技能被明确描述、被登记、被纳入一个可见的技能空间。模型在规划阶段生成的是一份抽象计划:先获取数据,再分析趋势,如果波动超过阈值则生成解释,最后生成图表。顺序不再预写,而是在运行时决定。

注意这里的变化:API 时代,组合逻辑写在代码里;Skill 架构下,组合逻辑在模型的规划里。

这不是“API 换皮”,而是控制权的迁移。

再往深一点看。假如系统里有两个趋势分析技能——一个快但粗略,一个慢但精细。在传统结构里,你必须提前决定调用哪个版本。Skill 框架下,模型可以根据对用户提示中关于速度或精度的理解进行选择。技能成为可被比较的对象,而不是固定调用的函数。

再比如失败处理。如果某一步返回异常,调度层可以重试该技能,而不是重跑整个流程。系统可以统计每个技能的成功率、延迟和成本,把这些信号回流到编排里,逐步优化技能组合——说白了,API 时代也能做这些统计,只不过那更多是给运维看的:看服务活没活、慢不慢。

到了 skills 这一套,统计开始变成“给调度用的”:它不仅告诉你哪个接口不稳、慢了、错了,还能看清这一步一旦出问题,会把整条任务链路拖成什么样——是局部卡顿,还是连锁失败,还是需要立刻切换备选路径。

这才是 Skill 真正站得住的地方。当然,这套技能级观测与优化的闭环,目前更多存在于领先团队的实践中,还远未成为大规模标准化现实。但结构已经具备,剩下的只是规模与时间。

API 本质上是给程序员用的。Skill 是被模型规划的。前者假设人类写流程。后者假设模型生成流程。一旦组合权从程序员迁移到模型,技能的意义就发生了变化。它不再只是代码库中的函数,而是技能图中的节点。Skill 的价值,不在它比 API 更高级,而在它让“运行时组合”成为可能,同时仍然保持工业边界。理解仍然由大模型承担,执行开始有清晰的约束。这一步,看似保守,其实是工业化。

一个成熟的 skill,至少意味着三件事:输入输出是结构化的(定义了schema);执行是可重试、可回滚的;权限是隔离的,状态是可审计的。你可以限制它的访问范围,可以记录它的调用链,可以为它计费,可以随时撤销它的权限。这些听上去一点都不性感,却是企业真正关心的东西。

它不像革命,更像基础设施建设。某种意义上,skill 是一种折中,是在标准尚未成熟之前的现实妥协。有一次听一位工程师说:“协议是理想主义,skill 是现实主义。” 就是这个意思。

或许两条路线终会合流。但目前,它们更像不同时间尺度上的试探:一个在设计未来的秩序,一个在支撑当下的落地应用。

04 技能密度

如果只是把 skill 理解为架构收敛,那还是低估了它。真正值得注意的,不是我们如何组织技能,而是技能如何开始形成密度。

过去两年谈大模型,我们几乎离不开参数规模、榜单成绩、推理分数。仿佛模型越强,生态自然跟上。但当模型能力逐渐进入同一量级,分差开始变得细微——97 分与 95 分的差别,很难再决定命运。那时候,问题悄悄换了一个方向:不是谁更聪明,而是谁背后站着更多真实可用的技能。

想象两个认知层几乎等价的模型。一个背后有二十个高质量 skill,另一个背后有两百个。前者能解决二十类问题,后者则可以在这些技能之间自由拼接、叠加、递归组合。二十个技能是工具箱;两百个技能,是图谱。工具箱解决问题,图谱开始创造路径。

技能一旦被模块化,它的价值就不再是线性的,而是网络化的。新增一个技能,不只是多一种用途,而是多出若干种组合可能。密度越高,组合空间越大,系统的“解题维度”也越多。这才是技能密度的真正含义。

移动互联网时代的经验其实早已给过提示。决定平台胜负的,并不是操作系统内核本身,而是应用数量、分发效率、支付体系与开发者活跃度。内核差异存在,但真正形成飞轮的是生态。当基础能力逐渐趋同,竞争自然转向外围的网络结构。Agent 时代未必合适做完全类比,但方向上的相似已然浮现。

于是,关键问题不再是 skills 有多少,而是它们之间能不能流动。能不能被检索?能不能被不同模型规划?能不能跨系统复用?如果技能只是堆在某个平台内部,那只是库存;只有当它们开始彼此连接、彼此调用,密度才会转化为网络效应。到那时,模型反而退到幕后,成为驱动能力网络运转的认知引擎,而不是舞台中央的主角。

这也是为什么协议和 skill 看似分岔,却可能指向同一个终点。协议更像公路标准,skill 像车和货。没有统一标准,技能难以跨域迁移;但没有真实技能,标准也只是空架子。眼下行业更像是先让车跑起来,再慢慢铺路。两条路线不是对立,而是不同节奏下的推进。

最后,那个大家期待的“App Store 时刻”还有多远?

移动互联网真正爆发,是因为分发体系成熟,支付打通,用户规模到位,超级应用出现。Agent 还没有迎来这样的节点。没有大规模的第三方能力市场,没有稳定分发的 skill 商店,也没有形成网络效应的爆款应用。Agent 现在更像移动互联网早期——有 SDK,有开发热情,但还没有形成生态飞轮。

真正的拐点可能不是几个应用的走红,而是一种结构的固化——某些技能节点开始被高频复用,某些组合路径成为默认范式,某个技能图谱逐渐变成事实标准。当技能密度高到一定程度,迁移成本自然升高,生态便悄悄形成壁垒。

垂直行业的爆发似乎一直在“即将发生”。法律、医疗、金融、教育……效率提升在发生,但结构性重塑还没有真正显现。责任边界、监管约束、数据壁垒,这些都比移动互联网复杂得多。

也许 Agent 不会以移动时代的形式爆发。它可能不是一个商店,不是一个下载按钮,不是一个用户主动选择的前台应用。它更可能以skill的形式嵌入既存系统,以后台能力的形式存在。你甚至不会意识到自己在使用 Agent,但系统已经被悄悄重写。

05 Memory:任务连续性的保障

Memory可能是这一年最容易被低估的进展。

早期的 Agent 最大的问题,不是不聪明,而是短命。一次对话里很聪明,换一个窗口就失忆。企业环境下,这几乎是致命的。你无法建立长期协作关系,无法积累项目语境,无法形成持续的上下文。所有任务都从零开始,所有协作都像第一次见面。

memory 的加入,不只是为了“更懂用户”,而是为了保障任务连续性。当 Agent 开始记住偏好、约束、历史项目、上下文背景,它才真正从一次性推理工具,变成持续存在的系统。当系统开始“有历史”,它才真正具备组织价值。

但在讨论 memory 之前,需要把几个常被混淆的概念拆开。长上下文、RAG、持久状态,常常被笼统称为“记忆”,但它们其实处在不同层次。

长上下文更像 working memory——它扩展的是模型在当前任务中的注意力范围。窗口越大,模型能在一次推理中考虑的历史越多。但它仍然属于“当下”。一旦任务结束,注意力就消散。

RAG 更像外部存储的检索机制——当模型需要某些信息时,从知识库中调取资料。它解决的是“查阅”的问题,而不是“持续”的问题。它让系统在需要时能找到过去的信息,却并不自动形成时间连续。

真正意义上的 memory,是持久的(persistent)。它至少涉及三层结构。

第一层是任务状态。任务跑到哪一步?哪些子步骤已经完成?是否可以断点续跑?这决定了系统是否具备持续执行能力,而不是每次失败都从头再来。

第二层是长期语境。用户偏好、组织约束、历史项目、权限边界——这些不应在每次对话中重复解释,而应成为系统可更新、可检索、可继承的背景。它减少重复解释的成本,可以在多任务之间共享背景,可以在组织内部形成稳定的协作节奏。

第三层是行为轨迹与决策历史。系统过去在类似场景中选择了什么路径?哪些能力组合更可靠?哪些尝试曾经失败?这已经开始接近一种“经验结构”。不是简单存储信息,而是积累行动模式。

当这三层逐渐成形,Agent 才真正拥有时间持续性。它不再只是一个即时推理引擎,而开始成为持续体。它的价值不再体现在单次回答的聪明程度,而体现在长期协作中的稳定性与积累性。

当然,这条路径仍然早期。长上下文依然昂贵,RAG 仍然粗糙,长期记忆的更新与遗忘机制尚未成熟。更棘手的是,记忆不仅带来效率,也带来风险。错误会不会被固化?偏见会不会被积累?系统是否需要主动遗忘?在持续体的世界里,遗忘和记住往往同样重要。时间既是资产,也是负担。

如果说 skill 解决的是行动边界,技能密度解决的是横向组合,那么 memory 解决的,是持续性。没有持续性,Agent 永远只是聪明的工具;一旦有了时间,它才可能成为组织的一部分。

06 开源大模型的重要性

还有另一条线索,在全球悄悄改变力量结构——那就是中国开源大模型的角色。

过去一年,如果只盯着闭源巨头,很容易忽略开源模型的跃迁速度。千问、Kimi、Step等模型开始频繁出现在开发者真实工作流里。不只是聊天测试,而是跑代码、跑 Agent 任务、跑多模态处理。

阶跃星辰春节前发布的 Step 3.5 Flash,是一个有象征意味的节点。

它的意义不在“参数更多”,而在方向感。它采用了稀疏混合专家(MoE)结构:1960 亿总参数,每次只激活约 110 亿。不是盲目扩张,而是强调效率与结构。

当传统模型用线性注意力硬撑长上下文时,它采用滑动窗口与全局注意力的混合方式。像读推理小说,大部分注意力集中在当前段落,但关键伏笔可以被快速召回。

当逐 token 生成成为默认路径时,它引入多 token 并行预测,提高速度。

这些改变,恰好对应 Agent 时代的核心需求:更长上下文、更低延迟、更稳定的逻辑执行。

Agent 不是聊天机器人。它需要等待工具执行,需要在多轮任务中保持一致性,需要在长上下文下快速响应。

更有象征意义的是,本地部署。

当一个 256K 上下文的模型,可以在 128GB 内存的 MacBook 上运行时,权力结构开始变化。Agent 的“原生大脑”不再完全锁在云端 API 里。开发者可以在终端侧构建私有工作流。这是一种终端平权。

开源在这里变得关键。垂直行业不会轻易把核心流程托付给闭源黑盒。医疗、金融、法律,需要可控、可调优、可部署的基座。

开源模型降低了实验门槛,也降低了创新门槛。很多垂直 Agent 的试验,正发生在这些模型之上。

写在最后

有时候我会想,这一年真正的变化,不在技术指标上,而在心态上。我们不再问:“它像不像个员工?” 我们开始问:“它能不能长期、稳定、可治理地做事?” 这是一个从幻想走向结构的过程。

协议还在演进。skills 在扩张。memory 在巩固。垂直应用在试水。一切都在进行,时间还不足以让它们马上成熟。

如果说这一年教会我们的是什么,也许是这一点:技术革命往往不是轰然到来,而是慢慢嵌入。当你意识到它已经成为结构的一部分时,它才真正发生。

雾还没有散。但轮廓已经出现。

本文作者立委博士,多模态大模型应用咨询师、出门问问大模型团队前工程副总裁、Netbase前首席科学家。

本文来自微信公众号“腾讯科技”,作者:立委博士,36氪经授权发布。

+1
22

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
特邀作者

TA没有写简介,但内敛也是一种表达

下一篇

国投白银LOF开板,一度涨超8%溢价近60%

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业