深度解读 AGI-Next 2026:分化、新范式、Agent 与全球 AI 竞赛的 40 条重要判断
刚刚过去的 AGI-Next 2026 信息密度极高,也极具 Visionary。
这场由清华大学基础模型北京市重点实验室、智谱 AI 发起的活动上,除了张钹院士和杨强院士两位学术界代表,智谱 AI 唐杰教授,月之暗面杨植麟,阿里 Qwen 技术负责人林俊旸,以及腾讯首席 AI 科学家姚顺雨等中国大模型核心主力们也聚到了一起,拾象创始人及 CEO 李广密也作为 panel 主持人参与其中。
毫无疑问,华人已经成为 AGI 中重要的一股力量,中国团队开发的开源模型是当之无愧的全球Tier 1,并且我们相信在 2026 年这一位置还会更加牢固,也很期待在 2026 年看到更多全球华人在 AGI 领域的突破性探索。
关于活动的全文实录已经不少了,本文是「海外独角兽」对整场活动所有主题发言、对谈讨论中的核心观点的总结提炼,我们也非常推荐大家阅读活动实录全文,更全面地感受 AI 领域最聪明大脑的思考与洞察。
•模型分化已经是一个显性趋势,分化背后的原因很多元,有 To B 和 To C 场景需求差异,是对模型竞争格局慎重思考之后的 bet,也有不同 AI labs 自然而然的战略选择;
•To B 领域会出现强模型和弱模型之间的分化,而且会越来越大,模型在 To C 场景的任务瓶颈往往不是模型不够大,而是 Context 和 Environment 的缺失;
•自主学习是共识性极强的新范式,是 2026 年几乎所有人都会投入到这个方向;
•Scaling 仍然会继续,是技术、数据与 taste 共进的结果,探索前沿智能不会因潜在风险而停止;
•模型即 Agent,Agent 即产品;
•中美 AI 之间算力差异不只是绝对量级上的,还是结构性的,美国的算力不仅比中国多 1-2 个数量级,更关键的是这其中有相当一部分被投入到了下一代关键技术的探索中。
……
关键词 01
分化
1.结合中美两地的观察,姚顺雨认为今天 AI 领域分化有两个角度,1) To C 和 To B 之间发生分化,2)“垂直整合”和“模型和应用分层”两条路线之间也开始分化。
2.对于 To C 来说,大多数用户在大多数时候并不需要很强的智能,他们对模型智能的提升的体验并不强烈。To C 的瓶颈往往不是模型不够大,而是 Context 和 Environment 的缺失。
姚顺雨举了一个例子,比如问“今天吃什么”,再强的模型可能也很难给出最准确的回应,这里的瓶颈在它不知道用户当下的感受、所处的天气环境等带来的需求。
3.这个问题的解法在于真正的个性化数据,比如相比于盲目追求更强的预训练模型,在合规前提下能把微信聊天记录等 Context 用好,反而能给用户带来更大的价值。
4.To B 逻辑下,用户(企业)愿意为“最强模型”付出溢价,因此,在 To B 市场内部,也会出现分化,即强模型与弱模型的分化会越来越明显。
比如 Opus 4.5 这种能力很强的模型做 10 个任务能对 8-9 个,而能力较弱的模型只能对 5-6 个,即便后者更便宜,但在不知道“哪 5 个错了”的情况下企业还需要花费巨大的精力去做监控,所以更有动力从一开始就选择强模型。
5.To C 场景中,模型做 All-in-one 的垂直整合是成立的,模型和产品之间可以非常强耦合去紧密迭代,但 To B(生产力应用) 因为涉及到很多生产环节,因此给了应用公司足够多的机会空间围绕环境、任务做优化,反向来看,应用公司很难自主训模型、同时任务交付又依赖于模型预训练能力的提升,所以就出现了模型公司和应用之间的分层。
6.Qwen 林俊旸的观察是,模型的分化并并非预设的 road-map,更多是自然演化的结果,这种自然演化通常源于跟客户的高频交流,比如 Anthropic 做 Finance 就是在与客户的高频交流中发现的机会。
拾象注:ChatGPT 和 Claud 先后推出的 Healthcare 的垂直解决方案上的差异也完全印证了这两家公司 to C 和 to B 的基因,前者面向 C 端用户提供健康数据解读,而 Claud health 走的是链接医疗系统的路线。 OpenAI 长期来看会是下一个 Google,而 Claud 很明显会成为 AI 时代的微软。
7.“分化”同样和模型竞争的 timing 相关。智谱之所以 bet coding 也是基于 对当时模型竞争格局的判断,唐杰教授提到在,DeepSeek 出来后,团队判断 “Chatbot 取代搜索这一仗”已经基本结束,智谱团队经过内部讨论后,最终选择押注在 coding 上。
关键词 02
新范式
自主学习
8.首先,Scaling 仍然会继续,但在 Scaling 的投入上,唐杰教授认为需要区分两种不同方向。
•Scaling 已知路径,通过不断增加数据和算力,持续探索能力上限,但本质上也是一种“偷懒”的办法,
•Scaling未知路径,也就是寻找尚未明确的新范式。让 AI 系统自己来定义奖励函数、交互方法、甚至训练任务来做 Scaling。
拾象注:当下 AI 社区对于新范式还没有一个统一的概念定义,自主学习、 active learning、continual learning 以及 self-learning 等本质上都在表达同一个预期,即模型自主学习能力提升,可以在人类不介入的情况下不断提升智能。
9.杨植麟把 Scaling Law 总结一种把能源转化为智能的视角,它的核心在于高效逼近智能上限。模型承载的是价值观与品味,Scaling 是技术、数据与审美的共进,探索前沿智能不会因潜在风险而停止。
10.自主学习的目标是让模型具备自反思与自学习能力。通过持续的自我评估与自我批判,模型能够逐步分辨哪些行为是有效的,哪些路径还有优化空间。
11.姚顺雨认为新范式的发生并不是某个未来的“突变点”,而是一个正在发生的“渐变”过程,甚至在 2025 年他已经看到了一些信号。
比如 Cursor 的 Auto-complete 模型每几小时就用最新用户数据学习,ChatGPT 利用用户数据拟合聊天风格,也是一种自我学习,Claude Code 甚至写了自己项目 95% 的代码,从某种角度看,AI 已经开始有自己帮助自己变好的迹象。
12.新范式的最大的 bottleneck 其实是想象力。更具象来说,如果 2027 年宣布实现了新范式,我们要用什么任务去证明这个范式已经实现了?是变成一个赚钱的交易系统?还是解决人类未解的科学问题?也就是说,对于当下我们去思考新范式的时候要先能想象到它长什么样。
13.林俊旸认为从更实际的角度, RL 的潜力还没有做到足够充分,很多潜力还值得被挖掘,对于下一代范式则存在两个维度,首先是自主学习,其次是 AI 具备更强的主动性。今天是人类帮助 AI 启动,而未来模型可能不再需要人类 Prompt,而是环境本身就能 Prompt 它。
14.Active learning 会带来很严重的安全挑战, 风险不在于“讲不该讲的话”,而在于“做不该做的事”。主动学习一定是重要范式,但必须给它注入正确的方向。
15.自主学习能够体现到 personalization 上,但衡量它是否“变好了”会变得很难。推荐系统可以看点击率,但当 AI 覆盖生活方方面面后,evaluation 指标变得极其模糊。
16.持续学习这个问题中包含了一个时间概念,也就是模型出于在持续地不断地学的过程当中,但如果对于多 Agent 串联的长程任务,一旦 Agent 的能力没有做到 100%,那么越往后能力往往呈指数级下降,而在人类的学习机制中,是通过睡眠来“清理噪音”,可能在 AI 也需要探索类似的清噪与新计算模式。
17.唐杰教授则提出了 “Intelligence Efficiency”的概念,即智能效率,未来的范式不应只是单纯的 Scaling,而应关注“投入多少资源能获得多少智能增量”,这才是解决成本瓶颈的关键,而新范式的意义也在于,如何能用更少的范式获得同样、甚至更多的智能的提升。
18.大模型的发展路径一直在借鉴人脑认知的学习过程,逐步进入知识压缩、推理、数学、Coding 等抽象演绎等任务而在 1)多模态、2)Memory 和 Continual Learning,以及 3)反思与自我认知这几类能力,人类显著领先于当前模型,而这几个点可能是新的突破方向。
19.智谱在 2020 年画过一张参考人类认知的 AI 系统结构图,有三个模块:系统一、系统二,自学习。引入自学习主要基于以下几个原因,对应有 3 类 Scaling:
原生多模态
20.原生多模态模型和人的“感统”很相似,人的感统是这边收集到一些视觉信息,同时还能收集到声音、触觉信息,而大脑会把这些感统信息汇集在一起来感知一个东西,今天的模型感统能力并不充分。
21.多模态感统是智谱今年的重点方向之一。模型具备这种能力之后,AI 才能在真实工作环境中执行长链路、长时效任务,例如在手机、电脑等设备上持续协作。
22.多模态同样也是 Qwen 接下来持续要做的事情。林俊旸认为如果要想做出一个真正智能的东西,天然应该是 Multimodal,但这里也存在一个 debate,即多模态能不能驱动智能。
23.从更第一性地模型提供更多生产力、更好的帮助人类这一角度出发,做视觉、语音等多模态能力是自然而然的选择。
24.视频是更广义的表达,图片可以理解为是单帧的视频,理解很长的视频是很有意思的一个事情。
关键词 03
Agent
25.Coding 是通往 Agent 的必经之路。智谱的实践中发现,GLM-4.5 虽然跑分高,但写不出“植物大战僵尸”游戏。通过引入 RLVR 和大量真实编程环境训练,GLM-4.7 才解决了这个问题。
26.模型即产品。Agent 要实现复杂任务对模型的要求是相当高,模型就是这是 Agent 本身,Agent 就是产品本身,如果它们都是一体化的话,今天做基础模型本身,其实也就是在做产品。
27.模型 To B 和 To C 的分化同样体现在 Agent 上:
•To C 产品的指标有的时候和模型智能并不相关,甚至相反,
•To B 的 Agent 甚至不需要做太多创新,模型智能提升、解决真实世界任务的能力提高、创造更多的价值。
28.生产力场景的 Agent 才刚开始,除了模型进步之外之外,环境和 deployment 同样重要,是 Agnet 创造价值的关键:即使今天模型不再变好,只要把现有模型部署到各公司,也能带来 10 倍甚至 100 倍的收益,但今天 AI 对 GDP 的影响还远不到 1%。
29.教育非常重要。现在人和人的差距在拉大,并不是说 AI 要替代人的工作,而是说会使用这些工具的人,在替代那些不会使用工具的人。
30.Qwen 林俊旸认为未来的 Agent 将变成 “托管式”。用户不再需要像现在这样频繁地一来一回交互,而是设定一个通用目标,Agent 就会在后台长时间独立运行,直到完成任务。
31.Agent 要做到这一点同样也离不开前面跟提到的 Self-evolution 以及 Active Learning ,因为这件事对模型的要求其实相当高,在这个逻辑下,我们可以说“模型即 Agent,Agent 即产品”。
32.做通用 Agent 过程中长尾任务反而是更值得关注,对于用户来说感受到 AI 的价值与魅力也是因为某个长尾任务被得到解决。今天的所谓 AGI 本质上也在解决长尾的问题。
33.做通用的 Agent 是个见仁见智的问题。如果对于自己是一个“套壳高手”足够有自信就可以做,但作为 wrapper 并没有比模型公司做得更好的信息,那么通用 agent 就是“模型即产品”的机会,因为对于模型公司来说,很多工程问题也许只是“烧一烧卡”就可解决的。
34.杨强教授将 Agent 的发展划分为四个象限,从两个维度来看:
•目标定义:是由人为定义的还是自动定义;
•任务规划:即中间的 Action,是由人来定义,还是 AI 自动定义。
今天我们还处于一个很初级的状态:即目标由人定义,规划也由人做,但未来会出现一个大模型观察人的工作,尤其是把人的 Process Data 给使用起来。最后目标也可以是大模型来定义,规划也可以由大模型定义。所以,Agent 应该是由大模型内生的一个 Native 的系统。
35.决定 Agent 未来的走势的几个重要问题:
•Agent 是否能真正解决人类任务?这个事情能够创造价值吗?价值有多大?
•Agent Cost 有多大?一方面如果 Cost 特别大,那也是一个问题。另一方面,如果调用一个 API 就能解决,那么模型厂商意识到这件事价值很大的时候,就会自然而然把它做进去。这是基座模型和应用之间永远的矛盾。
•应用公司的迭代速度。如果 Agent 团队有能力拉开半年时间窗口通过 Agent 应用满足用户需求,就有机会持续往前走。
关键词 04
全球 AI 竞赛
36.对于中国 AI 在 3-5 年内进入全球第一梯队这件事,姚顺雨的态度很乐观。因为从制造业、电动车领域的经历来看,中国最大的优势在于一旦证明某件事可行,就有能力以极高的效率复现、甚至做到局部更好。
37.但长期视角中更核心的问题在于 “敢突破新范式、敢冒险的人不够多”这样的文化差异,此外,还需要面对的两个现实瓶颈:
•算力瓶颈: 和美国相比,电力能源侧不太会成为中国的算力瓶颈,更核心的还是在于光刻机是否有突破;
•是否能诞生更成熟的 To B 市场,更进一步在国际市场上做竞争。过分看重刷榜数字并不是健康可持续的,应像 Anthropic 或 DeepSeek 那样更关注“正确的事”和用户体验。
38.林俊旸则相对冷静,认为最乐观的情况中国 AI 超过美国的概率为 20%。中美 AI 之间算力差异不只是绝对量级上的,还是结构性的: 美国算力比中国大 1-2 个数量级,但最关键的差异在于,他们的算力有相当一部分投入到了 下一代的研究中,而中国今天还在解决任务交付爆发带来的算力瓶颈。
39.但从历史经验来看,“穷则生变”,作为“算力穷人”,中国团队更有紧迫感和动力去思考算法与 Infra 的联合优化,而这个出发点是可以倒逼创新发生。
40.面对光刻机的现实瓶颈,是否有可能我们在下一代的模型结构和芯片上就可以从软硬结合的角度 End-to-End 地实现。
本文来自微信公众号“海外独角兽”,作者:siqi,36氪经授权发布。















