昨夜,OpenAI 与 Anthropic 双雄打擂台,专家:2026 年 Agent 将在产业里遍地开花
人工智能正处于阶梯式发展的平台期,当前研究路径的收益正在收敛,下一次跃迁需要全新的范式突破。与此同时,产业应用正在加速成熟,2026 年有望成为 Agent 大规模落地的关键之年。
昨晚,OpenAI 与 Anthropic 几乎在同一时间抛出了各自最新的模型更新——OpenAI Codex 5.3与Claude 4.6。没有发布会轰鸣,也没有颠覆式叙事,但在开发者社区和产业侧,这两次更新仍被迅速解读为一个清晰信号:大模型能力正在逼近一个阶段性的上限,而行业正在集体寻找新的突破口。
如果用一个词来形容 2025 年的人工智能行业,那就是“临界”。一方面,大模型的通用能力已达到较高水平,在语言理解、推理、代码生成等维度上正在逼近甚至超过人类专家水准;另一方面,沿着既有路径继续堆叠规模与算力,边际收益正在迅速收敛。技术并未停滞,但“下一次质变从何而来”,正在成为整个行业共同面对的问题。
下一代范式突破的方向是什么?中美竞争的真正差距在哪里?Agent 如何从概念走向真正的产业落地?这些追问贯穿整个行业,而在 2026 年,它们变得无法回避。
近期,带着这些问题我们与中关村人工智能研究院副院长 & 北京中关村学院副教授(以下简称“中关村两院”)郑书新进行了一次深度访谈。郑书新认为,人工智能正处于阶梯式跃迁的平台期,下一次跃迁需要全新的范式突破。他同时指出,当前中美竞争的核心差距不在技术路线,而在高质量数据和算力资源。
在产业侧,郑书新认为技术突破与产业普及之间始终存在时间差,这是历史常态而非失败。就像蒸汽机的发明并不会立刻带来工业革命的大规模落地,AI 能力要转化为大规模应用,同样依赖配套系统与产品形态的逐步成熟。在他看来,2026 年将是 Agent 在真实场景中集中落地的一年,而 Coding Agent 等新范式也正在重塑传统软件开发的基本逻辑。
以下为访谈实录,经由 InfoQ 编辑及整理:
开场:个人介绍与研究背景
InfoQ:您在 AI 领域深耕多年,能否和我们分享一下您的研究历程和主要工作?
郑书新:我从十多年前开始接触人工智能,一直深耕大模型领域。早期专注于大规模分布式优化,搭建了当时微软最大的异步分布式训练系统。此后转向大语言模型研究,提出了 Pre-LN 等训练优化与架构改进方法,将模型训练效率提升了约一个数量级。这些成果后来被主流大模型广泛采用(如 OpenAI 开源模型 gpt-oss 等)。
在通用模型与方法研究阶段,我提出的 Graphormer 架构,现在是图(Graph)学习领域的主流基座模型之一。近期,我致力于将大模型与生成式 AI 技术引入科学发现领域,提出的分子平衡分布预测框架突破了传统生物分子模拟的瓶颈,将分子动力学模拟效率提升数十万倍,相关成果发表于《Science》封面及《Nature Machine Intelligence》等顶级期刊。
2024 年底,我加入中关村两院,现任学院副教授、研究院副院长,在 AI 基础学部负责大模型方向的研究与战略布局。
InfoQ:您刚才提到目前在中关村两院 AI 基础学部负责大模型方向的研究。中关村两院肩负着北京乃至国家 AI 创新生态建设的使命,能否介绍一下两院的核心定位?AI 基础学部在其中扮演怎样的角色?
郑书新:北京中关村学院与中关村人工智能研究院是一体两面,融合发展,是教育科技人才一体化的新尝试,是新型研发机构的二次方。北京中关村学院肩负着培养人工智能领军人才的重要使命,是国家教育、科技、人才一体化改革的"试验田"。中关村人工智能研究院与中关村学院共同开展面向未来、具有产业价值、颠覆性的人工智能技术研发及成果产业化落地。
AI 基础学部在这个框架下承担具体的技术攻关和方向布局,我们的战略目标是补全 AGI 下半场的关键拼图,在产业上输出能真正重塑行业逻辑的核心变量,在人才上培养兼具工程能力与科学直觉的领军人才。
AI 整体发展 Overview
InfoQ:站在 2026 年初这个时间节点,您认为当前中国 AI 发展最需要解决的关键问题是什么?
郑书新:AI 发展正处在阶梯式跃迁的平台期,沿着现有技术路径的边际收益在递减,需要找到下一代突破方向。同时, AI 本身也有两个特征:它是根植于产业的技术;并且,这场博弈有明确的时间窗口,很有可能在 3-5 年内见分晓。
基于这些判断,我认为当前有两个核心问题需要关注。第一是战略层面:这场范式竞争的背后是中美科技博弈,我们如何争取先手、发展自主生态。第二是应用层面:AI 如何真正拉动 GDP,实现高质量发展。现在 AI 的行业渗透率已经很高,但对 GDP 的实际贡献还很有限。
AI 技术发展现状
InfoQ:您刚才提到技术上的关键问题是中美技术博弈中争取先手。能否展开谈谈,您如何看待当前 AI 技术的发展阶段?下一代技术突破的方向会是什么?
郑书新:人工智能的发展遵循"阶梯式跃迁"的规律。最近一次重大跃迁是 GPT 带来的规模定律。但现在,智能性提升进入平台期,沿着现有技术路径的收益在递减,近期已经有多个迹象有所印证。其一,预训练范式遇到瓶颈。规模定律的红利趋近耗竭,可用于模型训练的互联网高质量数据见顶,继续扩大模型规模的边际收益显著下降。其二,后训练范式同样存在局限。当前业界普遍转向精细化的奖励函数设计,奖励函数的设计复杂度已经堪比当年的特征工程,本质上是在既定框架内反复调优。Meta 近期发布的研究也表明,后训练的增量空间可能比预期更有限。如果“Less Structure, More Intelligence”成立,那么现有策略能否一路带领我们通向 AGI,坦率说是存疑的。
那么,下一代突破的方向是什么?可能是针对本代 AI 范式的缺点进行改进、寻找突破口,例如突破记忆与持续学习的瓶颈、打通经验学习(Learning from Experience)和自我博弈(Self-Play)的路径、提高长上下文支持能力、探索动态数据的新训练方法等。但也有可能需要探索全新的技术范式,例如受神经科学启发的软硬件结合架构、新的数据来源、离散 Diffusion 等新的建模方式、以及新的智能性理论与奖励函数设计等。然而,下一代探索是高风险、长周期的,对商业公司而言往往优先级较低,毕竟它们需要兼顾短期业绩和股东回报;而多数高校虽有学术自由度,但在算力和工程资源上存在现实约束。正因如此,中关村两院希望在这个时点带发挥独特作用,做难而正确的事情,沿现有路线突破和全新范式探索两个方向布局。
InfoQ:2025 年 Agent 很火,有人把 Agent 理解为大模型的应用层封装,有人把它理解为落地的应用形式。您如何看待当前 AI Agent 的发展现状?
郑书新:大家普遍把 Agent 理解为技术上的研究领域,或是一种落地的应用形式。但在我看来,Agent 就是基座模型,是当前业界押注智能性提升的主要技术路线。
为什么这么说?预训练 Scaling Law 边际效益递减的根本原因在于互联网高质量数据已接近上限。现在的核心解法之一就是找新的数据来源——合成数据,它的本质是搜索,在超高维的语言空间中使用预训练好的大模型去发现新的有价值数据,依托这些合成数据来进一步提升模型的性能。以 o1 为代表的推理模型,就是通过搜索和强化学习在语言空间中生成高质量的思维链数据;而 Agent 进一步扩展了搜索空间的边界,与环境交互并调用工具,发现全新的高价值数据,可能存在新的 Scaling Law。
InfoQ:在 2026 年,您认为 AI Agent 领域最值得期待的技术突破点是什么?
郑书新:类似整个 AI 领域的进展方向,我期待的一是改进现有范式的短板,二是新的训练范式。
在现有范式的改进上,有几个方向值得关注。首先是运行时学习(Runtime Learning),让智能体能够在运行过程中持续学习和改进,而不只是依赖预训练阶段的能力。其次是记忆机制,Agent 需要在长周期任务中保持上下文连贯,有效地存储和调用历史信息。此外,幻觉与可靠性、下一代评测方法、智能体系统的整体可用性与智能性等也是关键课题。
在新范式的探索上,自我迭代的训练方式,以及内在动机(Intrinsic Motivation)驱动的奖励机制,都可能为 Agent 带来阶跃式的突破。
这些也是中关村两院大模型领域的重点布局方向。
InfoQ:相比国外,您认为国内在 AI 研究方面最大的优势和短板分别是什么?在全球 AI 竞争中,我们最需要补上的“关键一课”是什么?
郑书新:中国拥有庞大的人才基数和深厚的数理传统,大量工程师具备扎实的数学功底和出色的工程落地能力。与此同时,中国的产业门类齐全、应用场景丰富、市场规模庞大,这种独特的生态为 AI 落地提供了天然的试验田,也孕育了极强的产品化能力。
再说短板,目前核心有两点:
第一点是数据。目前中美技术路线上已经趋于透明,国内头部大厂和美国最大的差距就是数据,这是大模型智能性提升的主要来源。美国正在系统性地采集长程、复杂、高难度的专业级数据,这类数据的特点是推理链条长、多轮交互、涉及多种工具调用,单条价值可达上千美金。这也是 OpenAI 等公司研发的重点,目前已经有专门的公司在帮大厂收集编程、金融、法律、咨询等领域的专家级知识和数据,可以预见 2026 年在这些专业领域会有显著突破。我们在这方面还比较欠缺。
第二点是算力。我认为算力是智能性提升的第一性原理——科学的进步依赖多样性的探索,而多样性的探索依赖充足的算力。但目前我们在这方面面临不少挑战:一是芯片本身的性能受限,二是大规模组网能力有待提升。据传美国 xAI 已经有 80 万张 H100 级别的集群,而国内头部的"六小龙"基本还在 5 万张上下。在这种情况下,对我们的要求就更高了——需要特别巧妙精细的设计,省着用,才能做出东西;但美国目前可以进行大规模、多方向的并行探索。
AI 产业现状
InfoQ:您之前提到,产业上目前的问题是行业渗透率高,但对 GDP 的实际拉动效益还很有限。从整个 AI 领域来看,您认为产业真正的爆发拐点会在什么时候到来?
郑书新:现在确实面临技术跑在前面的情况,即模型能力已经在很多领域达到“博士级别”智能,但在产业端体感还比较弱,对 GDP 拉动有限。不过这是正常的,因为技术研发和产业落地之间存在时间差。
打个比方,蒸汽机的出现是一场动力革命——它重新定义了制造业、交通、能源等几乎所有行业。但从瓦特改良蒸汽机到工业革命全面铺开,中间隔了几十年,因为需要铁路、工厂、煤炭供应链等一整套配套系统逐步成型。AI 也正处在类似的阶段:核心的"动力源"已经出现,但要真正重塑产业,还需要数据基础设施、工程化工具链、行业 know-how 的深度融合。不同的是,这一轮的节奏会快得多,可能几年而不是几十年。
事实上,这个进程已经在加速。2025 年 Agent 的突破是一个缩影——更广泛地看,AI 已经在各行各业开始渗透,很多场景不需要"博士级"智能,关键是被打磨成真正可用的产品。
我的判断是,2026 年会是 AI 产业落地的关键一年。一方面,Agent、Coding Agent 等产品形态会让更多用户在工作和生活中真正用上 AI;另一方面,垂直行业的 AI 应用也在快速成熟,一级市场已经有大量公司在做得不错的公司。
尤其值得关注的是白领和知识工作者群体。当前模型在多学科领域已经接近博士级智能,法律、金融、咨询、研究等领域有望率先释放生产力红利,AI 对 GDP 的拉动很可能从这里开始。
InfoQ:Coding Agent 是当前讨论的热门方向,您怎么看?
郑书新:Coding Agent 正在颠覆传统软件开发的范式。过去的逻辑是一个团队精心打磨 3 个产品,最后可能有 1 个成功;现在借助 Coding Agent,个体就能快速开发 100 个产品,成功的概率和路径都被彻底改变了。
我自己每天都在用 Codex 这些工具,经常多个任务并行。此刻我的电脑上就同时跑着 4 个 Codex Agent,帮我完成各种任务。很多以前停留在想法阶段的项目,现在都能快速变成可运行的产品。
更让我兴奋的是,这种能力可以快速复制给零基础的人。我在北京中关村学院开了门 AI Agent 编程课程,宗旨都是“零帧起手手写代码”。大约半个月前,斯坦福也开出一门类似课程,理念是“全程不写一行代码”,和我不谋而合。
课程只有四个半天,学生来自物理、材料、金融等各专业,很多人零编程基础。但结课时,所有小组都拿出了可运行的 Demo:有人把 Deep Research 做成了“带事实核查的 Deep Research”;有人把语音对话 GPT 改造成"带快慢双系统的版本"——快系统负责即时回应,慢系统在后台深度推理,最后融合呈现。零基础、跨背景,四个半天就能独立做出产品,这在以前是不可想象的,也是 Coding Agent 带来的价值。
InfoQ:在您看来,有哪些公司或产品在 Agent 领域做得比较出色?
郑书新:现在这个领域非常活跃,Agent 的发展正在从“对话”向“办事”演进。如果说去年大家还在讨论概念,今年我们已经看到了很多能真正提高生产力的落地案例。
比如当下非常热门的几个产品,它们的共性在于:深度接管系统与文件,自主规划、异步执行、完成任务。如开源的 Clawdbot 被称为“AI Jarvis”;Anthropic 的 Claude Cowork 实现了从“对话助手”到“数字同事”的跨越。
Coding Agent 是目前落地最快的方向之一。海外的 Cursor、Claude Code 已成为开发者标配;国内方面,Kimi K2.5 作为 Agentic 模型表现亮眼,基座模型中 GLM-4.7 领先,DeepSeek-V3.2、Qwen3、MiniMax-M2.1 也都不错。
InfoQ:您刚才提到了一些 Agent 应用产品,也提到了一些基座模型厂商。这其实涉及到行业里一个持续讨论的话题:通用大模型是否只是大厂之间的游戏?之前有嘉宾认为,通用大模型需要耗费大量人力物力财力,应该留给大厂去做,其他厂商可以在垂域模型中寻找生存空间。对此您怎么看?
郑书新:如果讨论的是大语言模型,我倾向于认为所谓的“生存空间”其实更多是“讲故事的空间”。
通用大模型的发展已经非常成熟,以最近发布的模型为例,像 Gemini 3 和 GPT-5.2 Deep Think 版本都非常强大。目前来看,很难找到能在某个领域超越这两个模型的垂域模型。以法律和教育问题为例,我更倾向于直接使用 GPT-5.2 或 Gemini 3,而不是专门的法律或教育模型。虽然这些通用模型的成本较高,但其性能已经非常出色。
如果我要针对某个垂域开发应用,我会直接基于 GPT-5.2 进行开发,做好用户界面、数据库和基本范式,而不是自己去研发垂域模型。这种观点可能比较极端,但这是基于目前技术现状的判断——垂域模型的生存空间很有限。
InfoQ:但垂域模型厂商会说他们的成本更低,这是否是一个优势?
郑书新:我觉得这种说法有些本末倒置。首先,模型需要能够真正解决问题,才能谈成本优化。现在很多具身智能公司还在纠结成本问题,但它们可能都还没有找准真正能产生价值的应用场景。这种"成本倒置"的思路是不合理的。
科研方向与人才培养
InfoQ:刚才我们聊了很多技术方向和产业趋势,您也提到了不少前沿探索的可能性。能否具体谈谈您目前的科研方向与布局?您最看好哪个方向,为什么?
郑书新:我在学院负责大模型方向的研究,团队并行推进的方向很多,最近的一项工作是让智能体“预测未来”。
各行各业本质上都绕不开同一道关:通过预测未来辅助科学决策。这听起来宏大,不同领域、不同机构,都在用各自的方式探索这个方向。比如政府出台政策前需要预判市场与社会反馈;企业制定战略前需要预估行业走势;金融机构甚至用系统去预测美国大选结果、下一场球赛谁输谁赢。
这项工作的核心在于将“信息采集—逻辑推演—仿真模拟”三个环节形成闭环:首先通过智能体全自动打捞全网多模态开源情报,消除信息差;然后借助大模型的复杂推理能力进行因果建模和趋势判断;最后在虚拟环境中让成千上万个智能体反复演练,输出不同时间尺度下的演化曲线与风险概率。我们已参加多项国际预测评测,最好成绩全球第二,最新模型正在冲刺第一。把这三个环节打通,预测未来就不再是玄学,而成为可工程化的科学决策平台。
InfoQ:您之前介绍中关村两院和 AI 基础学部时,特别强调了人才培养这个维度。在 AI 攻坚克难的过程中,我们需要大量技术人才。您如何判断一个年轻人是否具备成为优秀科学家的潜力?在您看来,中国未来的 AI 人才应该具备哪三类核心能力?
郑书新:我去判断一个人是否有潜力时,会看重三个特质:首先是问题意识,他能不能自己发现问题、定义问题,而不只是等别人给题目;其次是挫折反应,科研 99% 的时间是失败,关键看如何应对失败;最后是跨界好奇心,他会不会主动去了解自己领域之外的东西,很多突破来自领域交叉。
优秀人才还应该具备三类核心能力:一是数学和物理的第一性原理思维,这是 AI 时代下更重要的底层能力;二是系统工程能力,能把一个想法从论文变成可运行的系统;三是科学品味,知道什么问题值得做,这个最难教,但也最重要。
InfoQ:随着 AI 的普及,我们观察到一个现象:无论是企事业单位、高校还是中小学,大家都在学习 AI 和编程,但也越来越依赖现成工具——从调用 API、套模板,到直接使用 AutoML、Copilot 等——而对数学基础、算法原理的关注反而不足。微软 CEO 萨提亚·纳德拉也曾提到,AI 很重要,但要避免过度依赖。您如何看待这种"工具熟练度高,但科学基础薄弱"的趋势?会担心未来的研究者变成"只会调包、不会创新"吗?
郑书新:我的观点可能稍有不同,我想用一段技术演进的历史来解释这个问题。
最早的程序员需要用“0 和 1”直接跟计算机对话,甚至在纸带上打孔输入程序。后来有了汇编语言,可以用简单的英文指令代替那些 0 和 1。再后来出现了 Python,写代码几乎像写英语句子。你会发现,每一次演进都在做同一件事:把繁琐的底层操作打包藏起来,让人不用操心"怎么做",而是专注于“做什么”。
这个过程中,每一次进步都伴随着类似您提到的担忧:新一代程序员不懂底层原理了怎么办?但事实是,正是因为不用再纠结底层细节,程序员们才能腾出精力去解决更复杂、更有价值的问题。
今天的 AI 工具也是一样。它让研究者可以跳过很多繁琐的技术步骤,把精力放在真正重要的问题上——比如提出新假设、设计新实验、发现新规律。这些才是创新的本质,而不是亲手写每一行代码。
所以我的建议反而是:大胆拥抱最先进的工具,但要清楚自己真正想解决的问题是什么。工具是手段,问题才是目的。
总结
InfoQ:如果让您预测 2030 年最具影响力的 AI 科学突破,您会押注在哪三件事上?
郑书新:我会押注在这三个方向上:
第一,AI 智能性超过人类,ASI(超级人工智能)实现。
第二,AI 在科学研究中能够自主完成发现和突破,比如找到治愈癌症的路径,或者解决数学领域悬而未决的开放问题。
第三,AI 走进物理世界,对实体产业形成实质性推动。
本文来自微信公众号“InfoQ”(ID:infoqchina),作者:冬梅,36氪经授权发布。















