Transformer能否支撑下一代Agent?

划重点·2025年12月22日 16:08
不要在舒适区里沉睡

12月18日,2025腾讯ConTech大会暨腾讯科技Hi Tech Day正式播出,中国工程院院士、知名专家和学者、头部科技企业创始人及知名投资人齐聚一堂,共同探讨智能时代的机遇与挑战。

在圆桌论坛环节,当主持人把话筒递给阶跃星辰首席科学家张祥雨,询问关于模型架构未来时,这位学术大牛抛出了一枚“深水炸弹”:现有的Transformer架构无法支撑下一代Agent。

而就在不久前,斯坦福大学教授、“AI教母”的李飞飞在一次深度访谈中,直言不讳地指出:现有的Transformer架构可能难以产生如相对论般的高级抽象。在未来五年内,行业需要寻找一种新的架构突破,让AI从统计相关性跨越到真正的因果逻辑和物理推理。

作为GPT系列的核心缔造者、前OpenAI联合创始人Ilya Sutskever,也在近日的一场深度访谈中表达了相同的判断:单纯依赖堆叠算力和数据的“规模化时代”正在遭遇瓶颈,行业正重新回归注重底层创新的“研究时代”。

过去七年,从Google的BERT到OpenAI的GPT系列,再到横空出世的DeepSeek,几乎所有震撼世界的AI模型都基于Transformer。它让英伟达的市值冲破天际,让无数创业公司拿到巨额融资。

但现在,最懂它的人开始质疑。

人类似乎又走到了一场范式革命的前夜。当ScalingLaw(尺度定律)的边际效应开始递减,当万亿参数的模型依然不懂得如何像人类一样在物理世界中行走,我们不得不面对这个问题:

原本能够带领我们通往AGI的Transformer,是否已经触碰到了天花板?

只会做题的优等生

在2017年之前,AI自然语言处理(NLP)的主流方式还是RNN(循环神经网络)和LSTM(长短期记忆网络)。它们处理信息的方式像一个勤恳的阅读者,必须按顺序一个字一个字地读,效率低下且难以捕捉长距离的语义关联。

2017年,Google论文《Attention Is All You Need》横空出世,彻底改变了这一切。

Transformer架构抛弃了循环,引入了“自注意力机制”。它不再按顺序阅读,而是能同时关注句子中的所有词,并计算它们之间的关联权重。

这一架构让并行计算成为了可能。只要有足够的算力(GPU)和数据,模型就能展现出惊人的智能涌现能力。这就是后来的Scaling Law(尺度定律)。

Transformer与GPU的结合,就像是内燃机遇上了石油,直接引爆了第三次工业革命级的人工智能浪潮。

然而,Transformer的归根结底是一个极致的统计学家。

李飞飞指出:生成式AI最重大的突破之一,是发现了“下一个Token预测”这个目标函数。这听起来很优美,但也很局限。Transformer的核心逻辑是基于海量数据的概率预测。它读了互联网上所有的书,所以当你从悬崖跳下时,它知道下一句该接坠落,而不是飞翔。

Ilya也给出了一个比喻:目前的模型就像是为了赢得编程比赛而练习了一万小时的学生。他背下了所有算法和技巧,见过所有可能的考题,通过数据增强覆盖了所有盲区。他看起来很强,能拿高分,但本质上只是在进行记忆提取。

相比之下,一个真正有天分的学生可能只练习了一百小时,但他拥有深刻的品味和直觉,具备真正的泛化能力。当前的Transformer模型就像那个死记硬背的优等生,一旦遇到未曾见过的领域,其表现就会大打折扣。

Ilya认为,这正是因为模型缺乏某种特质因素,让它们学会了迎合评估标准,却未真正掌握推理。

李飞飞也给出了类似判断:“目前大多数生成式视频中展现的水流或树木摆动,并非基于牛顿力学计算,而是基于海量数据的统计学涌现。”

换句话说,AI只是看过无数次水流的样子,并模仿了出来。它并没有理解水分子之间的张力,也没有理解重力加速度。

Transformer是一条完美的曲线拟合器,它能无限逼近现实,但无法推导出现实背后的那套规则。因为它只有相关性,没有因果性。

长上下文的诅咒与慢思考的缺失

2025年,AI行业的一个明显趋势是长文本。但在张祥雨看来,这可能是一个陷阱:“我们今天的Transformer,不管号称发布出来说支持到多少Token,基本上到8万个就不可用了……即便上下文长度可以很长,但是测试基本上也都是8万个就退化。”

这里所谓的退化,不是指模型记不住了,而是智商随着文本变长而快速下降。

张祥雨揭示了背后的数学逻辑——Transformer的信息流是单向的:“所有的信息只能从第L-1层流向第L层,不管context是多长,模型的深度是不会增加的,它只有L层。”它的思考深度是固定的,不会因为书变厚了,脑子就变得更深邃。

这与Ilya所强调的价值函数类似。他指出,人类之所以高效,是因为我们拥有内在的价值函数——你不需要下完一整盘国际象棋才知道自己丢了一个子是错误的,在中间过程就能获得信号。

目前的Transformer缺乏这种机制。它必须把所有信息平铺开来,每次做一个决定都要去翻阅这一生的流水账 。类似于人类的快思考直觉反应,脱口而出,却无法进行慢思考。

Ilya认为,真正的智能不仅仅是预测下一个Token,而是在行动之前就能通过内部的价值函数预判路径的优劣 。对于未来的Agent而言,它需要在无限流的世界中生存,如果继续沿用Transformer这种要把所有记忆平铺的架构,不仅计算上不可持续,逻辑上也行不通 。

视觉失语与物理盲区

Transformer的危机,不仅仅局限于语言和逻辑,更在于它理解物理世界时的无力感 。

李飞飞认为:“仅靠语言不足以构建通用人工智能。” 现有的Transformer在处理视觉任务时,往往简单粗暴地将预测下一个词移植为预测下一帧,导致生成的视频缺乏时空一致性 。

这里还存在一个更深层次的矛盾:样本效率。

Ilya在访谈中提出了一个问题:为什么一个青少年仅需十几个小时就能学会开车,而AI却需要海量的数据训练?

答案在于“先验知识”。人类拥有进化赋予的强大先验知识和直觉(即由情绪和本能构成的价值函数)。我们不需要看过一百万次车祸才能学会避让,我们的生物本能让我们对物理世界的危险有天然的感知。

何小鹏在大会上也表达了类似的洞察:书本无法教你走路,物理世界的技能必须通过交互习得。

目前的Transformer模型缺乏这种基于物理和生物直觉的世界模型。它们试图通过穷举所有数据来掩盖对物理规律认知的匮乏。Ilya指出,预训练数据的红利终将耗尽,数据是有限的。当你把规模扩大100倍后,单纯的量变可能不再带来质变 。

物理AI需要的是一个内置了3D结构、因果逻辑和物理规律的“数字容器”,而不是一个只会基于概率猜测下一帧画面的语言模型

回归研究时代

如果Transformer可能是死胡同,那路在何方?

Ilya给出了宏观的判断:我们正在告别“规模化时代”(2020-2025),重新回到“研究时代”(2012-2020)。这并不是历史的倒退,而是螺旋式上升——我们现在拥有了巨大的算力,但我们需要寻找新的配方。

这个新配方,不会是单一技术的修修补补,而是一场系统性重构。

李飞飞的World Labs致力于构建具有“空间智能”的模型,建立看、做和想象的闭环 。未来的架构极可能是一种混合体:内核是高度抽象的因果逻辑(隐式),接口是丰富多彩的感官世界(显式) 。

张祥雨透露了极具前瞻性的“非线性RNN”方向。这种架构不再是单向流动,而是可以在内部进行循环、反刍、推理。这正如Ilya所设想的,模型需要具备像人类一样的“价值函数”,在输出结果前进行多步的内部思考和自我修正 。

Ilya认为,未来的突破在于如何让AI拥有像人类一样的“持续学习”能力,而非静态的预训练成品。这需要更高效的强化学习范式,从单纯的模仿(Student A)转向具备直觉和品味的专家(Student B) 。

如果底层架构发生剧变,整个AI产业链也将面临一场洗牌。

目前的硬件基础设施,从英伟达的GPU集群到各种通讯互联架构,很大程度上是为Transformer量身定做的。

一旦架构从Transformer转向非线性RNN或者其他图算结合的模式,专用芯片可能会面临挑战,而通用GPU的灵活性将再次成为护城河。

数据的价值也将被重估。视频数据、物理世界的传感器数据、机器人的交互数据,将成为新的石油。

结语

访谈的结尾李飞飞说了一段意味深长的话:“科学是多代人思想的非线性传承。

我们往往喜欢单一英雄神话,比如是牛顿发现了物理定律,是爱因斯坦发现了相对论,是Transformer开启了AI时代。但实际上,科学是一条河流,无数支流汇聚、改道、回流。

Transformer是一座丰碑,但它或许不是终点。它让我们看到了智能的曙光,但在因果推理、物理理解和无限上下文上的先天缺陷,注定只是通往AGI道路上的一块垫脚石,而不是最终的钥匙。

李飞飞说行业需要寻找新的架构突破,Ilya说Scaling时代已过,张祥雨说Transformer无法支撑下一代Agent,并非全盘否定它的历史功绩,而是在提醒我们:不要在舒适区里沉睡。

未来五年,我们或许会看到Transformer逐渐退居幕后,成为一个子模块,而一种全新的、融合了空间智能、具身交互和深度逻辑推理的新架构将走上台前。

对于身处其中的科技公司而言,这既是巨大的挑战,也是再一次难得的机遇。

本文来自微信公众号“划重点KeyPoints”,作者:李越,36氪经授权发布。

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

将文本推理与视觉生成深度交织,在生成时规划和思考,并自行修正错误

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业