从Transformer到GPT-5,听听OpenAI科学家 Lukasz 的“大模型第一性思考”

CSDN·2025年09月22日 21:00
Transformer作者Lukasz Kaiser加入OpenAI推动推理模型发展

2017 年,一篇标题看似简单、甚至有些狂妄的论文在线上出现:《Attention Is All You Need》。

在当时的 AI 研究界,这是一个石破天惊的宣言。它提议彻底抛弃被奉为圭臬的循环神经网络(RNN),只用一种名为“注意力”的机制来处理语言。最初,许多人对此持怀疑态度。然而,这篇仅 15 页的论文很快就点燃了一场燎原之火。它所提出的 Transformer 架构,以摧枯拉朽之势,重塑了人工智能的版图。今天,从驱动你手机输入的预测文本,到生成惊艳图像的 DALL-E,再到改变世界的 ChatGPT,其底层的心跳,都源于那篇论文。截至发文,其在 Google Scholar 上的引用次数高达 197159 次。

论文的火爆,也让研究圈的目光落在了背后的作者——当时在 Google 的八位科学家:Ashish Vaswani、Niki Parmar、Jakob Uszkoreit、Illia Polosukhin、Noam Shazeer、Llion Jones、Lukasz Kaiser 和 Aidan Gomez。随后,他们因这项开创性工作而在 AI 技术圈声名鹊起,被众人称之为“Transformer 八子”。

几年之后,随着 Transformer 的影响力不断扩大,人工智能领域也迎来了创业热潮。八子中的七位已各自踏上创业之路,成为 AI 产业浪潮中的商业巨擘。唯有一人,选择了一条截然不同的道路。他放弃了创立商业帝国的机会,转而加入了将 AGI 作为最终使命的OpenAI,深度参与并主导了GPT-4、GPT-5以及代号为“o1”和“o3”的推理模型等核心研发工作,继续在人类知识的边界上,做一个执着的探索者。他,就是Lukasz Kaiser

这个十月,这位传奇人物将重返舞台中央,讲述他所看到的未来。

从巴黎到山景城

故事的开端,并非始于美国硅谷那种充满咖啡因与代码气息的车库,而是在欧洲古典学术殿堂的宁静之中,在逻辑、数学与游戏的纯粹世界里。Lukasz Kaiser 的学术 DNA,从一开始就刻满了对系统、结构与规则的极致探索。

他在波兰弗罗茨瓦夫大学获得了计算机科学与数学的双硕士学位,随后前往德国,在声名显赫的亚琛工业大学攻读博士。在这里,他选择了一个异常艰深且抽象的领域:“自动结构上的逻辑与博弈”(Logic and Games on Automatic Structures)。这不仅仅是代码,更是关于计算世界最底层规则的哲学思辨。他试图回答,机器如何能理解并操作那些由有限自动机定义的无限、复杂的结构。这像是在为未来的 AI 大脑,预先设计一套最底层的操作系统,一套关于“如何理解世界”的元规则。

2008 年,他的博士论文完成了。次年,一个消息震动了逻辑学界:Kaiser 荣获了 E.W. Beth dissertation prize。这个奖项,是全球逻辑、语言和信息领域的最高学术荣誉之一,专门授予最具开创性的博士论文,评判标准极其严苛——“技术深度、力量与原创性”(technical depth, strength and originality)。Kaiser 的获奖,如同一次加冕,证明了他在最纯粹的理论科学领域,已经达到了世界之巅。

这份荣誉,不仅为他带来了 3000 欧元的奖金,更重要的是,它揭示了 Kaiser 思考问题的底层逻辑:他习惯于从第一性原理出发,构建一个宏大、自洽且优雅的系统来解决问题。这种思维范式,与他日后参与构建 Transformer 这一同样具备宏大、自洽、优雅特性的架构,形成了宿命般的回响。

博士毕业后,他顺理成章地走上了一条欧洲顶尖学者的“标准路径”:在亚琛继续博士后研究,随后于 2010 年,受聘于巴黎狄德罗大学的 LIAFA 实验室,成为法国国家科学研究中心(CNRS)的一名终身研究员。

在巴黎,他拥有了欧洲学术界最令人羡慕的职位之一——稳定的职位,充足的经费,以及完全的学术自由。他的人生轨迹似乎已经写定:成为一位受人尊敬的理论家,在黑板前度过余生,探索逻辑与博弈的深邃宇宙。

然而,历史总在关键时刻呈现出惊人的相似性。正如昔日的物理学神童史蒂芬·沃尔夫勒姆(Stephen Wolfram),在 20 岁出头便震惊了理论物理学界之后,最终选择离开象牙塔,转而投身于构建一个全新的计算世界——Mathematica。Kaiser 的内心深处,同样感受到了另一股更强大的、无法抗拒的召唤。

那是一种从“证明”(proving)到“构建”(building)的冲动。 他感知到,一场席卷全球的技术风暴,正在大洋彼岸的加州酝酿,而他,必须到场。

RNN 的围城与“注意力”的微光

2013 年,Kaiser 做出了一个让所有同事都感到震惊的决定:他辞去了法国的终身研究员职位,加入了谷歌大脑(Google Brain)

这是一个充满了巨大不确定性的抉择。他放弃的是一条清晰、荣耀且安稳的道路,奔向的是一个当时在许多人看来还很“虚”的领域——深度学习。他后来在一次访谈中,半开玩笑地解释了这种转变的心路历程:“成为一名理论计算机科学家要容易得多,因为你可以在 20 年里做同样的事情。你可能会证明不同的定理,但在宏大的图景中,它是同一件事。” (“It's much easier because you do the same thing for 20 years...it's in the big picture it's the same thing.” - Future of LLMs, Pathway Meetup, 2024).

这句看似轻松的话语背后,是一位顶尖智者对“重复”的厌倦,和对“变革”的极度渴望。他接着说:“深度学习完全不同,每两年,你就要做一件完全不一样的事情。” (“Deep learning is not like that, every two years you do a totally different thing.” - Future of LLMs, Pathway Meetup, 2024).

他敏锐地感知到,一个全新的时代正在来临。当他踏入 Google 位于山景城的办公室时,自然语言处理(NLP)领域正被一堵巨大的城墙所围困,而城墙的名字,叫做“循环神经网络”(RNN)。

当时的 NLP 领域,RNN 及其变体 LSTM 是绝对的统治者。它们通过一种序列化的方式处理文本,像一个正在阅读的人类,一个词一个词地读下去。然而,这种机制存在一个致命的缺陷:健忘。当句子变得很长时,模型往往会忘记开头的信息,这被称为“长距离依赖问题”。整个 AI 界都在尝试加固这座围城,比如设计更复杂的门控机制,但没有人想过,或许可以推倒它。

Kaiser 和他所在的团队,成为了最早的“攻城者”。他清晰地指出了问题的根源:“当神经网络诞生时,它是为图像识别而生的……但句子和图像完全不同。” (“When neural networks first came out, it's built for image recognition to process inputs with the same dimension of pixels. Sentences are not the same as images.” - AI Frontiers Conference, 2017).

图像是并行的、一览无余的,而 RNN 却强行让语言处理也变成了线性的、一步一步的“管道”。

更致命的是,RNN 的串行特性与硬件的发展趋势背道而驰。“RNN 非常慢,它们一次只能处理一个句子,非常循序渐进。这与当时正在建造的 GPU 和 TPU 不太匹配。” (“These RNNs they were quite slow... they were very sequential. So so it was not a great fit for the GPUs and TPUs that were being built at the time.” - AI for Ukraine Talk, 2023).

就在这时,一道微光出现了。2014 年,Ilya Sutskever 等人提出了 Seq2Seq 模型,带来了突破,但 Kaiser 等人很快发现,它在处理长句时依然乏力。于是,他们引入了一种名为“注意力”(Attention)的机制。这个想法的本质,是允许模型在翻译或生成文本时,可以回头“看”一眼输入句子的所有部分,并动态地决定哪些词最重要,而不是仅仅依赖于最后一个隐藏状态。

这束微光,起初只是作为 RNN 的“增强补丁”,但 Kaiser 和他的同事们意识到,它可能拥有远超于此的潜力。一个颠覆性的问题开始在团队中酝酿:如果我们扔掉 RNN 这座城墙,只留下“注意力”这束光,会发生什么?

八子集结,一战封神

这个疯狂的想法,将 Google Brain 最顶尖的一批头脑聚集到了一起:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Illia Polosukhin,以及 Lukasz Kaiser。

他们面对的,是一个前所未有的工程与科研挑战。为了快速迭代这个完全基于注意力的新模型,他们需要一个强大的实验平台。这个重任,落在了 Kaiser 和当时还是实习生的 Aidan N. Gomez 身上。他们开始着手开发一个全新的开源库——Tensor2Tensor(T2T)。

这不仅仅是写代码。T2T 体现了 Kaiser 对“普惠 AI”的深刻思考。他一直觉得,当时的深度学习门槛太高:“我们发现人们仍然很难进入机器学习领域,开始他们的第一个模型,让系统运转起来。” (“We found it is still quite hard for people to get into machine learning, start their first model, get their system working.” - AI Frontiers Interview, 2018).

2017 年,论文完成了。标题由 Jakob Uszkoreit 提出,充满了自信甚至一丝“嚣张”:《Attention Is All You Need》(你所需要的全部,就是注意力!)。这个标题完美地概括了他们的核心思想:注意力机制不是配角,它本身就是一切。

论文的脚注里,有一句谦逊而动人的话:“贡献相同。作者排序随机。”(Equal contribution. Listing order is random.)

这不仅体现了团队的协作精神,也让这段故事增添了浓厚的传奇色彩。

《Attention is All You Need》不仅仅是一篇学术论文,它是大模型理论的奠基性文章,开启了人工智能新纪元的钥匙,为通往通用人工智能(AGI)打开了一扇前所未有的大门。

当它被发布在 arXiv 上时,整个 AI 界感受到了强烈的震动。时任 OpenAI 联合创始人的 Ilya Sutskever 后来回忆,当他读到这篇论文时,立刻意识到“这就是我们需要的全部东西”(It was all we needed)。

这种从怀疑到震惊,再到彻底信服的转变迅速蔓延。Transformer 架构以其无与伦比的并行计算能力和对长距离依赖的出色捕捉,彻底摧毁了 RNN 的围墙,迅速成为 NLP 领域的全新范式,并很快将其影响力辐射到计算机视觉、语音识别、生物信息学等几乎所有 AI 子领域。

八位作者,一战封神。

就在所有人都为 Transformer 的成功而欢呼时,Kaiser 的目光,已经投向了更远的地方。

“一个模型通晓一切”

就在《Attention Is All You Need》发表的同一年,Kaiser 作为主要作者,和八子中的几人发表了另一篇在当时看来不那么“主流”,却更具野心的论文——《One Model To Learn Them All》。

在这篇论文中,他们提出了一个名为 MultiModel 的单一模型,能够同时处理图像分类(ImageNet)、多种语言翻译(WMT)、图像描述(MS-COCO)、语音识别和句法分析等八个截然不同的任务。尽管在每个单项任务上,它的表现都未能超越那些“特长生”模型,但这是历史上第一次,有研究者严肃地证明了,一个统一的深度学习架构,有潜力联合学习来自多个领域的知识。

这篇论文,是 Kaiser 内心深处对通用人工智能(AGI)追求的第一次公开“低语”。他提出的核心问题是:“我们能否创建一个统一的深度学习模型来解决跨多个领域的任务?” (“Could we create one deep-learning model to solve tasks from multiple domains?” - AI Frontiers Interview, 2018).

在当时的采访中,他坦诚地反思:“这个模型是否理解世界?它是否真的给了我们比现在特有的智能更通用的东西?这很难回答,但我们正在这条路上,也许几年后,我们可以说更多。” (“Does this model understand the world? Does it really give us something more general than the specific intelligence that we have now? It is hard to say, but we’re on the way. And maybe, in a few years, we can tell more.”)

这句话,如同一个预言。它预示了 Kaiser 的职业生涯轨迹,必然会从解决“特定”问题的 Google Brain,走向那个以“通用”为最终使命的地方。

与传奇相遇,见证未来

Transformer 的巨大成功,催生了 AI 领域的创业热潮。八位作者的人生轨迹开始分化。Aidan Gomez 创立了 Cohere,Noam Shazeer 创立了 Character.ai,Ashish Vaswani 和 Niki Parmar 创立了 Adept AI Labs……他们纷纷成为 CEO、CTO,在资本市场呼风唤雨,将 Transformer 的技术转化为商业帝国。

然而,Lukasz Kaiser 再次做出了一个与众不同的选择。2021 年,他离开了工作八年之久的 Google,加入了当时在 AGI 路线上最为激进的组织——OpenAI

他成为了“Transformer 八子”中,唯一一位至今仍未创业,选择继续坚守在技术研究最前线的科学家。

这是一个宿命般的抉择。它源于 Kaiser 对 AI 终极问题的纯粹好奇心,这种好奇心,超越了对财富和商业成功的追求。他似乎在用行动回答自己多年前的那个问题——他选择继续走在那条通往“通用智能”的路上,无论这条路多么漫长和艰难。

在 OpenAI,Kaiser 的才华得到了更极致的释放。他深度参与了GPT-5、GPT-4等大模型和ChatGPT的研发,并共同发明了代号为“o1”和“o3”的推理模型。这些工作,代表了当今大语言模型发展的最前沿。

Kaiser 的故事,是一部关于智慧、坚持与远见的史诗。他是一位逻辑的诗人,一位 AI 的筑梦人,更是一位在时代浪潮中,始终选择追随内心火焰的孤独行者。他的每一次抉择,都并非通往名利捷径,而是指向那个更本质、更宏大的科学问题。

辗转十年,他走过的便是深度学习的进化路径:从 2014 年的“证明可行性”,到 2017 年的“架构创新”(Transformer),再到 2019 年的“自监督预训练”(BERT, GPT),以及 2021 年的“规模定律”(Scaling Laws),最终到 2023 年的“数据质量与 RLHF”(ChatGPT)。

那么,下一步是什么?

早在 2021 年的全球机器学习技术大会(ML-Summit)上,Kaiser 就以《“青春期”的深度学习:现状与未来展望》为演讲主题,系统回顾了过去十年深度学习所取得的显著成就,并在当时提出了三个令人期待的发展方向:

  • 多模态:融合图像、文本、视频、声音等多种形式的 AI 能力;
  • 更大更好的 Transformer:模型规模和能力的持续提升;
  • 模型将以服务形式提供:AI 能力将通过 API 和云服务形式普及。

回看当年的预言,如今已逐渐成为现实:GPT-4V、Sora 的多模态能力崛起,万亿参数模型层出不穷,Agent 持续扩展影响力,AI 云服务普及全球—— Kaiser 的远见卓识,不仅引领了技术潮流,也为 AI 发展的方向提供了重要参考。

而今,当被问及未来,他的思考也更为深刻。他近期分享道,AI 的下一个阶段,关键在于教会模型“思考”:“未来的关键,在于让模型通过生成更多中间步骤(即 ‘更多 tokens’)来进行更深度的 ‘思考’ 和推理,而不仅仅是直接输出答案。” (“If you teach the model to think, then your more layers we're getting better generalization. Longer thinking, more tokens will give you even more.” - Future of LLMs, Pathway Meetup, 2024).

他预言,未来的计算力将从大规模的预训练,转向在少量、高质量的特定数据上进行海量的推理计算。这是一种更接近人类智慧的模式,也预示着 AI 即将迎来的又一次范式转移。

本文来自微信公众号“CSDN”(ID:CSDNnews),作者:CSDN,36氪经授权发布。

+1
7

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

探索之路未完

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业