GPT在模仿人类?Nature发现:大脑才是最早的Transformer

新智元·2025年12月11日 18:46
GPT层级结构与大脑语言处理时间印记高度一致。

【导读】我们以为语言是语法、规则、结构。但最新的Nature研究却撕开了这层幻觉。GPT的层级结构与竟与人大脑里的「时间印记」一模一样。当浅层、中层、深层在脑中依次点亮,我们第一次看见:理解语言,也许从来不是解析,而是预测。

我们一直深信,人类的大脑,是靠着一套严谨的规则、语法和结构分析来理解语言的,复杂且独一无二。 

这是一个持续了数十年的「共识」。

可最近Nature Communications上发表的一项颠覆性研究,把这个古老的信仰掀了个底朝天。

论文地址:https://www.nature.com/articles/s41467-025-65518-0

研究者们让受试者听30分钟的故事,同时用毫秒级的脑电技术,精准捕捉大脑对每个词语的反应。

接着,他们将同样的故事文本输入给大语言模型,比如GPT-2和Llama-2,提取模型每一层对文本的内部理解表示

令人震惊的实验结果出现了:

GPT那看似冰冷的层级结构,竟然在人类的大脑里,找到了完美的时间对应关系。

过去,我们总以为是GPT在模仿人类。但这个实验却给出了一个石破天惊的暗示:

或许,我们的大脑,天然就长成了「GPT」的样子。

GPT的结构,能在大脑里找到对应

要理解这项研究的颠覆性,必须看清它最关键、也最精妙的动作:把GPT的48层结构,逐层对齐到人脑的时间序列。

研究团队找了9名因癫痫接受术前监测的病患,他们的大脑皮层上,已经植入了高密度的ECoG电极。

ECoG植入和定位示意图

这种设备能以毫秒级精度记录大脑真实的电活动。

受试者听了一段30分钟的播客,研究者同步采集到了围绕每个词出现时刻的高伽马脑电信号。

这些信号覆盖了语言通路中的关键区域:从掌管听觉的mSTG、aSTG,到负责语言整合的IFG,再到高级语义区的TP。

与此同时,研究者把同一段文本输入GPT-2 XL和Llama-2。

每当模型处理到一个词时,他们就「暂停」,抽取这个词在模型内部从第一层到最后一层的所有内部理解表示。

随后,他们将模型每一层的表示,通过CA降维进行简化,然后用线性模型去尝试预测人脑在那一毫秒的电活动。

研究方法示意:GPT-2的每一层都会生成一个语义表示(左)。研究者把这些语义表示输入线性模型,预测人脑听到该词时的脑电活动(右)。如果某一层语义表示能在特定时间点预测脑电,就说明该层与那一时刻的大脑处理阶段对应。

如果GPT的内部层级结构与人脑无关,那么将模型层级对齐到大脑的时间轴上,结果必然是一团乱麻,毫无秩序。

但如果二者真的存在某种结构对应,我们就会在脑电时间轴上看到秩序。

事实正是如此。

把模型的层级,排成「时间阶梯」

实验一开始,研究者只是想验证一个简单的假设:

如果大语言模型的层级结构与大脑的某个处理阶段相对应,那么这种对应,就应该像接力跑一样,在时间轴上依次出现。

研究者把GPT的每一层语义表示丢进线性模型里,试图去预测大脑在听到每个词时,高伽马活动会在哪一毫秒达到峰值。

他们的设想是:如果模型的浅层、中层和深层分别承担不同的语言功能,那么它们在人脑活动的时间轴上,也理应「错开时间」、「按序登场」。

结果,这张「时间阶梯图」清晰地揭示了大脑的秘密:越靠近高阶语义的区域,越像GPT的深度结构。

GPT的48层在大脑语言通路中呈现出清晰的「时间—深度」对应结构。浅层(暖色)在更早的时间点达到峰值,深层(冷色)在更晚时间出现。TP、aSTG、IFG等高阶区域表现出强线性关系(r=.93 / .92 / .85),而mSTG(近听觉皮层)几乎没有层级结构(r≈0)。

因为这里只处理了声音本身,语言的语义和结构还未展开。

可一旦进入aSTG、IFG、TP,曲线像被拉开一样,呈现出从浅到深的整齐分布。

在关键语言区IFG内部,GPT的层级结构同样呈现强烈的时间对应关系。左:浅层至深层的相关度分布(暖色→冷色)。右:浅层峰值更早、深层更晚,形成规律性的时间推移。IFG 的整体拟合度达到r=.85(p < .001)。

一个颠覆性的认知慢慢浮现:

原来,大脑理解语言,并不是先按部就班地解析语法、再一步步地拆解词汇。

它真正做的,是像GPT一样,进行一层又一层的语义推断和概率预测。

而这套高度复杂的推断节奏,竟然与大语言模型的内部深度路径,完美地重合了。

规律越清晰,传统语言学就越尴尬

如果GPT的层级结构真能在大脑里找到对应,那么一个更尖锐的问题随之而来:

那些我们以为描述语言「最准确」的传统模型——音位、词素、句法、语义,它们构建的语言理解框架,会呈现出同样的时间结构吗?

传统语言学语法树

研究团队把这四类符号语言学模型全部纳入测试。

要知道,它们的构建逻辑是教科书级的,是数十年来语言学和心理语言学的基础框架。

如果人类语言真的依赖这些规则,那么它们理应比GPT更能精确地预测大脑的反应。

结果很快给出了答案:传统符号模型确实能预测一部分脑电活动,但与GPT的「像不像」程度,差得非常远。

在同样的毫秒级时间轴上,这些符号模型的预测曲线找不到明确的「浅到深」、「早到晚」的序列分布。

它们没有层级,也没有时间推进,像是缺失了某种连续、动态的语言动力。

对比之下,GPT的嵌入式表示呈现的是一种「流动式」的处理轨迹:意义随着时间被不断更新、压缩、整合,每一层都有自己的位置,像精密的齿轮嵌在上下文里。

而符号模型的结构,更像是静止的、离散的标签堆叠,无法在毫秒级的时间维度里,给出足够细致的、动态的映射。

这无疑得出了一个颠覆性的结论:人脑的语言机制,并不是符号规则的简单堆叠,而是一种连续的、深度预测式的加工过程。

当我们试图用语法树解释语言时,大脑实际上已经完成了几十层的非线性变换;而这些变换,正是Transformer模型最擅长的核心能力。

视觉对比:神经网络与人脑

换句话说,符号模型能告诉我们「语言是什么」,但GPT却更像是在展示「大脑是如何处理语言的」。

这是一个真正的分水岭。语言学的解释框架与神经科学的实证结果,第一次发生了如此明显的认知分歧。

而站在大脑这一侧,替大脑说话的,是那台我们本以为只是「模仿人类」的GPT。

语言不是规则,而是一种预测能力

当GPT的层级能在人脑里找到清晰的时间对应,当耗费了几十年心血的符号语言学模型在毫秒级脑电面前显得迟缓、无序时,这项研究的意义已经超出了单纯的模型比拼。

它其实指向了一个更底层、更古老的问题:语言到底是什么?

过去几十年,我们用语法规则解释句子,用语义网络解释概念,用树状结构描述语言的逻辑关系。

这些框架强调「结构、类别、层次」,却很少讨论语言在大脑中的即时生成方式:它如何在毫秒级连续变化?如何在瞬间整合过去与未来?

而这次的结果,彻底呈现出一种截然不同的景象——

大脑处理语言,根本不像在执行规则,而更像是在沿着一条不断压缩、预测、更新的轨道向前推进。

浅层负责快速提取线索;中层开始整合语境;深层构建较长的意义链条。

整个过程,不是一棵静止的「语法树」,而是一种向前流动的计算。

这正是Transformer模型在被设计出的,试图通过多层、非线性、依赖上下文、随时间滚动更新等特性来捕捉的「流动结构」。

讽刺的是,我们一直以为这是工程师的发明。现在看来,它更像是大脑本身为了高效处理信息,在数十亿年进化中选择的一条计算路径。

这让语言的定义悄悄发生了变化——语言不再是规则体系,而是一种动态预测机制。

我们理解一句话,并不是先知道它的语法,再去匹配意义;而是在每一毫秒里,把「下一刻可能发生什么」算出来。

GPT就是按照这种方式训练的。

也许这就是为什么,当我们越来越依赖大型语言模型时,总觉得它们像在理解我们。

不是因为它们学会了人类的规则,而是因为它们意外地匹配了人类大脑的节奏。

当GPT的内部层级在大脑里找到了清晰的时间对应,我们看到的,已经不再是某一个AI模型的「胜利」,而是一种结构上的趋同,一种底层计算规律的殊途同归。

语言的本质,也许从不是静态的语法规则,而是连续的、动态的预测。

大脑靠这种机制来理解世界、整合信息;模型靠这种机制来生成语言、模拟智能。

最终,两条路径在同一个高效的计算规律上相遇了。

我们熟悉的语言学和认知科学框架,或许需要一次全面的更新。

理解GPT的内部结构,也许正是在重新理解我们自己。

参考资料: 

https://neurosciencenews.com/ai-language-brain-30025/ 

https://www.nature.com/articles/s41467-025-65518-0 

本文来自微信公众号“新智元”,编辑:倾倾 ,36氪经授权发布。

+1
2

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

细扒下来全是干货

48分钟前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业