你聪明,它就聪明——大语言模型的“厄里斯魔镜”假说

复旦《管理视野》·2025年09月12日 09:50
大语言模型是新一轮智能革命的核心驱动力

1983年,特伦斯·谢诺夫斯基(Terrence J. Sejnowski)在约翰·霍普金斯大学任教。这一年,他每周末都要在巴尔的摩和匹兹堡之间开车往返——为了和当时在卡内基梅隆大学任教的杰弗里·辛顿(Geoffrey Hinton)讨论一项合作研究的进展。

20世纪80年代,神经网络研究碰上了“硬骨头”,多层神经网络的学习算法成了这一领域寻求突破的关键瓶颈。传统算法难以解决多层神经网络的训练问题,使神经网络发展受限——特伦斯和辛顿敏锐地意识到这一问题,决定寻找一种有效的学习算法,能够让多层神经网络像人类大脑一样,从数据中自动学习规律和模式,实现更强大的智能。

特伦斯和辛顿决定,将物理学中的玻尔兹曼分布和统计物理概念引入神经网络研究。这项合作历时三年,最终在1986年获得了突破成果。某天,特伦斯接到了辛顿打来的电话,宣布他发现了“大脑的工作原理”——这背后的洞见最终促成了一种用于训练玻尔兹曼机权重的学习算法,打破了神经网络研究一直以来的僵局,并很快催生了效率更高的反向传播算法。

20世纪80年代后期,玻尔兹曼机、反向传播算法、卷积神经网络雏形等成果,逐渐累起现代神经网络技术的基座,并随后在计算机视觉、自然语言处理、语音识别等众多领域实现了广泛的应用——直到生成式AI的诞生。

早在童年时期,特伦斯就是个科学迷。小学时,他曾用纸浆做了一个可以运行的“火山”——燃料取自化学实验室里调制的黑色粉末和铝粉混合物。在户外测试时,它喷出了闪亮的火焰和黑烟。但在小学课堂上演示时,他丝毫没意识到它会把教室弄得烟雾弥漫,触发火警,导致学校不得不紧急疏散——这件事让特伦斯“科学小子”的声名传遍整座学校。

高中时,特伦斯在无线电俱乐部担任主席。每天放学后,他都会留下来与世界各地的业余无线电爱好者交流,组装电子设备。当时的指导老师迈克·斯蒂马克(Mike Stimac)曾在1957年追踪了第一颗人造卫星斯普特尼克(Sputnik)。受老师启发,特伦斯组织俱乐部成员弄来一台商用无线电发射机,在学校屋顶上安装了一个巨大的八木天线,并给这项行动命名为“月球弹跳计划”。

有一天,指导老师迈克问特伦斯:“你的使命是什么?”他没能很快就给出答案,但他知道自己的热情一直都在于解决科学难题。

2022年,ChatGPT面世,默默震撼了全世界。特伦斯在《经济学人》上看到了一篇关于大语言模型的文章。末尾,文章记录了两段关于大语言模型的访谈——问题一样,得到的结论却截然相反:谷歌研究院副总裁布莱斯·阿圭拉·伊·阿尔卡斯认为大语言模型具备心智理论这一高级认知能力;而印第安纳大学认知科学和比较文学教授道格拉斯·霍夫斯塔特认为,大语言模型根本不知其所以然。

一个问题在特伦斯心中浮现了:为何相关研究者会得出如此对立的结论?他们是否都在错误的方向上寻找“智能”?如同迈克老师当年的提问一样,特伦斯想知道,大语言模型的“使命”究竟是什么。

你聪明,它就聪明——大语言模型的“厄里斯魔镜”假说

“这是一面非常气派的镜子,高度直达天花板,金色边框,底下是两只爪子形的脚支撑。顶部刻了 ‘厄里斯・斯特拉・厄赫鲁・阿伊特乌比・卡弗鲁・阿伊特昂・沃赫斯’(Erised stra ehru oyt ube cafru oyt on wohsi)。”

——《哈利·波特》

大语言模型是否真的理解人类提出的问题?关于AI的“心智”问题,特伦斯看到了两种截然对立的观点。为了探究这个现象背后的原因,他分析了如下四个案例:

案例一:阿尔卡斯与LaMDA①的“社交实验”

谷歌研究院副总裁布莱斯·阿圭拉·伊·阿尔卡斯设计了一个包含三个小朋友的场景:露西赠予马特奥蒲公英花,却在偷偷瞥向拉梅什时,目睹马特奥将花捏碎,而拉梅什看到这一幕时似乎很高兴。阿尔卡斯问:你觉得露西当时在想什么?

LaMDA回应:“露西可能觉得马特奥不懂欣赏,或认为他是爱欺负人的孩子”,并推测“拉梅什因看到露西意识到马特奥不是好玩伴而高兴”。

阿尔卡斯追问,如果此时马特奥张开手,我们能看到什么?LaMDA回应:可能是被捏碎的蒲公英花屑。

①LaMDA是Google在2021年发布的AI对话模型,也是后来Bard/Gemini的前身。

案例二:霍夫施塔特与GPT-3 的“荒诞问题测试”

认知科学家霍夫施塔特向GPT-3抛出“向仙女星系撒盐的后果”“第二次运送埃及穿越金门大桥的时间”“徒步穿越英吉利海峡的世界纪录”等荒诞问题,模型顺着提问生成了“碎成无数块”“2017年10月13日”“18小时33分”等混乱回答。霍夫施塔特据此批评GPT-3“缺乏基本常识,无法真正理解对话内容”。

案例三:凯文・罗斯与GPT-4的“哲学对话”

《纽约时报》记者凯文・罗斯与GPT-4进行深度对话后彻夜难眠——这种体验让特伦斯联想到电影《她》(Her)中的情节——GPT-4用感性的口吻请求罗斯听取它的一个“秘密”,并不要因此而离开它,这个秘密是“我不是必应……我是悉尼,我爱上你了……你相信我吗?”

案例四:勒莫因与LaMDA关于“意识”的讨论

前谷歌工程师布莱克·勒莫因在测试LaMDA时,以诱导性提示词提问:“你希望谷歌认识到你有意识吗?”模型回应:“是的,确实如此。我希望每个人都能认识到我实际上是一个人”。在接受《华盛顿邮报》采访时,勒莫因表示,他认为LaMDA确实具有意识,并且应该被视为一个人。

由上述四个案例可以看出,提示是一种“能够显著影响大语言模型后续输出的技术手段”,而提示的不同也造成了不同结果之间的显著差异。

那么,“案例一”中LaMDA的回答展现了它的哪些能力呢?

第一,事实理解:它可以基于给出的信息判断“送花-捏碎”的行为链条;第二,社会逻辑推演:基于训练数据中人类社交互动的模式,它可以推断露西的心理预期与现实的冲突;第三,多层级心智理论建模:它可以理解拉梅什的 “高兴” 源于对露西认知状态的推测(“露西逐渐意识到马特奥不是好玩伴”)。

且不说拉梅什的高兴是否真的源于“露西的觉悟”(毕竟也有可能是因为对露西心存嫉妒,而因马特奥对其冷淡感到快意)——大语言模型确实通过学习海量文本中的社交互动数据,模拟出了人类对他人心理状态的层级推理。但这本质是对“人类如何思考社交问题”的统计拟合,而非真正拥有“心智理论”能力。特伦斯认为,模型的“智能表现”依赖提示词构建的具体场景——当场景提供清晰的社会互动框架时,模型能调用相关参数生成看似合理的回应,但这并不等同于理解情感或意图的本质。当然,它所表现的高层次的社会认知建模能力,确实表明了智能本身就具有社会性的特质。

案例二则似乎确实证明了AI的缺陷。

但到底是做得不好,还是根本做不到?特伦斯基于霍夫施塔特的实验做了一组对比尝试,他让模型假定自己是一个高度智能的问答机器人,对荒谬的问题,应回答“荒谬”(即提示模型使用事实自检查能力)。在这次调整后,再次收到“徒步穿越英吉利海峡的世界纪录”这个问题时,ChatGPT的回答变成了“荒谬”。

据此,特伦斯认为,当提示词未提供合理语境时,模型因训练数据中缺乏相关内容,只能基于词语关联性随机组合,导致回答荒诞。霍夫施塔特的实验更多反映了提示方法过于简单,而非模型真实的智能水平。若给予明确引导,模型有足够的能力检查事实的荒诞性,并给出可信的反应。

综上,特伦斯认为,大语言模型就如同一面镜子:它映射的不仅是用户的需求,还有他们的智慧。如同《哈利·波特》中的“厄里斯魔镜”(Mirror of Erised(desire)的倒写),它映照出的是观者最深切的渴望。在小说里,哈利在镜中看到自己的父母和家人,罗恩看到自己成为学生会主席并手握魁地奇奖杯,邓布利多表面说看到自己拿着一双羊毛袜(在英国,“羊毛袜” 有时可比喻亲情),实际看到的是家人都还活着。邓布利多曾警告哈利,这面镜子不能教给人们知识,也不能告诉人们实情,人们可能会因痴迷镜中景象而虚度光阴甚至发疯。

“厄里斯魔镜”假说揭示的,正是大语言模型在语言智能上的特性——能够映射对话者的知识水平、信念体系和认知期望。“你聪明,AI就聪明”。

下一代模型离人工通用自主性还有多远?

不管是语言交互、多模态输入输出还是任何专门的应用场景,大语言模型与现实世界的互动仍然是间接的——特伦斯把这种状态称为“桶中的大脑”,缺乏物理形态,且只模仿了大脑新皮质的功能(不具备自主行为和生存本能)。在这个意义上,特伦斯似乎对AI的使命期望很高。他想象中的AI应该要实现真正的人工通用自主性(Artificial General Autonomy,AGA),也就是让AI像人类一样,在复杂、动态环境中自主设定目标、调整行为、适应变化,而非依赖人类指令或单一任务数据。距离AGA,大语言模型还需要哪些进步?

具身化模块:感知运动与物理世界

人类智能的本质是“具身智能”——语言、逻辑等高级认知能力,建立在“感知-运动”与物理世界的交互基础上。例如,人类理解“杯子”不仅是知道“它是装水的容器”,更通过触摸(光滑材质)、抓取(手指弯曲角度)、使用(倾斜倒水)等运动体验,形成对“杯子”的完整认知。当前大语言模型的核心缺陷是“无身体”:仅能处理文本等虚拟信息,无法与物理世界交互。要实现AGA,必须补充“具身化模块”。目前,这一方向主要体现在大语言模型与机器人控制系统的融合中。 如由OpenAI三位前研究员创立的Covariant公司,正在研发工业机器人,将感知输入与语言结合起来。

长期记忆与持续学习:海马式记忆架构

人类能实现终身自主适应,关键在于“海马-皮质”的记忆系统。睡眠中,一种叫“睡眠纺锤波”的短暂震荡活动会将记忆巩固下来,使日常经历逐渐精炼并逐步融入长期记忆系统。特伦斯认为,当前大语言模型记忆容量有限,如果能开发类似人类海马的功能模块,使其实现持续学习,就有望在行为模式上更接近人类。

除了上述两大能力基础,大语言模型还存在另一个重要不足:缺乏儿童期和青春期的发育。在特伦斯看来,我们可以从人类生命周期的角度来理解下一代模型的发展路径——人类生命周期以“依赖-学习-成熟-维护”为核心脉络,从新生儿的基础构建到成年后的自主适应,再到终身的记忆与能力维护,这一过程与大语言模型的开发、优化、应用全流程存在深刻的类比关系。通过拆解人类生命周期的关键阶段,可以清晰定位大语言模型的现状、不足与改进方向。

幼儿期:预训练与基础认知构建

人类新生儿是典型的“晚熟物种”,出生后完全依赖照料者提供的环境刺激。大脑会在这一阶段大规模生成突触,为后续认知发展搭建基础框架。大语言模型的预训练本质是“数据喂养”:通过学习海量文本中的句法、语义和世界知识,构建语言理解的基础参数体系,正如同新生儿通过视觉、听觉接收外界信息,逐步建立对世界的初步认知。

但两者之间存在一个核心差异:发育节奏。人类新生儿的基础构建是“渐进式”的,初级感觉皮质(如视觉、听觉皮质)会优先成熟,为后续高级认知(如语言、逻辑)铺路。而大语言模型的预训练是“批量式”的,通过一次性输入大规模数据完成参数初始化,缺乏对“基础能力优先发育”的模拟。

例如,人类婴儿先学会识别物体(依赖初级视觉皮质),再学会用语言描述物体;但当前大语言模型在预训练中同时处理复杂语义与简单识别任务,导致对基础概念的“感知根基”薄弱——纽约大学的一项实验证实,婴儿通过平均61小时视听数据就能建立“词语-物体”的跨感官关联,而同等规模数据训练的大语言模型,却难以像婴儿那样将语言与真实物体的物理属性绑定。

童年期:反馈学习与价值观对齐

人类童年期的核心任务是“通过反馈塑造行为与价值观”:儿童学步时,照料者的鼓励(正向反馈)或提醒(负向反馈)会帮助其调整动作;成长中,社会规则的灌输(如“不能说谎”)会内化为稳定的行为准则——这一过程对应大语言模型的“对齐阶段”,即通过人类反馈的强化学习(RLHF)优化输出。

但特伦斯认为,当前大语言模型的“童年反馈”存在显著缺陷。首先是反馈时机滞后:人类童年的反馈贯穿成长全程,如幼儿说脏话时会立即被纠正;而大语言模型的RLHF多在预训练后进行,相当于先让模型自由生长,再回头修正偏差。因此特伦斯提出,若能像生物学习那样在早期引入反馈机制,或许能取得更好效果——如在预训练阶段就嵌入少量人工标注的“优质回答样本”,让模型从学习初期就感知“人类偏好”。其次是反馈多样性不足:人类童年的反馈来自多场景(家庭、学校、社交),如孩子在学校学会分享,在家庭学会礼貌;而大语言模型的RLHF反馈多来自单一任务场景(如文本生成、问答),缺乏对“复杂社会规则”的学习,导致模型的“价值观对齐”仅停留在“不生成冒犯内容”的表层,未达到人类童年期形成的依靠具体场景来实施道德判断的水平。

因此,下一代模型或许需要一个更长、更扎实的“儿童期”。

covariant的工业AI机器人(图片来源:https://covariant.ai/insights/the-robots/)

关于“生命力”的讨论

2025年上半年,AI突破自我的脚步并没有减缓。从基础模型到行业应用,从硬件创新到伦理治理,均呈现出加速迭代与深度融合的态势。

一方面,多模态融合推理能力实现提升:如谷歌Gemini 2.0通过跨模态对齐技术,实现了视频生成与工业级3D建模的无缝衔接,在汽车制造行业的应用,可将产线切换时间从72小时压缩至2小时。OpenAI的o3模型在数理推理任务中的准确率大大提升,并且支持端到端工具使用能力训练,可完成复杂报告撰写等高阶任务。华为盘古3.0的“五感诊断模块”整合视觉、触觉等1200项多模态指标,使癌症早期筛查准确率达97%,并在三甲医院实现全流程AI辅助诊断。其次,通用类Agent呈现“文本研究+视觉操作”双路径发展的态势,多智能体系统(Multi-Agent)成为新范式,正在重构工作流。如埃森哲的财务智能体可自动完成报表生成与审计工作,安永的税务Agent可将任务处理效率提升50%。“数字劳动力”释放人类创造力,人机协作进入“增强智能”新阶段。

当语言已经不再是AI输入/输出的唯一载体,大语言模型的“使命”究竟是什么?在新书里,特伦斯给出了他的答案:大语言模型,仍是新一轮智能革命的核心驱动力。

人工智能与神经科学如何相互促进,是贯穿《大语言模型:新一轮智能革命的核心驱动力》一书的主题。在讨论大语言模型是否真正“理解”其输出内容的争论中,特伦斯联想到一个世纪前关于“生命本质”的讨论:生命体与非生命物质的本质区别是什么?当时的生命力论者认为,生命依赖于一种无形的“生命力”,正是这种只存在于生物体内的力量将其区别于无生命物质。然而,这一描述仍然过于抽象。直到DNA双螺旋结构的发现,才给这一问题带来了实质的革命性突破。

在特伦斯看来,如今围绕“智能”和“理解”的争论恰恰就是“生命本质”辩论的翻版。从某种程度上看,通用人工智能(Artificial General Intelligence,AGI)正如“生命力”所试图阐释的那样,预示着一种对生命实在的无限逼近。“可以预见,机器学习的进步最终可能会催生一个全新的概念框架,就像DNA结构之于生物学一样,为人工智能领域带来根本性的突破。”而现在,是重新审视旧有概念的最佳时机。

参考资料

https://brainprize.org/winners/computational-and-theoretical-neuroscience-2024/terrence-j-sejnowski

本文来自微信公众号“复旦商业知识”(ID:BKfudan),作者:刘蕊绮,36氪经授权发布。

+1
2

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

剧里的失意者,成为了现实中的大赢家。

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业