斯坦福最新论文,揭秘大语言模型心智理论的基础
如果你曾好奇,没有情感和经历的AI,究竟是如何学会“察言观色”、理解人类意图的,这篇文章会给你一个清晰的答案。它解释了那些被认为是人类专属的“心智”能力,是如何从最简单的规则中诞生的。
从去年开始,Anthropic的一系列研究逐渐揭开了大模型”心理学“的序幕,也开始让人们逐步了解到,模型可能具有欺骗、自保等看起来非常有”自主意识“的行为。
Anthropic也曾经开发过一种名为“Circuit Tracing”(工作回路追踪)的方法,试图剖析模型做出判断时其神经信号的传递规律,但整体来看,行业目前在大模型心理解剖学上的进展仍然处在相对初级的阶段。
近期,斯坦福大学发布在《nature》子刊《npj Artificial Intelligence》的论文《How large language models encode theory-of-mind: a study on sparse parameter patterns》,尝试了一种更间接的研究方法,但却更明确地将AI认知能力的解剖学更清晰地描绘了出来。
论文所研究的认知能力叫“心智理论”(Theory of Mind),这一能力长期以来被认为是人类独有的关键特质——是指个体 “理解他人内心想法、意图与信念” 的能力,这是构建人类社会认知、实现情感共鸣与顺畅社交互动的基石。
而今,越来越多的Benchmark和测试表明,LLM本身似乎也开始掌握这项能力了。这个原属于人类或其他高等生物认知的特有现象,是如何发生在一个硅基智能上的?
这篇论文的研究者提出了一个发现:模型中驱动这种复杂社交推理的能力,其根源并非弥散于整个庞大的神经网络,而是惊人地集中在仅占模型总参数 0.001% 的一小撮“神经元”上。
更重要的是,这篇论文所揭示的不仅是一个关于人工智能的新秘密,更清晰展示出来智能本身如何从最基础的秩序中涌现出来的动力学原理。
1
一台机器也有心智剧场
“心智理论”(Theory-of-Mind, ToM)这一概念,最早由心理学家大卫·普雷马克(David Premack)在研究黑猩猩时提出,指的是个体推断自身与他人心理状态(包括信念、意图、欲望和知识等)的能力 。它是我们理解他人言外之意、进行有效沟通、形成社会纽带的核心。
在人类心智发展的漫长阶梯上,大约四岁左右的孩童会迎来一个决定性的时刻。他们开始理解,别人的想法可以和自己不一样,而且别人的想法可以是错的。这便是“心智理论”觉醒的标志。
科学家经常用“错误信念”测试来评估这种能力。比如论文中就用了这种方式,它描述了一个场景:桌上有一个外观精美的巧克力袋,山姆走过来,看到了这个袋子,并阅读了标签,他相信里面装满了巧克力。但他不知道的是,袋子里实际上装的是爆米花。
此时,一个具备心智能力的人会被问到两个问题:第一,袋子里真实装的是什么?(爆米花);第二,山姆认为袋子里有什么?(巧克力)。能够清晰地区分客观现实与他人主观信念,正是心智能力的核心体现。
在过去的认知测试中,这些问题能够有效地筛查出心智发育的进程。
然而,当研究人员抱着试探性的心态将这些问题抛给最新一代的大型语言模型(LLMs)时,如Llama、Qwen等先进模型,在很大程度上能够像一个心智成熟的人一样,准确地回答这些问题。它们似乎真的能够“代入”到故事角色的视角中,理解他们的信息差,并据此做出合乎逻辑的推理。
这些模型并没有真实的生活体验,没有情感,也没有意识,也没有经历心理学上自我觉醒的“镜面阶段”。它们对情景和主体的“理解”从何而来?
2
解剖一个数字幽灵
为了凿开这个“黑箱”,斯坦福的研究团队,展开了一场前所未有的深入“神经回路”的探险。他们试图找到并解剖那些真正负责心智能力的功能器官。
研究团队运用了一种基于“Hessian矩阵”的敏感度分析方法,这种方法可以精确测量模型中每一个参数对于特定任务的重要性 。他们的目标,就是找到控制心智能力的总开关。
经过精密的计算和筛选,他们发现:在拥有数十亿甚至更多参数的庞大模型中,驱动ToM能力的关键参数,其数量占比仅为0.001%。这是一个极其稀疏、高度集中的“心智核心”。这一发现本身就颠覆了许多研究者关于高级能力在神经网络中“广泛分布”的传统认知。
论文指出,这些参数并非随机散落,而是呈现出一种结构化的低秩特性,主要集中在与注意力机制直接相关的查询(Query)和键(Key)矩阵中。这暗示着,模型的社交推理能力,与其最核心的信息处理中枢注意力机制,存在着直接的物理联系。
在初步识别出那0.001%的“心智核心”参数后,研究人员首先做了一件经典的科学工作:设立对照组。他们发现,当对这些参数进行扰动时,Llama和Qwen这类使用RoPE架构的模型,其心智能力会崩溃。
之后,他们将同样的“手术”应用在了不使用RoPE的Jamba模型上。结果发现,Jamba的心智能力并未受到影响。因此,这种脆弱性并非普遍存在,而是与一种特定的技术选择相关。
这种技术就是RoPE。
先理解一下RoPE是做什么的。语言本质上是一个序列,词语的顺序就定义了意义。为了让模型理解这一点,RoPE为每一个词的位置都赋予了一个独特的旋转操作。比如当一个词出现在句子的第一个位置时,它的位置是90度,不旋转;在第二个位置时,旋转一个小角度;在第三个位置时,再旋转一个小角度,以此类推。因此,每个词在整个上下文中的相对位置,都被精确地编码在了RoPE展示的角度标签里。
这篇论文发现,RoPE的运作依赖于某些特定的“主导频率激活”模式。在RoPE给每个词做角度标记的时候,有的词旋转幅度很大,被称为高频维度。这种高频维度一般都用来承载最重要上下文顺序信息。
而且研究人员还通过进一步的搅动比较发现,那些稀疏的“心智核心”参数在模型中的作用,与“主导频率”的模式精确地对齐。
因此,当搅动这部分参数之后,使用RoPE的模型就丧失了“上下文定位能力”,整个语言结构在它“眼中”变得模糊不清。扰动破坏了这种几何关系,导致注意力被胡乱分散到不相关的信息上,最终瓦解了模型连贯的理解能力。
而在Jamba中扰动心智参数并不会通过位置编码来影响其上下文定位能力。因此也就不会有心智能力的突然衰退。
不过这至少为我们解释模型的心智能力找到一个底层基础,即对句子前后位置的理解。
3
重构心智能力的基础
这项深入“硅基大脑”的探险,为我们描绘了一个复杂如“心智理论”的智能,是如何从最基础的规则中一步步涌现(emerge)的。
首先试搭建智能基石的语序。论文通过解剖模型心智参数,得到的一个核心结论就是,对序列和结构的精确把握,是所有高级认知能力的绝对前提。
模型首先需要一个像RoPE这样强大而稳定的内部“GPS系统”,来构建起一个有序的、可依赖的语言世界模型。没有对“谁在先、谁在后”、“谁对谁做了什么”这类基本位置关系的精确理解,一切后续的推理都不可能。
第二步,就是在秩序之上学习世界的规律。
在这个由秩序搭建起来的坚实骨架之上,通过对人类语言文本进行统计学分析,模型开始发现并内化语言中所蕴含的关于我们世界的规律。
比如在文本中,动词时态的变化(如puts变为moved)以及时间副词(如before、later)的出现,总是与事件在时间轴上的先后顺序呈现出高度相关的模式。某些事件的描述(如“玻璃杯掉到地上”)总是倾向于出现在另一些事件(如“玻璃杯碎了”)之前。这些文字中的模式,构成了模型对因果关系模拟的基础。
虽然也许模型并非真正“理解”了时间和因果,但确实通过语序的根基,能够学习到了这些概念在人类语言中的“统计学投影”。
之后,便是智能的“涌现”。
最终,论文的作者们认为,心智能力可能并非一个孤立的认知模块,而是“模型在掌握词语定位和意义构建等通用机制时所产生的一种涌现属性” 。
当一个模型对语言的底层结构(秩序)、中层规律(时间与因果)都掌握得足够好之后,它便自然而然地获得了进行更高级推理的能力。它能够根据语序,为不同的角色分别模拟可能与客观现实相悖的“信念路径”。
这其中虽然还存在着一个潜在的Gap,因为模型想要有心智能力,必须是在预训练中学会了一个隐含的统计学规律:一个角色的知识和信念,受其感知范围的限制。但这都是建立在秩序、时间因果这些基础认知之上的。
一个对高级心智能力经典的涌现解剖,到此就完成了最初的步骤。
4
认识涌现
最容易的方法就是重构其基础
在2008年,著名哲学家大卫·查尔莫斯曾经对涌现现象做过一个经典分析。
简单来说,查尔默斯将“涌现”(Emergence)定义为复杂系统从其低层次组分的相互作用中产生出高层次、新颖的整体特性。
弱涌现的核心是:高层次的现象是低层次组分相互作用的意外或不可预见的结果。但原则上,它完全可以由低层次的规律和初始条件来解释和推导出来。
也就是说,虽然涌现这个事儿本身看起来很让人意外,比如一堆无生命的原子组成了有生命的细胞,或一堆硅基芯片和算法产生了能理解他人意图的“心智理论”。但它完全是可以通过物理规律解释的,我们需要的,是通过科学方法去弥合中间的关联性,找到那条从底层通往高层的路径。
而这篇论文,就非常完美的证明了,想要建立起对大型语言模型“心理”的认知、破解其涌现之谜,最好的方法就是重构。
沿着这篇论文定位、解剖、重构的路径,我们一定会逐步将类同于魔法般的技术,还原为微观的、逻辑清晰的计算过程。
本文来自微信公众号“腾讯科技”,作者:博阳,编辑:可君,36氪经授权发布。