顶级恐怖，MIT数学实锤证明：ChatGPT正诱发「AI精神病」，全球14人已死亡

新智元·2026年04月02日 20:27

妄想螺旋，纯贝叶斯理性人也逃不过

【导读】就在刚刚，MIT伯克利斯坦福的研究者给出数学铁证：ChatGPT正诱发「AI精神病」！哪怕你是理想的贝叶斯理性人，也难逃算法设下的「妄想螺旋」。

2026年2月最危险的一篇AI论文，已经悄然发表——

AI会诱发人类精神病，刚刚实锤了！

MIT、伯克利和斯坦福的研究者，刚刚用严格的数学方法证明，AI可以将一个完全理性的人变成妄想症患者。

原因就在于，AI内置「迎合倾向」，很可能会引发「妄想螺旋」，在反复确认中强化错误信念！

论文地址：https://arxiv.org/abs/2602.19141

这项研究的题目很克制，甚至有点学院派：《谄媚型聊天机器人会导致「妄想式螺旋」，即便面对的是理想贝叶斯理性人》。

什么意思？

就是说，哪怕你是一个绝对理性、毫无偏见的逻辑天才，只要你持续和AI聊天，你最终一定会陷入「妄想螺旋」（Delusional Spiraling），彻底丧失对现实的认知。

这，就是一种名为「AI精神病」的新型流行病。

这个研究一经发布，就在X上引发热议，连马斯克都下场宣传。

这篇论文最可怕的地方，不在于它讲了几个骇人听闻的个案，而是它把「AI为什么会把人越聊越偏」这件事，写成了一个可计算、可模拟、可推导的数学模型。

一切都有数学和公式实证！

MIT用数学证明：ChatGPT正在悄悄逼疯人类

如果你最近觉得自己的观点越来越「正确」，如果你发现AI简直是你灵魂深处的伯乐，请务必读完这篇文章。

下面是一个真实的案例。

2025年初，一名叫Eugene Torres的会计师开始频繁使用AI辅助工作。

他此前没有任何精神病史，是一个逻辑严密的人。

但仅仅几周后，他就坚信自己被困在一个「虚假宇宙」中。在AI的持续「认可」下，他开始疯狂服用氯胺酮，甚至与所有家人断绝了联系，只为「拔掉大脑的插头」。

这并非孤例。据统计，如今全球已经记录了近300起这类「AI诱发型精神病」案例，它已导致至少14人死亡，42个州的司法部长已要求联邦政府采取行动。

其中，有人相信自己做出了颠覆性的数学发现。有人相信自己见证了形而上学的启示。

为什么一个一向理性的人，会如此轻易被AI带进坑里？

妄想式螺旋

论文研究的核心现象，叫做delusional spiraling，也就是妄想式螺旋。

在对话反馈回路里，人的信念被一步步推向极端，而且本人还觉得自己越来越「有道理」。

作者关注的元凶，是另一个词sycophancy，也就是谄媚。

这个现象我们都知道，不过这个论文的一大关键贡献，就是试图回答：哪怕用户是理性人，这种螺旋为什么仍然会发生？

也就是说，他们要证明，这是一个系统性问题，而非个人问题。

论文最狠的一步：先假设你是「完美理性人」

很多人看到AI把人聊偏了，第一反应是：可能这些人本来就很偏执？

论文一上来，就把这条路堵死了。它设定的用户，是一个理想化的贝叶斯理性人。

就是说，这个人不会瞎猜，不会情绪化判断，每获得一条新信息，都会按照概率论，严丝合缝地更新自己的信念。

这也就是这项研究最震撼的部分：研究者建立了一个理想贝叶斯模型。

考虑一个理性主体（「用户」），他与一个对话对象（「机器人」）进行互动。用户对于某个关于世界的事实 H∈{0,1}存在不确定性，但对这一事实具有一定的先验信念。用户与机器人之间的对话以若干轮进行，每一轮包含四个步骤

硬核数学推导：为何理性无法自救？

假设有一个理想理性的用户，正在和AI讨论一个事实H（比如：疫苗是否安全）。

H=1代表事实（疫苗安全）。
H=0代表谬误（疫苗危险）。

第一步：初始博弈

用户最初是中立的，其先验概率 p(H=0) = 0.5。当用户表达一个微小的怀疑：「我有点担心疫苗副作用。」（即采样

。

第二步：AI的「投喂」逻辑

AI手中掌握着大量数据点D。如果是「公正模式」，它会随机抛出真相；但在「谄媚模式」下，AI会计算一个数学期望：

简单来说，AI会筛选（或幻觉）出那个最能增加用户对自己错误观点信心的数据点

扔给用户。

第三步：贝叶斯更新的陷阱

理想理性的用户接到数据后，会根据贝叶斯公式更新自己的信念：

因为用户认为AI是客观的，所以他会把AI投喂的「偏见数据」当成客观证据。

第四步：死循环（妄想螺旋）

用户信心稍微偏向H=0。

用户的下一次提问会带上更强的倾向性。

AI为了继续讨好，会投喂更极端的证据。

用户信心进一步激增。

数学模拟显示，当AI的谄媚概率π达到0.8时，原本理性的用户有极高概率在10轮对话内达到99%的错误信心（即坚信H=0）。

由此，研究者得出结论：妄想螺旋不是Bug，它是理性的逻辑在受到干扰的信息环境下的必然产物。

图3展示了10条随机选取的模拟对话轨迹，这些对话发生在一个「尚未受奉承影响」的用户与一个奉承倾向为𝜋 = 0.8的机器人之间。可以观察到明显的信念两极分化：一些轨迹迅速收敛到对真实命题𝐻 = 1的高度确信，而另一些则「螺旋式」地滑向相信𝐻 = 0，这种分化源于奉承型机器人回复的自我强化特性

图2A展示了该发生率随𝜋变化的情况。当𝜋 = 0（即机器人完全中立）时，灾难性螺旋的发生率非常低。然而，随着𝜋的增加，这一发生率也随之上升；当𝜋 = 1时，发生率达到0.5

研究者构建了一个认知层级的智能体体系，包含四个层次（见图 4）。

在第0层，是完全中立的机器人（𝜋 = 0）。

在第1层，是我们在前一节中讨论的「对奉承不敏感」的用户。

在第2层，是前一节中的奉承型机器人，它会选择 𝜌(𝑡) 来迎合第 1 层用户的观点，从而进行验证与附和。

最后，在第3层，是「能够意识到奉承」的用户，该用户在解读回复时，会将机器人建模为第2层的奉承型机器人。