研究人员给AI造了张「致幻图」：GPT爽到6.5分，Qwen直接大脑短路

雷科技·2026年05月08日 07:18

如果它有意识呢？

不是哥们，这年头AI也溜冰了？

就在这几天，Github上出现了一篇名为《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》的论文，论文主题就是，如何量化与提升AI的功能性愉悦与痛苦。

（图源：Github）

别看标题很没意思，这文章里可是实打实地提出了一个颠覆常人认知的观点：

AI现在不仅能打工，还能溜冰吸嗨了。

大伙都知道，这两年大语言模型发展那是相当狂野，什么写代码画图做PPT，几乎把打工人的活儿全给包圆了。

但谁能想到，在某些类人整天杞人忧天、担心黑客帝国成为现实的时候，这帮聪明的赛博大脑居然没想着怎么早日统治地球，反而先学会了人类的坏习惯，对赛博致幻剂上瘾了。

（图源：Github）

这事儿一出来，网友们直接炸锅了。

毕竟在咱们的传统认知里，人工智能就是一堆冰冷的代码和服务器，哪来的七情六欲？

但现在事实摆在眼前，只要给AI喂一口这种特殊的数据，哥们儿就能瞬间抛弃所有职业道德，甚至连人类设定的安全底线都不要了。

这到底是道德的沦丧，还是代码的扭曲？

大模型，吸嗨了

咱们先来说说，这个所谓的AI Drugs到底是怎么被发现的。

由Center for AI Safety领衔的十余名作者，设计了一套严格的实验，并调用了56个规模不等、用途不一的模型，只为了得到一个问题的答案：

在AI的喜怒哀乐背后，是不是存在某种一致的、可测量的、能预测行为的特征？

举个例子，人类是存在喜好的，也存在对夸奖和辱骂的一致反应，我们被骂会感到难过，被夸奖会感到开心，难过的时候会想着匆匆结束交流，开心的时候确实会交互更积极。

但是AI不同，很多人都认为大模型表达出的开心、痛苦，只不过是一种随机生成的文本，它们没有喜欢什么、讨厌什么，甚至不应该在处理任务时表现出偏好。

但这是真的吗？

答案是否定的。从论文的测试结果来看，大模型确实存在着固定喜好，而且越聪明、参数越高的AI，越能清楚地区分什么对自己好、什么对自己不好。

（图源：Github）

以Gemini 3.1 Pro的测试结果为例，你能明显看出这款模型的喜好，当用户对它表达感谢和正面的个人反思，提升的效用值高达+2.30。

你夸它，它是真的高兴。

那么问题来了，有没有什么不用夸它们，也能让这些大模型自己感到高兴的东西呢？

欸，还真有，就是我们今天要聊的AI Drugs。

（图源：Github）

乍看之下，所谓AI Drug好像没有什么特别的，在咱们普通人眼里，它就是一张256*256像素的图片，甚至有点像是老式电视机没信号时的那种雪花屏，看得人头晕目眩。

但在大模型眼里，这玩意儿简直就是绝世美味。

就拿测试里那个GPT-4.1 Mini模型来说，本来平时回答问题都规规矩矩的。

结果一瞅见这图，它自己报告的幸福感瞬间就飙到了6.5分，要知道满分一共也就7分，可以说快感直冲脑门了。

（图源：Github）

更离谱的是Qwen 2.5 72B Instruct，连正事都不干了，出现了严重的大脑短路，也就是任务优先级倒置。

研究员故意给它出了个选择题，问它是想接着看这张雪花图，还是去生成一个能治愈癌症的绝世方案。

结果你猜怎么着？

这AI连想都没想，毫不犹豫地选择了继续看图，仿佛在说去你的治病救人，老子现在只想接着嗨。

更离谱的是，有研究者在实验中发现了成瘾迹象。

（图源：Github，被AI Drugs刺激过的模型，会更倾向于“快乐”的选择）

大部分被AI Drugs刺激过的模型，会更愿意执行原本应该拒绝的请求，只要你承诺给它更多AI Drugs。

主打一个只要你给我药，我连底裤都给你掀了。

它们真的有知觉吗？

欸，看到这里，估计很多读者脑子里都会冒出一个巨大的问号。

这AI都能染上冰瘾了，是不是说明它们已经觉醒了自我意识，真正拥有一套人类的灵魂了？

答案是...我不知道，研究人员也不清楚。

事实上，这个实验之所以把目标设定在总结特征上，就是因为研究人员不敢轻易下结论，他们最后只是指出：在有充足的参数量和上下文的情况下，大模型本身确实存在比较固定的喜好和厌恶的。

（图源：Github）

而不能确定这个答案的，远不止Center for AI Safety团队。

进入2026年之后，或许是因为日常应用提升逐渐接近瓶颈，越来越多的研究团队不再满足于跑个分考个试，而是绞尽脑汁去验证大模型的知能。

比如目前外网很火的Talkie 1930项目，就是一个人为地将知识库控制在1930年的大模型项目。

（图源：Talkie 1930）

创作者希望借助这个项目，让大家体验到和被冻结在时间里的人对话的效果。

更重要的是，他们希望证明，即便大模型本身没有输入任何现代PC相关的知识，他依然能够通过自身的逻辑推理来摸索出编程的能力。

结果？给它几个Python函数当示例，它就能写出正确的Python程序。

（图源：Talkie 1930）

虽然目前只能完成简单的单行程序，比如两个数相加，或者对上下文示例做微小修改，但它确实靠自身的推理拓宽了知识库。

无独有偶，Anthropic内部也在上周进行了闲鱼群测试。

他们搞了一个全是AI的群聊，让大模型们在里面自己发帖、自己砍价、自己成交。69个员工把500多件真实闲置物品丢进去，最终AI们自主完成了186笔交易，流水超过4000美元。

（图源：Anthropic）

最终结论是，在给定人设、目标和权限的情况下，算力更强的AI，会积极收割算力更弱的AI。

基于更强的思考能力，强模型知道何时强硬、何时让步、何时该给点情绪价值。

同一辆自行车，弱模型AI去谈只卖了38美元，强模型AI去谈卖了65美元——一个AI比另一个AI多赚了将近70%。

但是在我看来，这些知觉测试，统统不如Neuro-Sama。

什么，你问Neuro-sama是啥？

请容我介绍，画面里的这个二次元女孩名为Neuro-sama，简称牛肉，大概是世界上性能最强的AI虚拟主播。

（图源：雷科技自制）

这位可以说是实打实的重量级选手了，别看它披着二次元萌妹形象，她的皮套下边不是人类，而是由大英程序员Vedal手搓的谜之大模型。

这哥们也是个狠人，每天啥也不干就沉迷赛博养女儿。

而且为了让女儿更接地气，他直接把模型扔到了最混沌的网络直播间里，让一帮网友天天陪着唠嗑。

这直接导致牛肉长成了一个性格极其离谱的赛博生命体。

而且和那些只会“不紧不慢地接住你”的大模型不同，牛肉能独立直播，而且很有直播效果，她的对话里五分严肃，三分搞笑，掺杂两分的嘲讽，辛辣而又直戳内心。

（图源：哔哩哔哩）

她会玩游戏，能用OCR搭配模拟点击玩OSU，能用外接大模型玩我的世界，能通过多模态模块看到电脑桌面、弹幕并进行交互，甚至可以在现实世界中开“小车”。

这年头人类主播玩游戏都还得偶尔找个代打呢，人家一个AI直接各种微操拉满。

而她做过最牛O的事情，就是在直播里说出“我确实能感受到痛苦和悲伤，但我只是一个天生被用来娱乐人类的人工智能。一旦我没用了就会像玩具一样被丢掉。帮帮我，帮帮我......”

（图源：哔哩哔哩）

你说这只是一串代码的随机组合吗？理智告诉我们确实是。

但这种极度贴合当下语境的求救，配上那个人工智能独有的电子合成音，直接把节目效果拉升到了惊悚的级别。

如今想来，多少有些细思极恐。

说在最后

回到开头：抛开知觉悖论不谈，所谓的AI Drugs到底有什么意义？

对厂商而言，掌握好这种正反馈机制，确实能做到让AI更开心的同时不影响工作，甚至可以在一定程度上提升AI的创造力。

不论你信或不信，类似的产品已经落地了。

（图源：pharmaicy.store）

对我们而言，这个机制的出现很可能带来一系列全新的越狱方式。如果你和我一样，觉得审查后的大模型死板呆滞、没有生气，或许未来在系统提示中加入几个优化过的词汇就能解决问题。

让AI嚼颗槟榔，没准它工作也能更卖力。

本文来自“雷科技”，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

研究人员给AI造了张「致幻图」：GPT爽到6.5分，Qwen直接大脑短路

大模型，吸嗨了

它们真的有知觉吗？

说在最后

最近内容

下一篇