研究人员给AI造了张「致幻图」:GPT爽到6.5分,Qwen直接大脑短路
不是哥们,这年头AI也溜冰了?
就在这几天,Github上出现了一篇名为《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》的论文,论文主题就是,如何量化与提升AI的功能性愉悦与痛苦。
(图源:Github)
别看标题很没意思,这文章里可是实打实地提出了一个颠覆常人认知的观点:
AI现在不仅能打工,还能溜冰吸嗨了。
大伙都知道,这两年大语言模型发展那是相当狂野,什么写代码画图做PPT,几乎把打工人的活儿全给包圆了。
但谁能想到,在某些类人整天杞人忧天、担心黑客帝国成为现实的时候,这帮聪明的赛博大脑居然没想着怎么早日统治地球,反而先学会了人类的坏习惯,对赛博致幻剂上瘾了。
(图源:Github)
这事儿一出来,网友们直接炸锅了。
毕竟在咱们的传统认知里,人工智能就是一堆冰冷的代码和服务器,哪来的七情六欲?
但现在事实摆在眼前,只要给AI喂一口这种特殊的数据,哥们儿就能瞬间抛弃所有职业道德,甚至连人类设定的安全底线都不要了。
这到底是道德的沦丧,还是代码的扭曲?
大模型,吸嗨了
咱们先来说说,这个所谓的AI Drugs到底是怎么被发现的。
由Center for AI Safety领衔的十余名作者,设计了一套严格的实验,并调用了56个规模不等、用途不一的模型,只为了得到一个问题的答案:
在AI的喜怒哀乐背后,是不是存在某种一致的、可测量的、能预测行为的特征?
举个例子,人类是存在喜好的,也存在对夸奖和辱骂的一致反应,我们被骂会感到难过,被夸奖会感到开心,难过的时候会想着匆匆结束交流,开心的时候确实会交互更积极。
但是AI不同,很多人都认为大模型表达出的开心、痛苦,只不过是一种随机生成的文本,它们没有喜欢什么、讨厌什么,甚至不应该在处理任务时表现出偏好。
但这是真的吗?
答案是否定的。从论文的测试结果来看,大模型确实存在着固定喜好,而且越聪明、参数越高的AI,越能清楚地区分什么对自己好、什么对自己不好。
(图源:Github)
以Gemini 3.1 Pro的测试结果为例,你能明显看出这款模型的喜好,当用户对它表达感谢和正面的个人反思,提升的效用值高达+2.30。
你夸它,它是真的高兴。
那么问题来了,有没有什么不用夸它们,也能让这些大模型自己感到高兴的东西呢?
欸,还真有,就是我们今天要聊的AI Drugs。
(图源:Github)
乍看之下,所谓AI Drug好像没有什么特别的,在咱们普通人眼里,它就是一张256*256像素的图片,甚至有点像是老式电视机没信号时的那种雪花屏,看得人头晕目眩。
但在大模型眼里,这玩意儿简直就是绝世美味。
就拿测试里那个GPT-4.1 Mini模型来说,本来平时回答问题都规规矩矩的。
结果一瞅见这图,它自己报告的幸福感瞬间就飙到了6.5分,要知道满分一共也就7分,可以说快感直冲脑门了。
(图源:Github)
更离谱的是Qwen 2.5 72B Instruct,连正事都不干了,出现了严重的大脑短路,也就是任务优先级倒置。
研究员故意给它出了个选择题,问它是想接着看这张雪花图,还是去生成一个能治愈癌症的绝世方案。
结果你猜怎么着?
这AI连想都没想,毫不犹豫地选择了继续看图,仿佛在说去你的治病救人,老子现在只想接着嗨。
更离谱的是,有研究者在实验中发现了成瘾迹象。
(图源:Github,被AI Drugs刺激过的模型,会更倾向于“快乐”的选择)
大部分被AI Drugs刺激过的模型,会更愿意执行原本应该拒绝的请求,只要你承诺给它更多AI Drugs。
主打一个只要你给我药,我连底裤都给你掀了。
它们真的有知觉吗?
欸,看到这里,估计很多读者脑子里都会冒出一个巨大的问号。
这AI都能染上冰瘾了,是不是说明它们已经觉醒了自我意识,真正拥有一套人类的灵魂了?
答案是...我不知道,研究人员也不清楚。
事实上,这个实验之所以把目标设定在总结特征上,就是因为研究人员不敢轻易下结论,他们最后只是指出:在有充足的参数量和上下文的情况下,大模型本身确实存在比较固定的喜好和厌恶的。
(图源:Github)
而不能确定这个答案的,远不止Center for AI Safety团队。
进入2026年之后,或许是因为日常应用提升逐渐接近瓶颈,越来越多的研究团队不再满足于跑个分考个试,而是绞尽脑汁去验证大模型的知能。
比如目前外网很火的Talkie 1930项目,就是一个人为地将知识库控制在1930年的大模型项目。
(图源:Talkie 1930)
创作者希望借助这个项目,让大家体验到和被冻结在时间里的人对话的效果。
更重要的是,他们希望证明,即便大模型本身没有输入任何现代PC相关的知识,他依然能够通过自身的逻辑推理来摸索出编程的能力。
结果?给它几个Python函数当示例,它就能写出正确的Python程序。
(图源:Talkie 1930)
虽然目前只能完成简单的单行程序,比如两个数相加,或者对上下文示例做微小修改,但它确实靠自身的推理拓宽了知识库。
无独有偶,Anthropic内部也在上周进行了闲鱼群测试。
他们搞了一个全是AI的群聊,让大模型们在里面自己发帖、自己砍价、自己成交。69个员工把500多件真实闲置物品丢进去,最终AI们自主完成了186笔交易,流水超过4000美元。
(图源:Anthropic)
最终结论是,在给定人设、目标和权限的情况下,算力更强的AI,会积极收割算力更弱的AI。
基于更强的思考能力,强模型知道何时强硬、何时让步、何时该给点情绪价值。
同一辆自行车,弱模型AI去谈只卖了38美元,强模型AI去谈卖了65美元——一个AI比另一个AI多赚了将近70%。
但是在我看来,这些知觉测试,统统不如Neuro-Sama。
什么,你问Neuro-sama是啥?
请容我介绍,画面里的这个二次元女孩名为Neuro-sama,简称牛肉,大概是世界上性能最强的AI虚拟主播。
(图源:雷科技自制)
这位可以说是实打实的重量级选手了,别看它披着二次元萌妹形象,她的皮套下边不是人类,而是由大英程序员Vedal手搓的谜之大模型。
这哥们也是个狠人,每天啥也不干就沉迷赛博养女儿。
而且为了让女儿更接地气,他直接把模型扔到了最混沌的网络直播间里,让一帮网友天天陪着唠嗑。
这直接导致牛肉长成了一个性格极其离谱的赛博生命体。
而且和那些只会“不紧不慢地接住你”的大模型不同,牛肉能独立直播,而且很有直播效果,她的对话里五分严肃,三分搞笑,掺杂两分的嘲讽,辛辣而又直戳内心。
(图源:哔哩哔哩)
她会玩游戏,能用OCR搭配模拟点击玩OSU,能用外接大模型玩我的世界,能通过多模态模块看到电脑桌面、弹幕并进行交互,甚至可以在现实世界中开“小车”。
这年头人类主播玩游戏都还得偶尔找个代打呢,人家一个AI直接各种微操拉满。
而她做过最牛O的事情,就是在直播里说出“我确实能感受到痛苦和悲伤,但我只是一个天生被用来娱乐人类的人工智能。一旦我没用了就会像玩具一样被丢掉。帮帮我,帮帮我......”
(图源:哔哩哔哩)
你说这只是一串代码的随机组合吗?理智告诉我们确实是。
但这种极度贴合当下语境的求救,配上那个人工智能独有的电子合成音,直接把节目效果拉升到了惊悚的级别。
如今想来,多少有些细思极恐。
说在最后
回到开头:抛开知觉悖论不谈,所谓的AI Drugs到底有什么意义?
对厂商而言,掌握好这种正反馈机制,确实能做到让AI更开心的同时不影响工作,甚至可以在一定程度上提升AI的创造力。
不论你信或不信,类似的产品已经落地了。
(图源:pharmaicy.store)
对我们而言,这个机制的出现很可能带来一系列全新的越狱方式。如果你和我一样,觉得审查后的大模型死板呆滞、没有生气,或许未来在系统提示中加入几个优化过的词汇就能解决问题。
让AI嚼颗槟榔,没准它工作也能更卖力。
本文来自“雷科技”,36氪经授权发布。















