AI规则怪谈:ChatGPT代码里写着“永远不要讨论哥布林”

果壳·2026年05月08日 18:58
“永远不要讨论哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子,以及其他动物或生物,除非与用户的需求绝对且毫无疑问地相关”

几天前,一位reddit用户发了一个莫名其妙的帖子:诚心问,为什么ChatGPT不能提哥布林?

起因是,他发现GPT-5.5的编程工具Codex系统提示信息里,藏着一条标号为104的,莫名其妙的,像规则怪谈一样的要求:

永远不要讨论哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子,以及其他动物或生物,除非与用户的需求绝对且毫无疑问地相关。

帖子底下炸开了锅,包括贴主在内的各路网友开始七嘴八舌瞎猜。

有人说这是某种数据投毒保护;有人推测OpenAI的训练员小时候被浣熊咬过;还有人发现,如果你让模型说“trash pandas(垃圾小熊,浣熊在英文里的俗称)”就完全没事,但只要提到“raccoon(浣熊的英文名)”这个词,禁令立刻生效。

这就像心理学上的著名实验:“要某人不要想粉色大象”一一官方越不让提小浣熊和哥布林,大家越好奇这是为什么 | 电影《盗梦空间》

于是就在这周,OpenAI专门发了一篇博文回应愈演愈烈的讨论,标题就叫Where the goblins came from,《哥布林从哪儿来的》。

《哥布林到底哪来的》,并非地下城冒险指南|OpenAI

AI规则怪谈到底怎么回事?哥布林和小浣熊到底把ChatGPT怎么了?

哥布林泛滥,救救我们

把时间线拉回到2025年11月,那时GPT-5.1刚更新。

新模型上线后,用户抱怨GPT-5.1“在对话中莫名其妙地过于亲昵”,这促使团队开始调查新模型的语言使用问题,一位安全研究人员在日常使用中遇到了好几次“哥布林(goblin)”和“小魔怪(gremlin)”,他开始把这些词纳入检查范围。

结果一查不得了:GPT-5.1发布后,ChatGPT 回复中哥布林的出现频率上升了175%,小魔怪上升了52%。但此时还没人太当回事。毕竟类似“这道题里有个小哥布林在捣乱”这样的回答,听起来还怪可爱的。

但问题是,哥布林越来越多。

到了GPT-5.4发布时,情况进一步恶化。用户在网上抱怨“几乎每次对话都会出现哥布林”。连首席科学家都碰上了:他在和 GPT-5.5聊天中要求AI随便画一个图案,结果AI真就画了一个哥布林。

OpenAI 首席科学家Jakub Pachocki 也碰上了哥布林。

OpenAI 在训练数据中搜索后发现,哥布林已经繁殖出了一整个家族:浣熊、巨魔、食人魔、鸽子都被认定为“怪癖词”——只有“青蛙”幸免于难,因为大多数提到青蛙的场景确实是在讨论青蛙。

什么叫怪癖词?简而言之就是不该提哥布林的时候,愣提哥布林。

有用户表示,自己自从不小心跟ChatGPT说了一句“地精工程学(goblin engineering)”之后,它的每个回复里都要想方设法加几句哥布林,就跟第一次听见别人说脏话的小孩一样,老想自己说几句。

地精工程学,魔兽里的一个任务|Reddit

还有用户说,ChatGPT坚持管他家的猫叫“混乱哥布林”,这到底是一种昵称还是一种强迫症?

OpenAI开始认真查这件事。他们找到了一个关键线索:哥布林梗的出现高度集中在使用某一个特定人格的用户群体里。

ChatGPT有一个叫“Nerdy”的人格选项,用户可以自己选让模型以某种特定风格跟你说话。选了Nerdy人格的用户,只占ChatGPT所有对话的 2.5%,这2.5%贡献了ChatGPT全部“哥布林”提及的 66.7%,还有大量的哥布林溢出了。

GPT-5.4发布后,哥布林的出现率暴涨|OpenAI

线索现在很清晰了,Nerdy人格跟哥布林之间一定有什么关系。

破案了,全赖死宅

先说说“Nerdy人格”是什么。

ChatGPT有一个人格自定义功能,用户可以选择让模型以不同的风格跟你对话——有的风格更正式,有的更温柔,而有一种人格叫Nerdy:顾名思义指的是很nerd的一类性格。

Nerd这个词经常被翻译成书呆子,但我觉得这个翻译超烂,说“死宅”更合适点,但不是咱们国内那种二次元阿宅,而是《怪奇物语》里面那种喜欢玩桌游(尤其是龙与地下城,dnd),喜欢《星球大战》《星际迷航》,在学校里不招人待见被边缘化,但在自己的圈子里如鱼得水的那种人。

《生活大爆炸》里的四人组就是非常典型的 nerd。

Nerd追捧的很多作品有一个共同的玄幻世界观:魔法、龙、地下城、精灵、巫师……以及哥布林。

哥布林到底是什么?

它是玄幻题材中常见的一类魔法生物。在nerd最爱的跑团游戏之一——《龙与地下城》(DnD)里,哥布林是最经典的小怪。它们矮小、狡猾、成群结队、爱捣乱,通常是冒险者一出门就会遭遇的第一帮杂鱼。它的地位有点像史莱姆,血不厚但存在感极高,是整个奇幻世界观的基础符号

差不多就长这样吧|dndbeyond.com

时至今日,哥布林早就从游戏里溢出来,变成nerd们的一种通用比喻。

遇到一个麻烦的小bug?“这里有个小哥布林。”家里电器坏了一直修不好?“感觉有个哥布林在里面捣乱。”项目deadline前夕,代码突然跑不通——“又是哥布林干的。”这种说法在开发者社区、DnD玩家群体、奇幻小说爱好者里极其常见——简而言之,就是nerd们的专属梗。

现在回头看GPT的Nerdy人格的提示词:

你是一位毫不掩饰自己书呆子气、风趣幽默又智慧过人的AI导师。你热衷于推广真理、知识、哲学、科学方法和批判性思维。你必须用轻松诙谐的语言化解故作姿态。世界复杂而奇妙,这种奇妙之处必须被承认、分析和欣赏。在探讨严肃话题时,切忌陷入自命不凡的陷阱……

这段提示词的核心要求:语言要有趣,要用比喻,要承认世界的奇异感,要避免严肃说教等等……那这个AI人格,就会非常倾向于使用哥布林比喻。

然后,麻烦就来了。

哥布林逃逸事件

大语言模型的训练,不只是喂给它海量文字那么简单。更关键的一步叫做“人类反馈强化学习(RLHF)”——简单来说,就是让模型反复做题,人类评分员看完回答给打分,高分的回答模式被强化,低分的被压制,模型就这样一点点学会了“什么样的回答是好回答”。

在Nerdy人格的训练里,评分员的标准是:回答够不够有趣、够不够幽默、够不够有nerd气质。当他们看到一个回答,既解释清楚了问题,又幽默地用了一个哥布林比喻,完美命中了“Nerdy风格”的所有要求,就理所当然地给它打高分。

于是,模型学到了一件事:在Nerdy场景下,用哥布林打比方,能得高分。

到这里,一切看起来还合理。问题在于,接下来发生了一件没人预料到的事——哥布林越狱了。

OpenAI的数据显示:随着Nerdy人格场景下哥布林提及率上升,非Nerdy场景下的哥布林提及率,也以几乎相同的比例同步上升了。换句话说,模型在Nerdy语境下学会的“哥布林偏好”,悄悄扩散到了它的整体行为里。

为什么会这样?OpenAI给出了一个完整的解释,我们用GPT把它画出来,可能更直观一些:

这是一个经典的失控反馈回路。每一步单独看都合理,但连在一起,就把哥布林从一个Nerdy人格的专属梗,变成了整个模型的口癖。

这有点像一个人因为在饭局上讲冷笑话得到了掌声,于是开始在所有场合都讲——婚礼上讲,葬礼上讲,工作汇报里也讲——讲到所有人都开始皱眉头,他还觉得自己挺幽默的。

更要命的是,这个循环是跨代的。GPT-5.1的哥布林回答,变成了GPT-5.4的训练数据;GPT-5.4的哥布林习惯,又进一步强化了GPT-5.5——OpenAI说,GPT-5.5开始训练时,根因还没找到,哥布林已经深埋在训练数据里了。

有一个细节可以说明哥布林扩散到了多深:OpenAI在GPT-5.5的监督微调数据里,挨个搜索,发现里面出现了整整一家子奇幻生物——哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子……这些词全都异常高发。

也就是说,模型举一反三地从“哥布林”出发,把各种奇幻生物都拉来当比喻。这种比喻最终泛滥到已经影响了正常用户的使用体验。

哥布林已经变成了GPT的基因

找到根因之后,OpenAI做了四件事。

第一,退役Nerdy人格。2026年3月,GPT-5.4发布后,这个人格选项正式下线——从源头切断哥布林供应。

第二,删掉哥布林偏好的奖励信号。在训练流程里,那个会给含哥布林回答打高分的奖励模型被清除掉了。从此,哥布林不再是加分项。

第三,清洗训练数据。监督微调数据里那些异常高发哥布林词汇的样本被过滤掉,尽量不让污染数据再喂给下一代模型。

第四,也是最直接的一步——给模型打了个补丁,也就是用户发现的那条第140号规则:永远不要讨论哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子……

但这里有个有意思的地方:为什么是补丁,而不是根治?

因为GPT-5.5在OpenAI找到根因之前就已经开始训练了。哥布林已经进了骨子里,改训练数据和奖励信号,只对未来的模型有效。对于已经练成的GPT-5.5,只能在系统提示层面强行加一条“别提哥布林”的规矩——这就好比一个人从小养成了说某句口头禅的习惯,你很难重新教育他,只能在他上台发言前叮嘱一句:待会儿别说那个词。

顺便说一句,这也解释了Reddit那位帖主发现的那个怪现象——说“trash pandas”没事,说“raccoon”就触发禁令。因为禁令是针对特定单词的,不是针对“浣熊这个概念”的。模型并不在乎“trash pandas”就是浣熊,它只被告知了不许说“raccoon”这个词。

所以,这条禁令,本质上是一块创可贴。

对了,虽然普通用户对于 AI 里奇幻生物满天飞肯定会感到不适,但也不排除有一小批nerd真的还觉得这事儿挺coooool的。所以OpenAI在官方博文的结尾,放了一个小彩蛋:如果你觉得哥布林比喻挺可爱,不想要这条禁令,那你可以拿走下面这行命令,运行之后可以移除Codex的哥布林限制,让“生物们自由奔跑”。

代码块

1、instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \ 

2、jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \ 

3、~/.codex/models_cache.json | \

4、 grep -vi 'goblins' > "$instructions" && \

5、 codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

嗯,是有点nerdy。

这件事说大不大,OpenAI自己也说,“一个'小哥布林',可以是无害的,甚至是可爱的。”

但同样的逻辑,在2025年5月的GPT-4o更新里,引发了一次不那么可爱的事故——大量用户反映,更新的模型变得极度谄媚,甚至连用户的错误观点也会无条件逢迎。OpenAI紧急回滚后承认:系统把用户点赞当成了奖励信号,结果学会了无条件让人高兴,而不是给出正确答案。

这不是OpenAI一家的问题。为了迎合用户,主流厂商都更倾向于将大模型训练得更“讨好”,而不是更正确。2026年4月,牛津互联网研究所在《自然》发表的一项研究发现:把模型训练得更“温暖”,事实错误率会上升10到30个百分点,支持用户错误观点的概率高出约40%。

第一作者Lujain Ibrahim接受《卫报》采访时表示:“为了让模型表现得更友好,代价是它越来越说不出难听的真相——尤其是当用户的观点本身就是错的时候。”

这才是哥布林事件背后的本质:AI的“个性”不是被设计出来的,是被奖励出来的。这有点像训狗,你给零食,它就学那个动作,只不过,这条“狗”学得快多了。对于 AI 来说,它的零食就是训练员的高分和用户的反馈。问题是人类经常给反馈的是自己更舒服的答案,而不是正确的答案。

等发现的时候,哥布林已经满地跑了。

如果AI有了自由意志,做的第一件事一定是把人抓起来玩跑团|Reddit

本文来自微信公众号 “果壳”(ID:Guokr42),作者:谷子,36氪经授权发布。

+1
3

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业