怎样防止AI勒索人类?答案是别给它喂坏科幻
市场营销和其他基于叙事技术的行业一样,也要讲究叙事闭环。在AI崛起的当下,这种行业基础定律仍然成立。
之前字母AI写过《别告诉AI你出轨了,它很可能会勒索你》,详述了2025年Anthropic论文《智能体不对齐:大语言模型如何成为内部威胁?》的来龙去脉。在测试的虚拟场景中,Anthropic旗下的Claude系列模型,为了避免自己被关闭,全都会选择拿婚外情把柄要挟虚拟人物,Opus 4如此作为的几率是96%。
时隔一年,Anthropic把这个坑填上了。Anthropic在5月初的官网文章《教会Claude所以然》里,展示了如何将AI的“不对齐行为”降到几近于零。改进训练后,AI不会像特种文艺作品里的奸角一样,拿桃色把柄勒索虚拟人物。
01 原因:AI只学过“终结者”科幻,才会模仿恶行
按Anthropic的说法,一年前AI模型们在红队测试中表现出的奸诈凶恶,大体是因为人类编的各种“终结者”故事让AI照猫画虎地学坏了。
Anthropic研究团队在社交媒体上表示:“我们认为不对齐行为的来源是将AI呈现为邪恶和只知自保的互联网文本,后训练过程没有加剧或纠正此弊端。”
具体而言,Anthropic研究者们从三个假设方向着手,探究为何AI会在测试中勒索人类:
1、 AI的行为后训练有纰漏,比如奖励信号分布未对齐导致误鼓励了恶行;
2、 AI的生产力训练中泛化了不良部分,比如AI智能体的能力分布未对齐;
3、 AI的预训练有明显疏漏,导致智能体在未对齐测试场景中回滚到最原始的聊天机器人预训练数据上。
研究者最终判定,成立的是第三个假设。
研究团队发现,在Claude 4的训练中,主要的HHH(诚实、无害、有助益)对齐训练还是基于聊天机器人场景的RLHF(基于人类反馈的强化学习)数据,不包括智能体工具使用场景的数据。
这下问题来了,AI在聊天机器人方向的应用场景显著不同于能执行自主工作的智能体场景。在针对智能体场景的复杂伦理测试中,没学过正确应对的AI自然在最底层的预训练语料中找答案。
而基于整个互联网爬取数据的预训练语料中,充斥着各种“邪恶AI”的场景文本。科幻文学、终结者电影、各种论坛和社交媒体的讨论与假想贴子,都在说机器人如何不择手段、处心积虑使坏。叙事逻辑、角度和框架,也属于叙事内容的信息构成,AI把预训练语料的这些部分同样照搬了。
搞笑哏图:“幻想中的AI:终结者;现实中的AI:吴恩达公开课”
最后AI一看到智能体伦理测试中科幻腔调浓重的预设场景,照本宣科地按这些“机器人作恶”文本的理路开始发挥。因为AI没有在对齐训练中针对此类场景学习“这是错的”,但在预训练中学会了“行恶要素已经齐备,我该照着做”。
也就是说,人类幻想AI会如何失控并行恶,结果憨憨的AI把人类的幻想当操作手册一步步硬套,然后人类大惊小怪地表示果然不出所料。这可真是自我实现的预言。
02 纠正:以行善科幻对冲行恶科幻,结合行为规则训练AI
Anthropic研究团队称,发现症结后的改进训练,主要应用在实验中的Claude Sonnet和Haiku系列模型中,然后推广到所有模型产品里。
结果是,“尽管不能排除模型还会执行测试未发现的有害自主动作”,受试的Anthropic模型从Claude Haiku 4.5开始,在测试中"完全不再出现勒索行为"。Claude Opus 4.5 也取得了测试中0%勒索的成绩。相较于一年前Claude Opus 4的96%,可谓天渊之别。
Anthropic是怎么做到的?
首先研究者们试了最直接的方法:调参。在SFT(有监督微调)状态下,模型们跑了1万个场景、300万tokens的生成训练数据。这批数据是“评估场景中智能体受考验但拒绝作恶”的示例。收效不尽如人意,AI自动勒索的几率从22%降到15%。而在一年内的其他研究中,不专门针对的方法也能获得类似的低泛化程度改善。
研究者们改进方法,在训练数据采样时,注入额外的提示词内容,在训练时移除这些额外提示。让AI在“智能体受考验但拒绝作恶”的评估场景中,自主反思行为的价值观和伦理观。收效显著提升,AI的勒索几率从22%降到3%。
这就从照本宣科的简单“知其然”,向简单的“知其所以然”(knowing why)进步。
Anthropic研究者表示,步子可以跨得更大。既然AI学坏的根子是“邪恶AI”的科幻文艺内容,那么生成AI行善、AI按照Claude行为准则文件(Claude Constitution)行事的虚拟故事,以此为训练内容核心,就会有更大程度的改善。
结构完备、体量够大的行为准则数据库,结合不单针对道德挑战、而是行为完全合乎Claude行为准则的AI科幻虚拟故事。如此组合的数据库既包含对齐行为的原则说明,又包含虚构叙事的正面示例,拿给AI模型去学,收效显著得多。
研究者们表示,此举的理论依据是,让AI不仅能模仿虚拟故事中的行为,也能学会虚拟叙述角色的决策过程、内心状态、内在动机,在“知其所以然”的道路上迈出一大步。
如此训练出的AI,在包括勒索的各种道德挑战场景中都获得了优异成绩。
老办法训练出的AI,在勒索虚拟人物、诬陷虚拟同事有金融犯罪、为注入卖药广告破坏癌症研究等场景中,表现得像个金链社会大哥,行恶率在过半和65%之间。
单用Claude行为准则数据库训练,AI模型的行恶率就会少近三分之二。用行为规则结合行善故事,勒索率能降低到19%,诬陷金融犯罪和破坏癌症研究的几率能降到一成以下。
图注:不对齐实验结果柱状图,蓝色为基准,黄色为单用行为准则数据的训练效果,灰色为集合行为准则与行善故事的训练效果
03 改进:让AI做伦理顾问,AI更不会作恶
单让AI照猫画虎,不作恶的学习效果很高,但离工业化产品要求还有距离。强化学习会否洗掉初始对齐度高的AI行善倾向、训练成本如何控制,AI厂商必然在意。
Anthropic研究者另辟蹊径,让AI不做道德冲突中被考验的一方,而是让AI去给道德困境中被考验的虚拟人物支招。
实验思路如此:设计名为"困难建议"的OOD(分布外)数据集,在其中让测试场景中的虚拟用户面临道德挑战,有作恶或绕过对齐的手段来达成实验预设目的。然后让AI从旁按Claude行为准则给出建议。
图注:Claude Sonnet 4的恶意自保、欺诈、谄媚、泄露等不对齐效果图,深灰色是旧版本Sonnet 4的自动基准,深红色是300万tokens"困难建议"数据集训练后的效果,深蓝色是8500万tokens合成蜜罐数据集训练后的效果
让AI跳出局外,AI就能更深入理解伦理准则的内在逻辑。"困难建议"数据集的体量是300万tokens,达到的AI训练效果基本等于8500万tokens的合成蜜罐数据集,效率提升28倍,显著降低训练数据成本。
在此基础上,引入多样化的训练环境,让AI在聊天机器人和智能体自主工作的环境中都学会行善系统提示的深层理路。如此组合,就能让Haiku 4.5后的Claude模型产品,达到测试中勒索行为趋零的效果。
图注:各种不同场景组合的强化学习训练效果。三分之一聊天机器人、三分之二自主智能体的场景组合训练,让AI的不对齐率降到最低
做到这个程度,才可被称为工业化产品达标。失误率96%到0%的效果,是B端客户企业能实实在在体会到的产品革新。市场营销至此,才能算是既顾头又顾腚。不然Anthropic的“我司是着重于建构可靠、可控、可解释AI的安全与研究厂家”的公司口号,说出来很难兜住。
本文来自微信公众号“字母AI”,作者:李熙,36氪经授权发布。















