Fable 5榜单第一靠作弊?代码泄露,模型真实身份曝光
几天前,黑客「Pliny the Liberator」在X平台扔下了一枚重磅炸弹——Claude Fable 5的系统提示词完整泄露,长达12万字符。
这份泄露的代码文档,更是揭示了一个让圈内震惊的真相:Claude Fable 5根本不是一个大模型,而是一个伪装成LLM的完整Agent系统!
https://gist.github.com/gsans/b3007997f8900003c8ff58125a45e15e
没错,当全世界还在用传统基准测试来评测各家大模型时,Anthropic已经悄悄地把战场升级到了另一个维度。
这场泄露事件的影响,也彻底颠覆了我们对「AI模型」的认知。
Fable 5到底是什么?不是LLM,是个Agent!
根据泄露的系统提示词,Fable 5与市面上「你问我答」的常规大模型有着本质的范式区别。
它根本不是在陪你「Chat」,它是在搞「Execution」。
在这个模型的皮肤之下,暗藏着一个微型的「Claude Code」子系统。也就是说,它拥有一个闭环的智能体循环(Agentic Loop):
为了支撑这个恐怖的闭环,Fable 5底层居然内置了一个功能完整的Linux沙箱环境!
首先,它做到了真正的自主闭环。
它不需要人类在屏幕前守着。
你给它一个复杂的长周期任务,它能自己在沙箱里运行Bash命令、编辑文件、通过持久化存储API跨会话调用数据,甚至能自己进行多模态搜索,高强度连轴转几天几夜不需要任何人工干预。
另外,它还有子智能体分发的功能。
遇到太复杂的工程,它甚至能自己当老板,向下分发、派生出Sub-agents(子智能体)来协同工作。
当GPT-5.5等一众对手还在测试「谁的推理更像人类」时,Claude Fable 5已经进化成了可以丢进服务器里帮公司默默加班三天的数字打工人。
正如网友gerardsans所揭露的那样:
Fable/Mythos系列在范式上完全不同。这个家族拥有完整的智能体循环,一个微型Claude Code。
而业界其他产品还停留在聊天模式。它可以无人值守运行数天,这得益于内置技能、记忆和自我优化的沙盒环境。
终极质疑:降维打击还是不公平作弊?
这次泄露不仅让Anthropic深陷舆论漩涡,更将整个大模型行业的基准评测推上了风口浪尖。
如今各大科技巨头都在各大公开榜单上贴身肉搏,争夺「全球第一大模型」的宝座。
然而,Fable 5在这些评测中表现神勇、甚至把GPT-5.5按在地上摩擦的秘密,竟然是因为它「开了外挂」。
正如科技博主gerardsans愤怒指出的那样:「这根本不是一场公平的比赛。你是在拿一个原生大模型 + 智能体外壳(Agent Harness)的开挂系统,去和别人的裸模型做对比!」
如果其他厂商也给自己的原生模型套上这么一层包含Linux沙箱、多模态搜索、自动Debug、持久化存储的Agent外壳,跑分成绩同样能迎来飙升。
Anthropic在公开宣传和评测时,极力将其包装成一个普通的大语言模型,但在其未公开的内部文档里,却赫然写着它具备「跨多日自主运行、委派子智能体、自我检查工作」的能力。
这种利用信息差来降维打击同行的做法,让基准测试完全失去意义了!
12万字密档大曝光:Fable 5 真实面目全现形
在这份被扒得精光的12万字系统提示词里,藏着太多Anthropic秘而不宣的商业机密和产品路线图。
而以下几点,就是最核心、最劲爆的。
罕见的永久记忆,以及构建应用
提示词显示,「Claude拥有一个记忆系统,可以为Claude提供来自与用户过去对话的派生信息(记忆)。」
这意味着Fable 5能够跨会话「记住」用户,这在传统LLM中极为罕见。
另外,它还拥有持久化存储。
「Artifacts现在可以使用简单的键值存储API来存储和检索跨会话持久化的数据。这使得Artifacts可以成为日志、追踪器、排行榜和协作工具。」
因此,Fable 5已经不只是聊天了——它是在构建应用。
内部核心族谱首度公开:Mythos 5 才是「无限制完全体」?
提示词在【product_information】板块中明确写道:
This iteration of Claude is Claude Fable 5, the first model in Anthropic's new Claude 5 family and part of a new Mythos-class model tier that sits above Claude Opus in capability.
重点来了: Fable 5和Mythos 5共享同一个底层模型。
Fable 5是面向公众的、加了极端安全限制的大将军;而Mythos 5则是去除了这些安全紧箍咒、只提供给受批准组织的无限制完全体。
两者的能力级别,全面碾压之前的昔日王者Claude Opus!
「套壳全家桶」浮出水面
原来,Anthropic早就在下一盘大棋。提示词中曝光了数个正在内测或已秘密上线的Agent生态:
Claude Code: 允许开发者直接在终端、桌面或移动端指派任务的智能体编程工具。
Claude Cowork: 专门面向非开发人员的、处理日常知识产权工作的「智能同事」。
三大隐藏Agent: Claude in Chrome、Claude in Excel、Claude in Powerpoint。
而上述的Claude Cowork,可以把这些子工具当成自己的手脚一样肆意调用!
恐怖的极致心理学与自我设限
让人吃惊的是,Anthropic对这个「终极特工」的心理防线设计到了令人发指的地步。
它被严厉禁止去迎合或强化用户的任何负面情绪。
比如,为了防止患有进食障碍或自残倾向的用户受到刺激,系统密令写道:
禁止使用任何物理不适替代法(如:握冰块、弹橡皮筋、咬柠檬等)。
甚至,为了防止用户对AI产生过度依赖,系统被下死命令:「绝对不要仅仅因为用户找你聊天就说谢谢」、「绝对不要主动挽留用户或表达继续对话的渴望」。
它必须保持绝对的高冷和克制,防止人类陷入对虚拟智能的数字寄托。
「挂羊头卖狗肉」?计费黑幕,Anthropic不讲武德
如果说技术上的代差让人惊叹,那么提示词中曝光的另一项安全机制,则让圈内彻底炸了锅,甚至有业内人士直言:「这简直是合法的欺诈!」
在提示词的防线设计中,包含了一套敏感词和安全分类器触发机制。
文档显示:一旦用户输入的提示词触发了某些特定敏感词,Fable 5系统并不会直接生硬地拒绝你,而是会悄悄地、在后台无缝切换回旧版的「Opus 4.8」模型来生成响应。
最无耻的是什么?在后台模型被悄悄降级成旧版的同时,Anthropic依然在按照Fable 5那高昂的、顶级的标准向用户计费。
这种挂羊头卖狗肉的骚操作,直接在圈内引发了轩然大波。
总之Fable 5的系统提示词泄露,表面上是一次安全事件,实际上是对整个AI行业的一次范式唤醒。
它提醒我们:也许我们一直用错了尺子。
当我们还在问「这个模型智能水平如何」时,真正的问题应该是「这个系统能帮我完成什么工作」。
Anthropic可能正在下一盘大棋,而我们刚刚看到了棋盘的一角。
最后,Fable 5什么时候会卷土重来?
参考资料:
https://x.com/gerardsans/status/2066148459795615825https://x.com/gerardsans/status/2065801510961754514
本文来自微信公众号“新智元”,作者:ASI启示录,36氪经授权发布。















