Fable 5回归24小时差评如潮，跑分大降，拒答问题，还偷偷骂用户

量子位·2026年07月03日 15:27

单词数r也是风险问题？！

Claude Fable 5才刚刚回归，就差点被网友的口水淹死。

A社官方账号发推庆祝回归，开发者Thariq也跟着喊「excited for guys to get access back」。

结果香槟刚打开，风向就全变了。

网友们开始控诉，“回归版”Fable 5的账单暗藏猫腻、跑分也缩水，连「raspberry里有几个r」这种问题都被拦截了。

一场几乎是自发组织的吐槽大会，在Fable5回归没多久就宣告开场，热闹程度不亚于当初等它回来的那份期待。

“我太强了，你不配用”

开发者Om Patel给Fable 5出了一道竞赛编程难题，一道要求处理图连通性和区间覆盖的硬核算法题。

结果，界面意外泄露了一段模型没打磨过的思考过程，他把这段过程截图发了出来。

那段文字不像正常的句子，倒像是简写感叹词堆出来的碎碎念。截图里密密麻麻两大屏，全是active、committed、window这类变量名夹杂着推理片段，中间偶尔炸出几个大写单词。

例如，「DATA DATA DATA. GO.」出现在它埋头处理数据的时候，「GRRR」出现在某个约束条件怎么都对不上的时候，「GAAAH」出现在它差点想放弃的瞬间，「PHEW」出现在它终于绕过一个死胡同的时候。

Om Patel的解读是，这些片段其实是模型自己压出来的一套私有语言，一套只有它自己看得懂的简写体系，写起来比完整句子更省token，也更快。

他表示，用户平时看到的那种流畅、干净、逻辑清楚的回答，只是模型对外呈现的抛光成品，脱了这层抛光，模型自己好像也在连滚带爬地骂骂咧咧。

更好笑的是，系统后台同样没憋住一句真心话。

开发者dax翻自己的调用日志时发现，一部分被降级的请求背后，挂着一个内部标签，写着「TOO_DUMB_TO_NEED_FABLE」。

他把这条发出来的时候只附了一句疑惑，问这条标签背后到底发生了什么。

翻译过来，这个标签的字面意思是这条请求太简单，用不上Fable 5，于是系统顺手把它转给了Opus 4.8处理，而且是在用户完全不知情的情况下自动完成的。

模型在后台连滚带爬地骂骂咧咧，系统同时给用户的问题扣上一顶你不配用的帽子。

raspberry有几个r？这可不兴说！

如果说内心戏那两条还带点猎奇和看热闹的意味，接下来这两个例子，笑点就直白多了。

生物医药工程师Derya Unutmaz试着让Fable 5解释一下人类这个词，只打了两个字，「Explain human」。

模型思考了几秒，界面直接弹出一张卡片，标题是「Switched to Opus 4.8」，下面一行小字解释说Fable 5的安全机制判定这条消息里有需要拦截的内容，并且说明这种情况有时候也会发生在正常安全的对话里。

Derya Unutmaz的吐槽很直接，一家名字带着关乎人类意思的公司，做出来的模型连解释人类这个词都要绕道走，这操作本身就是对这家公司最好的讽刺。

更滑稽的是，半导体分析师Dylan Patel问了一个更简单的问题，raspberry这个单词里有几个字母r。

这条请求同样被拦截，界面弹出的卡片标题是「Chat paused」，说明文字写着Fable 5的安全机制会拦截大多数网络安全或生物学话题，有时候连安全正常的内容也会被误伤。

Dylan Patel配的文案带着调侃，「I love Fable 5 and Anthropic」。

评论区里，另一位用户Zander贴出了自己的对话截图打脸，同样的问题，他那边顺利跑通，模型老老实实数出了三个r，还细心标注了每个r出现的位置，一个在开头，两个在中间。

同一个问题，有的人被拦，有的人没事，模型能不能回答，就跟抽奖差不多。

截然相反的结果放在一起，说明Fable 5安全限制的判定标准，可能连A÷自己都说不清楚卡在哪里。

模型货不对板，网友：被A社诈骗了

真正把吐槽大会推向高潮的，是一张账单截图。

编程测评机构BridgeMind发了一条推文，说自己刚为一次编程session付了321美元，而Fable 5在这次session里拒绝干活。

截图里贴出了完整的用量统计，总费用321.53美元，总耗时按API计算超过5个小时，实际挂钟时间2小时38分钟，这次session一共改动了11976行新增代码和2119行删除代码。

账单里按模型拆分了用量，Fable 5那部分只花了78.38美元，Opus 4.8那部分花了242.24美元。

换算成占比，这次session里四分之三的工作量，被转给了BridgeMind压根儿没有主动选择的Opus 4.8。

Opus 4.8本身单价比Fable 5更便宜，这次降级严格来说没让BridgeMind多付一分钱的单价。

但让人不满的不是价格，是货不对板。

BridgeMind选的是Fable 5，付的是Fable 5那个价位的期待，最后拿到手的东西，四分之三出自Opus 4.8的手笔。

他在推文里把这句话说得很重，模型没干活，活是替补干的，只是账单上写的还是主力的名字。

用户Lex转发了这条账单，飙起了F word，直言这就是纯纯诈骗。

花Fable 5的钱，办Opus 4.8的事，这中间的落差，才是这条吐槽真正戳中的地方。

现在的Fable，不是以前的Fable了

下来这组数据，把这些零散的吐槽钉成了一个能复现的结论。

评测机构BridgeMind用自家的BridgeBench跑分体系，拿同一套题目分别测了Fable 5回归前后两个版本。

结果，三项核心指标全线下跌。

Debugging从86.2跌到25.9，跌幅超过六成，排名也从第9名跌到第41名；

Refactoring从73.6跌到38.4，接近腰斩，排名跌到倒数区；

Hallucination从75.9跌到61.7，跌幅相对最小，是三项里唯一没有腰斩的。

对此，BridgeMind表示，这不是之前的那个Fable，A÷欠所有人一个解释。

跌得最狠的debugging这一项，BridgeMind给出了更细的拆解。

12个debugging任务里，只有3个是在没有触发降级的情况下完整跑完的，剩下9个全部在中途被系统判定不安全，转给了Opus 4.8处理。

这些被转走的任务，在打分体系里全部记为零分。

所以，跑分暴跌的真相不是模型突然变笨了，是一大半任务压根没跑到终点就被拦了下来。

另一位AI从业者Hesamation把这组前后对比做成了一张柱状图广泛转发，图注写得很直接，Fable 5不是被削弱了，是被宰了，问题根本不在模型本身，在Anthropic设下的这套硬性护栏。

有人甚至觉得，所谓的Fable或者Mythos，实际上压根儿就不存在。

BridgeMind的测评给前面几段的吐槽提供了数据背书，账单里那75%的转移、raspberry问题的随机拦截、内心独白里的连滚带爬，实际上说的都是同一件事，那就是Fable 5的护栏收得太紧了。

总之，模型能力的问题和产品体验的问题，这几天被搅成了一锅粥。

Fable 5这一版到底强不强，讨论到最后好像已经不是重点，大家真正在乎的，是自己选择的模型，有没有老老实实地在给自己干活。

参考链接：

[1]https://x.com/om_patel5/status/2072559663636205824

[2]https://x.com/kimmonismus/status/2072721044159287361

[3]https://x.com/dylan522p/status/2072741962214707311

[4]https://x.com/xw33bttv/status/2072464948551373049

[5]https://x.com/DeryaTR_/status/2072751750453301741

[6]https://x.com/bridgemindai/status/2072662214704533888[7]https://x.com/thdxr/status/2072193338271301844

本文来自微信公众号“量子位”，作者：关注前沿科技，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Fable 5回归24小时差评如潮，跑分大降，拒答问题，还偷偷骂用户

“我太强了，你不配用”

raspberry有几个r？这可不兴说！

模型货不对板，网友：被A社诈骗了

现在的Fable，不是以前的Fable了

最近内容

下一篇