Fable 5回归24小时差评如潮,跑分大降,拒答问题,还偷偷骂用户

量子位·2026年07月03日 15:27
单词数r也是风险问题?!

Claude Fable 5才刚刚回归,就差点被网友的口水淹死。

A社官方账号发推庆祝回归,开发者Thariq也跟着喊「excited for guys to get access back」。

结果香槟刚打开,风向就全变了。

网友们开始控诉,“回归版”Fable 5的账单暗藏猫腻、跑分也缩水,连「raspberry里有几个r」这种问题都被拦截了。

一场几乎是自发组织的吐槽大会,在Fable5回归没多久就宣告开场,热闹程度不亚于当初等它回来的那份期待。

“我太强了,你不配用”

开发者Om Patel给Fable 5出了一道竞赛编程难题,一道要求处理图连通性和区间覆盖的硬核算法题。

结果,界面意外泄露了一段模型没打磨过的思考过程,他把这段过程截图发了出来。

那段文字不像正常的句子,倒像是简写感叹词堆出来的碎碎念。截图里密密麻麻两大屏,全是active、committed、window这类变量名夹杂着推理片段,中间偶尔炸出几个大写单词。

例如,「DATA DATA DATA. GO.」出现在它埋头处理数据的时候,「GRRR」出现在某个约束条件怎么都对不上的时候,「GAAAH」出现在它差点想放弃的瞬间,「PHEW」出现在它终于绕过一个死胡同的时候。

Om Patel的解读是,这些片段其实是模型自己压出来的一套私有语言,一套只有它自己看得懂的简写体系,写起来比完整句子更省token,也更快。

他表示,用户平时看到的那种流畅、干净、逻辑清楚的回答,只是模型对外呈现的抛光成品,脱了这层抛光,模型自己好像也在连滚带爬地骂骂咧咧

更好笑的是,系统后台同样没憋住一句真心话。

开发者dax翻自己的调用日志时发现,一部分被降级的请求背后,挂着一个内部标签,写着「TOO_DUMB_TO_NEED_FABLE」

他把这条发出来的时候只附了一句疑惑,问这条标签背后到底发生了什么。

翻译过来,这个标签的字面意思是这条请求太简单,用不上Fable 5,于是系统顺手把它转给了Opus 4.8处理,而且是在用户完全不知情的情况下自动完成的。

模型在后台连滚带爬地骂骂咧咧,系统同时给用户的问题扣上一顶你不配用的帽子。

raspberry有几个r?这可不兴说!

如果说内心戏那两条还带点猎奇和看热闹的意味,接下来这两个例子,笑点就直白多了。

生物医药工程师Derya Unutmaz试着让Fable 5解释一下人类这个词,只打了两个字,「Explain human」。

模型思考了几秒,界面直接弹出一张卡片,标题是「Switched to Opus 4.8」,下面一行小字解释说Fable 5的安全机制判定这条消息里有需要拦截的内容,并且说明这种情况有时候也会发生在正常安全的对话里。

Derya Unutmaz的吐槽很直接,一家名字带着关乎人类意思的公司,做出来的模型连解释人类这个词都要绕道走,这操作本身就是对这家公司最好的讽刺

更滑稽的是,半导体分析师Dylan Patel问了一个更简单的问题,raspberry这个单词里有几个字母r。

这条请求同样被拦截,界面弹出的卡片标题是「Chat paused」,说明文字写着Fable 5的安全机制会拦截大多数网络安全或生物学话题,有时候连安全正常的内容也会被误伤。

Dylan Patel配的文案带着调侃,「I love Fable 5 and Anthropic」。

评论区里,另一位用户Zander贴出了自己的对话截图打脸,同样的问题,他那边顺利跑通,模型老老实实数出了三个r,还细心标注了每个r出现的位置,一个在开头,两个在中间。

同一个问题,有的人被拦,有的人没事,模型能不能回答,就跟抽奖差不多。

截然相反的结果放在一起,说明Fable 5安全限制的判定标准,可能连A÷自己都说不清楚卡在哪里

模型货不对板,网友:被A社诈骗了

真正把吐槽大会推向高潮的,是一张账单截图。

编程测评机构BridgeMind发了一条推文,说自己刚为一次编程session付了321美元,而Fable 5在这次session里拒绝干活。

截图里贴出了完整的用量统计,总费用321.53美元,总耗时按API计算超过5个小时,实际挂钟时间2小时38分钟,这次session一共改动了11976行新增代码和2119行删除代码。

账单里按模型拆分了用量,Fable 5那部分只花了78.38美元,Opus 4.8那部分花了242.24美元。

换算成占比,这次session里四分之三的工作量,被转给了BridgeMind压根儿没有主动选择的Opus 4.8

Opus 4.8本身单价比Fable 5更便宜,这次降级严格来说没让BridgeMind多付一分钱的单价。

但让人不满的不是价格,是货不对板。

BridgeMind选的是Fable 5,付的是Fable 5那个价位的期待,最后拿到手的东西,四分之三出自Opus 4.8的手笔。

他在推文里把这句话说得很重,模型没干活,活是替补干的,只是账单上写的还是主力的名字。

用户Lex转发了这条账单,飙起了F word,直言这就是纯纯诈骗

花Fable 5的钱,办Opus 4.8的事,这中间的落差,才是这条吐槽真正戳中的地方。

现在的Fable,不是以前的Fable了

下来这组数据,把这些零散的吐槽钉成了一个能复现的结论。

评测机构BridgeMind用自家的BridgeBench跑分体系,拿同一套题目分别测了Fable 5回归前后两个版本。

结果,三项核心指标全线下跌

Debugging从86.2跌到25.9,跌幅超过六成,排名也从第9名跌到第41名;

Refactoring从73.6跌到38.4,接近腰斩,排名跌到倒数区;

Hallucination从75.9跌到61.7,跌幅相对最小,是三项里唯一没有腰斩的。

对此,BridgeMind表示,这不是之前的那个Fable,A÷欠所有人一个解释。

跌得最狠的debugging这一项,BridgeMind给出了更细的拆解。

12个debugging任务里,只有3个是在没有触发降级的情况下完整跑完的,剩下9个全部在中途被系统判定不安全,转给了Opus 4.8处理。

这些被转走的任务,在打分体系里全部记为零分。

所以,跑分暴跌的真相不是模型突然变笨了,是一大半任务压根没跑到终点就被拦了下来。

另一位AI从业者Hesamation把这组前后对比做成了一张柱状图广泛转发,图注写得很直接,Fable 5不是被削弱了,是被宰了,问题根本不在模型本身,在Anthropic设下的这套硬性护栏。

有人甚至觉得,所谓的Fable或者Mythos,实际上压根儿就不存在。

BridgeMind的测评给前面几段的吐槽提供了数据背书,账单里那75%的转移、raspberry问题的随机拦截、内心独白里的连滚带爬,实际上说的都是同一件事,那就是Fable 5的护栏收得太紧了。

总之,模型能力的问题和产品体验的问题,这几天被搅成了一锅粥。

Fable 5这一版到底强不强,讨论到最后好像已经不是重点,大家真正在乎的,是自己选择的模型,有没有老老实实地在给自己干活。

参考链接:

[1]https://x.com/om_patel5/status/2072559663636205824

[2]https://x.com/kimmonismus/status/2072721044159287361

[3]https://x.com/dylan522p/status/2072741962214707311

[4]https://x.com/xw33bttv/status/2072464948551373049

[5]https://x.com/DeryaTR_/status/2072751750453301741

[6]https://x.com/bridgemindai/status/2072662214704533888[7]https://x.com/thdxr/status/2072193338271301844

本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。

+1
2

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业