5000万行代码迁移一天搞定,Anthropic重磅发布Claude Fable 5、Mythos 5
6 月 10 日凌晨,Anthropic 重磅发布了两款顶级大模型——Claude Fable 5 和 Claude Mythos 5。
作为 Anthropic 当前最强的「Mythos」模型成员,这两款模型刚刚亮相,便迅速引爆全球开发者社区。短短几个小时内,社交媒体和 AI 圈几乎被同一个话题刷屏:Claude 又把大模型能力推到了什么程度?
Anthropic 官方给出的评价相当直接:Claude Fable 5 已经超越此前所有公开发布的 Claude 模型,在软件工程、知识工作、视觉理解和科研任务等多个领域达到新的高度,并在绝大多数主流评测基准上跻身行业第一梯队。
一天内完成 5000 万行代码库的迁移
不过,比起冰冷的跑分数据,第一批体验者的反馈反而更快吸引了开发者的注意。
Claude Code 之父 Boris Cherny 称:“Fable 5 是自去年 11 月 Opus 4.5 发布以来最大一次模型能力跃升。”
此前 Opus 4.5 发布后,Boris Cherny 意识到自己已经连续几周 100% 在终端里完成所有编程工作,于是干脆把 IDE 都卸载了。
而到了 Fable 5,他的感受再次发生变化:Claude 不再只是一个“Coding Agent”,而更像是在产品构建过程中与你并肩工作的思考伙伴和设计伙伴。它拥有以往模型所缺乏的判断力、审美能力以及多维度思考能力。
最令他印象深刻的是一次调试经历:面对一个复杂 Bug,Fable 5 并没有急于修改代码,而是像资深工程师一样先收集数据、添加日志、验证假设,在确认问题真正解决后才宣布完成任务。
更重要的是,这种行为并非来自 Claude Code 的特殊提示词设计,而更像是模型自身形成的一种能力和习惯。
「这完全是模型自身表现出来的一种特质,仿佛已经内化成了它的“性格”。它身上确实有一种我此前从未感受过的东西——一种典型的“超大模型气息”」, Boris Cherny 说道。
如果说 Boris 的评价更多来自长期使用体验,那么投资机构 Menlo Ventures 合伙人、Google Search 早期成员 Deedy Das 的感受则更加直接。
他表示,Claude Fable 5 绝对是自己见过“最离谱”的模型之一,并第一次真切地对软件工程的未来感到担忧。
随后,他还整理了 Claude Fable 5 完成的 一些最不可思议的事情,例如:
在一天内完成对 Stripe 一个 5000 万行代码库的迁移(人类团队通常需要两个月)。
绘制令人惊叹的 3D 图形,包括波音 747 客机、包含超过 5000 个对象的太空模拟场景、《Minecraft》过山车、完全照片级真实感的森林场景、纽约市天际线、暴风雨云层效果。
一次性通关《宝可梦 火红版》(Pokémon FireRed)。
对一个真实世界的专有交互网求值器进行优化,性能提升 10 倍,远超竞品 GPT-5.5。
相较之下,刚刚加入 Anthropic 的 Andrej Karpathy,则把这次发布称为一次“大版本升级”的飞跃式进步。
Karpathy 认为,随着软件生产成本不断下降,一个新的时代正在到来——软件正变得像自来水一样触手可得。人们将不再只是让 AI 写代码,而是直接让 AI 生成解释工具、数据仪表盘、研究平台、自动化系统乃至完整应用。
Claude Fable 5 和 Mythos 5 到底是什么?
值得注意的是,Anthropic 这次在发布两款模型时,并没有将它们简单区分为大模型与小模型。
Claude Fable 5 和 Claude Mythos 5 两款模型底层架构完全一致,核心能力持平,最大差异集中在开放权限、安全限制、使用人群三大维度,也就是哪些用户可以使用这两个模型、用户如何使用、以及模型允许输出哪些内容。
简单可以理解为「大众安全版」和「专业无限制版」。
Claude Fable 5:面向多数人的主力旗舰
Claude Fable 5 面向多数人开放,是首款正式向普通用户、开发者与企业提供的 Mythos 级模型,也是 Anthropic 目前对外公开的最强通用大模型。
相较 Claude Mythos 5,这一版本做出了一定限制。
为了规避高风险滥用,Fable 5 引入了全新的安全分类器,相当于为强能力加装“安全阀门”:当用户问题触及网络安全攻防、生物、化学等敏感领域时,模型会自动降级,切换到上一代成熟模型 Claude Opus 4.8 进行回复,从而避免释放全部高风险能力。
Claude Mythos 5:受限开放的满血旗舰
Claude Mythos 5 则算是“满血版”的旗舰模型,能力与 Fable 5 完全一致,但移除了所有安全分类限制。
不过,该模型并不对外开放,而是通过 Anthropic 的 Project Glasswing 进行定向授权,仅面向少数经过严格审核的机构,例如网络安全防御公司、关键基础设施服务商以及合规的生物医学科研团队,主要用于漏洞挖掘与前沿科研等专业场景。
Anthropic 表示,Claude Mythos 5 现阶段将依托“玻璃翼计划”(Project Glasswing)落地,该项目由其与美国政府合作推进,也是此前 Mythos 预览版的升级版本。
在实际使用中,这意味着 Mythos 5 在部分敏感领域(如网络安全与生物研究)具备更强能力,因为它可以直接回答相关问题,而 Fable 5 会进行安全降级处理。
新模型到底强在哪?
本次迭代并非小修小补,相较旧版 Claude 模型,Claude Fable 5 和 Claude Mythos 5 能够独立完成更长周期的任务,在多项基准测试中几乎都处于领先位置。
在软件工程能力上,这是企业最关注的核心提升方向。Anthropic 表示,Fable 5 可以在更长时间内自主运行,并在更少人工干预下完成复杂任务,这正是 AI agent 从“代码补全工具”走向“自主执行系统”的关键一步。
在 SWE-bench Pro(衡量模型解决复杂软件工程问题能力的基准)上,Anthropic 称 Fable 5 与 Mythos 5 达到了 80.3% 的成绩,显著高于 OpenAI 最新通用模型 GPT-5.5 的 58.6%。
在 Cognition 的 FrontierCode Diamond 基准测试中(用于评估高质量、可维护的 Agent 编程能力),两者得分为 29.3%,而 Claude Opus 4.8 为 13.4%,GPT-5.5 为 5.7%。
Anthropic 还指出,Fable 5 即使在“中等推理强度”下,也能在 FrontierCode 上取得领先成绩,这意味着它不一定依赖最大算力也能输出更好的编程结果。
在落地案例中,支付公司 Stripe 提供了一个极具代表性的测试。
Stripe 在其约 5000 万行 Ruby 代码库中测试 Fable 5,模型在一天内完成了全库级别迁移,而这一工作通常需要工程团队两个月以上。
此外,在知识能力方面,Fable 5 也被定位为企业知识工作的强力工具。
在 GDPval-AA 上,Fable 5 与 Mythos 5 的得分为 1932,高于 Claude Opus 4.8 的 1890、GPT-5.5 的 1769,以及 Gemini 3.1 Pro 的 1314。
在 GDPpdf(侧重文档视觉理解)测试中,两者在无工具条件下达到 29.8%,明显高于 Opus 4.8 的 22.5%、GPT-5.5 的 24.9% 和 Gemini 3.1 Pro 的 16.7%。
这些能力对企业尤为关键,因为现实业务中大量信息仍以非结构化形式存在:PDF、表格、图表、报告、合同、财报、PPT 与截图等。
Anthropic 表示,Fable 5 在文档推理、图表理解以及复杂问题解决方面都有明显提升。
在视觉能力与界面理解维度,Anthropic 还强调,Fable 5 是其目前最强的视觉模型。它可以从专业科学图表中提取精准数据,也能仅凭应用截图还原整套网页应用源代码,完成各类高难度视觉任务。
Anthropic 称,模型对辅助工具的依赖度也大幅降低:以往版本的 Claude 模型,即便搭配专属辅助程序,也难以通关《宝可梦:火红》;而 Fable 5 仅依靠纯视觉识别,就顺利打通了这款游戏。
定价
定价方面,Anthropic 为 Claude Fable 5 和 Mythos 5 设定的定价均为输入 10 美元/百万 tokens,输出 50 美元/百万 tokens。
这一价格相比此前 Mythos Preview 已下降一半,但仍处于全球主流大模型定价高位。
对开发者而言,Fable 5 已通过 Claude API 提供访问,接口名称为 claude-fable-5。Anthropic 表示,该模型今天起已在 API 以及按用量计费的企业套餐中全面开放。
不过对于订阅用户来说,这次上线的规则要更复杂一些。
Anthropic 表示,从今天起到 6 月 22 日,Fable 5 将免费包含在 Pro、Max、Team 以及按席位计费的企业套餐中,无需额外费用。
但从 6 月 23 日开始,公司计划将其从这些订阅套餐中移除,之后若要继续使用,将需要消耗使用额度。
Anthropic 同时表示,他们的目标是尽快让 Fable 5 重新回到标准订阅套餐之中,作为长期可用功能提供。
写在最后
与此同时,Anthropic 还为 Mythos 类模型引入了新的数据留存机制:Fable 5、Mythos 5 及未来同级模型,将在所有使用场景下实施 30 天数据保留要求。
Anthropic 称,这些数据不会用于训练新的 Claude 模型,也不会用于非安全目的,并将通过访问日志记录与到期删除机制进行保护,大多数情况下会在 30 天后自动清除。
整体来看,这两款模型确实代表了 Claude 当前的能力上限,性能提升非常明显,但“静默降级”的安全设计也引发了一定争议。对于开发者与 AI 爱好者而言,趁免费窗口期实际体验,或许是理解这一代“神话级模型”的最好方式。
参考:
https://x.com/karpathy/status/2064409694761054332
https://www.anthropic.com/news/claude-fable-5-mythos-5
本文来自微信公众号“CSDN”,整理:苏宓,36氪经授权发布。















