俩小时就烧掉400块Token后，我终于看懂Claude Fable 5有多猛

知危·2026年06月12日 15:52

依旧真正的 SOTA 模型。

Claude Fable 5 于 6 月 10 日发布后，知危在推特上围观了大量案例，印象最深刻不是那些 UI 设计、物理模拟案例，也不是一天内迁移五千万行代码的代码库（毕竟这超出了个人的认知范围），反而是被一个看似简单的例子吸引了。

来源：https://x.com/ProperPrompter/status/2064405487492452856

提示词：

使用 SVG 模拟像素艺术，创建一个精美且细节丰富的可爱动物场景。每个“像素”的大小应该相同。

虽然让大模型用 SVG 来画图已经有大量的尝试，但知危是第一次感觉到AI的作画是那么自然协调，不管是动物的形态，环境的氛围，还是颜色的组合，它让你感觉 Claude Fable 5 是在用眼睛看着作画。

而在看到下图这个案例之后，加上火速通关《宝可梦：火红》的战绩，让我对 Claude Fable 5 可能拥有某种 3D 视觉思维或者说 “ 空间智能 ” 能力的想象更加强烈。

于是，在本期测评中，知危打算着重测试 Claude Fable 5 用代码构建视觉概念的能力。（全程使用 Claude Code 测试）

尽管网友似乎更加热衷于让 Claude Fable 5 直接构建《我的世界》，但其实里面的构成大部分是平凡的地形元素，要验证模型的视觉思维的存在，必须让它去实现一些非平凡的概念和性质，比如带有 IP 属性的形象，二次组合创新，对原创设计的即时理解等。

在正式开始前，还是要用一个比较复杂的案例看看 Claude Fable 5 的基础编程能力。

在一个被用来挑战过 Gemini 3 Pro 等模型的 3D 引擎案例下，Claude Fable 5 交出了目前为止最好的答卷，除了需求完整实现、没有 bug 以外，它是唯一一个不会漏掉左侧模版库的 AI。

这只是前菜，毕竟对于这个案例，网页版的 Claude Sonnet 4.6（ low effort ）也能基本完成了。

接下来，就要考验 Claude Fable 5 的视觉理解和构建能力了。

我要求 Claude Fable 5 直接就用刚才写好的 3D 引擎，搭建出一个多啦 A 梦的 3D 模型，结果堪称完美。

再来一个乔巴，也是惊喜远多于槽点。

继续，再加一个路飞，放在他们身后，并且强调了是 3 档形态，Claude Fable 5 很好地理解了这个状态下路飞的巨大手臂形态。

最后，我希望在场景上更加丰富一些，就要求 Claude Fable 5 画出路飞的海贼船“ 黄金梅利号 ”，并让他们三个站在甲板上。

结果不太理想，那么大一艘海贼船被 Claude Fable 5 画成了只能在景区湖里使用的小船，当然模型有刻意去还原船头的羊头标志和海贼旗，也是很细节了。

做完上述这些测试后，Claude Code 消耗了 43% 的 5 小时额度，以及价值 7.29 美元的 Token，价格确实不菲，要想玩的尽兴点，Pro 级订阅应该是不太能满足的。

“ 黄金梅利号 ” 的 “ 崩塌 ”，可能是由于工作空间太小，导致了Claude Fable 5难以发挥。

接下来，我们打破引擎框架的限制，并开始构建更加复杂的对象，让 Claude Fable 5 直接用 Three.js 来构建《我的世界》风格的艾尔迪亚王国，也就是《进击的巨人》中由三堵圆形城墙为框架建立起来的城堡。

提示词：

你将使用 Three.js 构建一个第一人称体素（Minecraft-like）沙盒原型，自由组织项目，可以引入依赖和后处理。

目标：实现一个以《进击的巨人》“艾尔迪亚王国三层城堡”为核心的可交互体素世界。

核心场景：艾尔迪亚三层城堡。世界核心是一个巨大的“帕拉迪岛风格王都城堡”，采用三层城墙结构：玛丽亚，罗塞，希娜。

核心体验：玩家出生在最外层的城墙（玛丽亚）上方，可沿城墙环绕行走，可从城墙落到地面，可从地面爬上城墙。世界是程序生成的体素地形，要有村庄、城堡、河流、草原和树林。

玩法基本保留 Minecraft 经典手感：第三人称，WASD+鼠标，左键破坏，右键放置，带物品栏。其余细节由你发挥，打开第一眼就要被城墙和夕阳震住。

如果实现成功，应满足：

玩家进入世界后看到三层城墙明显分层结构；

能在不同层之间移动（楼梯/绳索/地面）；

第一层复杂、第二层规整、第三层宏伟；

可以自由破坏/放置方块；

城堡结构在视觉上“可读”（一眼看出三层权力结构）。

提示词没有太多讲究，关键就是多强调目标、验收标准，而不是过程。

在执行过程中，Claude Fable 5 会持续多次调用 Chrome CLI headless 截图来查看和测试当前实现效果，看起来确实很像是在 “ 边画边看边测试边思考 ”。

只是使用 Chrome CLI headless 截图可能触发 Mac 权限限制等问题，导致进度一直停滞。参考ChatGPT的建议，我将原方案改为 Playwright 方案（ Playwright 是一个开源的浏览器测试和网页抓取自动化库），顺利完成了项目。

来看看效果如何：

一眼看过去还是非常惊艳的，一个镜头就能直接将夕阳下的三堵巨大城墙的视觉效果呈现给你。城墙上的竖条纹非常符合原作的特点，甚至你还能发现，作为主角的士兵可以确定是调查兵团的，因为披着绿色的披风。

当然，这个结果的复杂度肯定还远远比不过人类的 MineCraft 作品，比如下图，由 DSOGaming 的创始人兼主编 John Papadopoulos 创作。

要知道，Claude Fable 5 只是完成了艾尔迪亚王国的宏观框架，平原上的村庄、森林过于凌乱而随意，最核心的居民区也就是瓮城（上图呈现的城市结构）连个影子都没有，城墙之间间距过窄，没有任何“史诗级”的氛围。

当然，反过来看，Claude Fable 5 搭建出来的成品，至少没有和我搜索到的任何相关作品雷同，所以目前来看，这是它基于自己的理解而不是套训练数据做出来的概率，相对高一些。

接下来，就要加难度了，主要是把上述槽点都修一修。

首先是调整宏观尺寸。

提示词：

请调整尺寸，人身高:城墙高度=1:50，城墙高度:相邻城墙距离=1:20。在每个城门的部分还有再略为向外突出的半圆形城墙的瓮城。

Claude Fable 5 分析需求后，认为间距过大会让三堵墙无法在视觉上一镜同屏，且需重写为流式生成，后面会解释这是基于视觉渲染效率的考虑。它竟然给我提供了三个完全不同的选项，要么保持当前间距，要么去实现极端大间距，要么做一个折中。

毕竟按原来提示的极端大间距下，同屏是不可能的，很影响视觉氛围，且从一堵墙到另一堵墙的徒步时间过长，所以最后还是选择了折中方案。

折中方案也不错，三堵墙一眼尽收眼底。

乍一看会觉得Claude Fable 5用平滑的、无结构的墙面来偷懒，城墙上还有莫名其妙的缺口，但走近了之后才理解它的苦心。

随着离城墙越来越近，墙面的真实结构也逐渐显露出来，原来的缺口也被填补了。

我追问了一句，“ 为什么将城墙半径扩大需要很大量的工程，具体有哪些工作内容和挑战？”

Claude Fable 5 解释道：生成不贵，“ 让你看见 ” 才贵。

这应该是指如果要把场景内的所有细节一次呈现给你，内存占用过高，会无法流畅运行。所以一般是近景才做细节渲染，远景只做粗糙些的渲染，此即所谓的流式生成或流式渲染。这其实也是很多游戏特别是开放世界游戏的常用优化手段了。

重点是，它就连优化和折中的重点也放在视觉层面。

但瓮城里是真的什么都没有，连门都给封住了。

还好，Claude Fable 5 有按要求提供爬上城墙的楼梯，这可是原作里不存在的东西。

接下来，需要再完善一些细节，以及分三步，给它一个终极大考。

第一考，在玛丽亚之墙和罗塞之墙之间的平原上，构建一个超大型巨人，身高和城墙相当。

结果如下：

虽然这个巨人有点像闪电侠，但按完成度来看没有什么大毛病，当然这也只是个前菜，提供一些氛围感。

第二考，目前为止我们主要感受了 Claude Fable 5 还原 IP 特征的能力，从游戏玩家视角思考构图的能力（比如流式渲染），在细节上组合创新的能力（比如在城墙上嵌入楼梯），那么还差最后一点，就是基于原创设计的即时理解能力。

我给 Claude Fable 5 提供了来自艺术家 Jarlan Perez 的机器人概念设计作品，让它在罗塞之墙和希娜之墙之间的平原上，把机器人复刻出来，身高也是和城墙相当，并把玩家的出生点从玛丽亚之墙转移到罗塞之墙，便于验收和观察。

参考图：

结果如下：

这个结果，可以说比超大型巨人好多了，除了眼睛做的不像，其它部分还原度都很高。

另外也能看出，Claude Fable 5 有刻意将玛丽亚之墙和罗塞之墙之间的城市做的更加规整一些，虽然希娜之墙内部还是很敷衍。

最后一考不看局部细节，而是让 Claude Fable 5 直接挑战人类。

也就是看它能不能构建一个达到人类高级玩家水平的瓮城，不只是给语言提示，还要用参考图的细节程度暗示模型不能偷懒。参考图选用了动画原作的托洛斯特区鸟瞰图，它刚好位于现在的罗塞之墙出生点的南边。

参考图：

来看看最终结果如何：

如果走到对面的瓮城城墙上，也能看到城墙外的超大巨人的背部，是合理的。

如果要跟 John Papadopoulos 的作品相比较，很明显，人类还是胜出。但就完成度而言，包括尺寸、河流、居民区、中心处高塔等，都成功地呈现了，也算是交出了一份及格卷。

这三大考直接耗尽了我的 5 小时额度，可见要真做出来 100% 还原的艾尔迪亚王国有多烧 Token 。

到此，加上之前用来构建 3D 引擎、动漫形象，总共用了 2 小时 API 时间，成本一共达到了价值 56.99 美元的 Token 消耗（订阅制+Fable 是真香，可惜快没得用了），而我的艾尔迪亚王国，如果要做到在静态视觉上基本还原的程度，目前的完成度估计还不到十分之一。

好了，测评结束！

回到文章开头的问题：Claude Fable 5 究竟有没有 “ 视觉思维 ” 或是一定程度上的 “ 空间智能 ” ？

经过这轮测试，知危依然无法给出一个确定答案。但至少在这次体验里，Claude Fable 5 展现出的能力已经超出了传统意义上 “ 根据提示生成代码 ” 的范畴。

它会一边写代码一边观察，会主动考虑构图，会权衡视觉呈现与性能消耗，会为了远景观感调整世界尺度，会对原创参考图做出极致的视觉还原。

从多啦A梦、乔巴、路飞、“ 黄金梅利号 ”，到艾尔迪亚王国、原创机器人概念设计，再到最终的托洛斯特区，它表现出的并不是简单的复读与拼接，而更像是在不断建立、修正和验证自己对目标的视觉理解。

当然，它距离真正的人类创作者还有很长距离。它的细节塑造能力依然有限，审美稳定性也谈不上完美，而高昂的 Token 成本更决定了这种创作方式暂时难以普及。

但不可否认的是，当一个大模型开始能够一边编程、一边观察、一边迭代自己的视觉成果时，它已经站在了一个新的起点上。

本文来自微信公众号“知危”，作者：流大古，编辑：大饼，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

俩小时就烧掉400块Token后，我终于看懂Claude Fable 5有多猛

最近内容

下一篇