俩小时就烧掉400块Token后,我终于看懂Claude Fable 5有多猛
Claude Fable 5 于 6 月 10 日发布后,知危在推特上围观了大量案例,印象最深刻不是那些 UI 设计、物理模拟案例,也不是一天内迁移五千万行代码的代码库( 毕竟这超出了个人的认知范围 ),反而是被一个看似简单的例子吸引了。
来源:https://x.com/ProperPrompter/status/2064405487492452856
提示词:
使用 SVG 模拟像素艺术,创建一个精美且细节丰富的可爱动物场景。每个“像素”的大小应该相同。
虽然让大模型用 SVG 来画图已经有大量的尝试,但知危是第一次感觉到AI的作画是那么自然协调,不管是动物的形态,环境的氛围,还是颜色的组合,它让你感觉 Claude Fable 5 是在用眼睛看着作画。
而在看到下图这个案例之后,加上火速通关《 宝可梦:火红 》的战绩,让我对 Claude Fable 5 可能拥有某种 3D 视觉思维或者说 “ 空间智能 ” 能力的想象更加强烈。
于是,在本期测评中,知危打算着重测试 Claude Fable 5 用代码构建视觉概念的能力。( 全程使用 Claude Code 测试 )
尽管网友似乎更加热衷于让 Claude Fable 5 直接构建《 我的世界 》,但其实里面的构成大部分是平凡的地形元素,要验证模型的视觉思维的存在,必须让它去实现一些非平凡的概念和性质,比如带有 IP 属性的形象,二次组合创新,对原创设计的即时理解等。
在正式开始前,还是要用一个比较复杂的案例看看 Claude Fable 5 的基础编程能力。
在一个被用来挑战过 Gemini 3 Pro 等模型的 3D 引擎案例下,Claude Fable 5 交出了目前为止最好的答卷,除了需求完整实现、没有 bug 以外,它是唯一一个不会漏掉左侧模版库的 AI。
这只是前菜,毕竟对于这个案例,网页版的 Claude Sonnet 4.6( low effort )也能基本完成了。
接下来,就要考验 Claude Fable 5 的视觉理解和构建能力了。
我要求 Claude Fable 5 直接就用刚才写好的 3D 引擎,搭建出一个多啦 A 梦的 3D 模型,结果堪称完美。
再来一个乔巴,也是惊喜远多于槽点。
继续,再加一个路飞,放在他们身后,并且强调了是 3 档形态,Claude Fable 5 很好地理解了这个状态下路飞的巨大手臂形态。
最后,我希望在场景上更加丰富一些,就要求 Claude Fable 5 画出路飞的海贼船“ 黄金梅利号 ”,并让他们三个站在甲板上。
结果不太理想,那么大一艘海贼船被 Claude Fable 5 画成了只能在景区湖里使用的小船,当然模型有刻意去还原船头的羊头标志和海贼旗,也是很细节了。
做完上述这些测试后,Claude Code 消耗了 43% 的 5 小时额度,以及价值 7.29 美元的 Token,价格确实不菲,要想玩的尽兴点,Pro 级订阅应该是不太能满足的。
“ 黄金梅利号 ” 的 “ 崩塌 ”,可能是由于工作空间太小,导致了Claude Fable 5难以发挥。
接下来,我们打破引擎框架的限制,并开始构建更加复杂的对象,让 Claude Fable 5 直接用 Three.js 来构建《 我的世界 》风格的艾尔迪亚王国,也就是《 进击的巨人 》中由三堵圆形城墙为框架建立起来的城堡。
提示词:
你将使用 Three.js 构建一个第一人称体素(Minecraft-like)沙盒原型,自由组织项目,可以引入依赖和后处理。
目标:实现一个以《进击的巨人》“艾尔迪亚王国三层城堡”为核心的可交互体素世界。
核心场景:艾尔迪亚三层城堡。世界核心是一个巨大的“帕拉迪岛风格王都城堡”,采用三层城墙结构:玛丽亚,罗塞,希娜。
核心体验:玩家出生在最外层的城墙(玛丽亚)上方,可沿城墙环绕行走,可从城墙落到地面,可从地面爬上城墙。世界是程序生成的体素地形,要有村庄、城堡、河流、草原和树林。
玩法基本保留 Minecraft 经典手感:第三人称,WASD+鼠标,左键破坏,右键放置,带物品栏。其余细节由你发挥,打开第一眼就要被城墙和夕阳震住。
如果实现成功,应满足:
玩家进入世界后看到三层城墙明显分层结构;
能在不同层之间移动(楼梯/绳索/地面);
第一层复杂、第二层规整、第三层宏伟;
可以自由破坏/放置方块;
城堡结构在视觉上“可读”(一眼看出三层权力结构)。
提示词没有太多讲究,关键就是多强调目标、验收标准,而不是过程。
在执行过程中,Claude Fable 5 会持续多次调用 Chrome CLI headless 截图来查看和测试当前实现效果,看起来确实很像是在 “ 边画边看边测试边思考 ”。
只是使用 Chrome CLI headless 截图可能触发 Mac 权限限制等问题,导致进度一直停滞。参考ChatGPT的建议,我将原方案改为 Playwright 方案( Playwright 是一个开源的浏览器测试和网页抓取自动化库 ),顺利完成了项目。
来看看效果如何:
一眼看过去还是非常惊艳的,一个镜头就能直接将夕阳下的三堵巨大城墙的视觉效果呈现给你。城墙上的竖条纹非常符合原作的特点,甚至你还能发现,作为主角的士兵可以确定是调查兵团的,因为披着绿色的披风。
当然,这个结果的复杂度肯定还远远比不过人类的 MineCraft 作品,比如下图,由 DSOGaming 的创始人兼主编 John Papadopoulos 创作。
要知道,Claude Fable 5 只是完成了艾尔迪亚王国的宏观框架,平原上的村庄、森林过于凌乱而随意,最核心的居民区也就是瓮城( 上图呈现的城市结构 )连个影子都没有,城墙之间间距过窄,没有任何“史诗级”的氛围。
当然,反过来看,Claude Fable 5 搭建出来的成品,至少没有和我搜索到的任何相关作品雷同,所以目前来看,这是它基于自己的理解而不是套训练数据做出来的概率,相对高一些。
接下来,就要加难度了,主要是把上述槽点都修一修。
首先是调整宏观尺寸。
提示词:
请调整尺寸,人身高:城墙高度=1:50,城墙高度:相邻城墙距离=1:20。在每个城门的部分还有再略为向外突出的半圆形城墙的瓮城。
Claude Fable 5 分析需求后,认为间距过大会让三堵墙无法在视觉上一镜同屏,且需重写为流式生成,后面会解释这是基于视觉渲染效率的考虑。它竟然给我提供了三个完全不同的选项,要么保持当前间距,要么去实现极端大间距,要么做一个折中。
毕竟按原来提示的极端大间距下,同屏是不可能的,很影响视觉氛围,且从一堵墙到另一堵墙的徒步时间过长,所以最后还是选择了折中方案。
折中方案也不错,三堵墙一眼尽收眼底。
乍一看会觉得Claude Fable 5用平滑的、无结构的墙面来偷懒,城墙上还有莫名其妙的缺口,但走近了之后才理解它的苦心。
随着离城墙越来越近,墙面的真实结构也逐渐显露出来,原来的缺口也被填补了。
我追问了一句,“ 为什么将城墙半径扩大需要很大量的工程,具体有哪些工作内容和挑战?”
Claude Fable 5 解释道:生成不贵,“ 让你看见 ” 才贵。
这应该是指如果要把场景内的所有细节一次呈现给你,内存占用过高,会无法流畅运行。所以一般是近景才做细节渲染,远景只做粗糙些的渲染,此即所谓的流式生成或流式渲染。这其实也是很多游戏特别是开放世界游戏的常用优化手段了。
重点是,它就连优化和折中的重点也放在视觉层面。
但瓮城里是真的什么都没有,连门都给封住了。
还好,Claude Fable 5 有按要求提供爬上城墙的楼梯,这可是原作里不存在的东西。
接下来,需要再完善一些细节,以及分三步,给它一个终极大考。
第一考,在玛丽亚之墙和罗塞之墙之间的平原上,构建一个超大型巨人,身高和城墙相当。
结果如下:
虽然这个巨人有点像闪电侠,但按完成度来看没有什么大毛病,当然这也只是个前菜,提供一些氛围感。
第二考,目前为止我们主要感受了 Claude Fable 5 还原 IP 特征的能力,从游戏玩家视角思考构图的能力( 比如流式渲染 ),在细节上组合创新的能力( 比如在城墙上嵌入楼梯 ),那么还差最后一点,就是基于原创设计的即时理解能力。
我给 Claude Fable 5 提供了来自艺术家 Jarlan Perez 的机器人概念设计作品,让它在罗塞之墙和希娜之墙之间的平原上,把机器人复刻出来,身高也是和城墙相当,并把玩家的出生点从玛丽亚之墙转移到罗塞之墙,便于验收和观察。
参考图:
结果如下:
这个结果,可以说比超大型巨人好多了,除了眼睛做的不像,其它部分还原度都很高。
另外也能看出,Claude Fable 5 有刻意将玛丽亚之墙和罗塞之墙之间的城市做的更加规整一些,虽然希娜之墙内部还是很敷衍。
最后一考不看局部细节,而是让 Claude Fable 5 直接挑战人类。
也就是看它能不能构建一个达到人类高级玩家水平的瓮城,不只是给语言提示,还要用参考图的细节程度暗示模型不能偷懒。参考图选用了动画原作的托洛斯特区鸟瞰图,它刚好位于现在的罗塞之墙出生点的南边。
参考图:
来看看最终结果如何:
如果走到对面的瓮城城墙上,也能看到城墙外的超大巨人的背部,是合理的。
如果要跟 John Papadopoulos 的作品相比较,很明显,人类还是胜出。但就完成度而言,包括尺寸、河流、居民区、中心处高塔等,都成功地呈现了,也算是交出了一份及格卷。
这三大考直接耗尽了我的 5 小时额度,可见要真做出来 100% 还原的艾尔迪亚王国有多烧 Token 。
到此,加上之前用来构建 3D 引擎、动漫形象,总共用了 2 小时 API 时间,成本一共达到了价值 56.99 美元的 Token 消耗( 订阅制+Fable 是真香,可惜快没得用了 ),而我的艾尔迪亚王国,如果要做到在静态视觉上基本还原的程度,目前的完成度估计还不到十分之一。
好了,测评结束!
回到文章开头的问题:Claude Fable 5 究竟有没有 “ 视觉思维 ” 或是一定程度上的 “ 空间智能 ” ?
经过这轮测试,知危依然无法给出一个确定答案。但至少在这次体验里,Claude Fable 5 展现出的能力已经超出了传统意义上 “ 根据提示生成代码 ” 的范畴。
它会一边写代码一边观察,会主动考虑构图,会权衡视觉呈现与性能消耗,会为了远景观感调整世界尺度,会对原创参考图做出极致的视觉还原。
从多啦A梦、乔巴、路飞、“ 黄金梅利号 ”,到艾尔迪亚王国、原创机器人概念设计,再到最终的托洛斯特区,它表现出的并不是简单的复读与拼接,而更像是在不断建立、修正和验证自己对目标的视觉理解。
当然,它距离真正的人类创作者还有很长距离。它的细节塑造能力依然有限,审美稳定性也谈不上完美,而高昂的 Token 成本更决定了这种创作方式暂时难以普及。
但不可否认的是,当一个大模型开始能够一边编程、一边观察、一边迭代自己的视觉成果时,它已经站在了一个新的起点上。
本文来自微信公众号“知危”,作者:流大古,编辑:大饼,36氪经授权发布。















