Opus 4.8烧1万美元，冲顶AI最难考试，断崖领先GPT-5.5近4倍

新智元·2026年06月02日 20:57

ARC-AGI-1预言了推理革命，ARC-AGI-2预言了编程Agent爆发。第三代锁定新战场：谁能在从未见过的世界里最快搞清状况。Opus 4.8率先撕开口子。

就在刚刚，Claude Opus 4.8（High）拿下了这张榜单的榜首。

RHAE得分1.5%，是第二名的3倍！

但代价是，跑一次评测要烧掉整整1万美元。

要是放到别的AI测试里，1.5%这个成绩只能用惨不忍睹来形容。

但在ARC-AGI-3上，它是有史以来的最高分，而且没有之一。

此前的纪录保持者Opus 4.6（Max），得分是0.5%。

GPT-5.5更惨，只有0.4%。连Opus 4.8的零头都不到。

完整榜单是这样的（截至6月1日）:

Opus 4.8（High），1.5%，1万美元

Opus 4.6（Max），0.5%，8900美元

GPT-5.5（High），0.4%，1万美元

Gemini 3.1 Pro（Preview），0.4%，2200美元

Opus 4.7（High），0.2%，1万美元

GPT-5.4（High），0.2%，5200美元

Grok 4.20（Beta Reasoning），0.1%，3800美元

Opus 4.8刷榜，最难考试新SOTA

最高分才1.5%。这张试卷凭什么这么难？

虽然之前的ARC-AGI-1和2也不简单，但依然是有标准答案的填空题。

而ARC-AGI-3是把你扔进一个从来没见过的游戏里。没有任何说明，没有任何提示。

自己探索，自己猜规则，自己推断胜利条件，自己规划路线。

测试一发布，所有前沿AI的得分直接归零。

说白了，ARC-AGI-3考的就是Agent能力。而Opus 4.8这次升级的重心，恰好全押在了这上面。

在大多数传统benchmark上，它确实只是在Opus 4.7的基础上小幅涨分。

SWE-bench Verified从87.6%到88.6%，GPQA Diamond持平在93.6%。

但在所有和Agent相关的评测上，画风直接突变。

SWE-bench Pro（更难的代码修复测试）从64.3%直接涨到69.2%，领先GPT-5.5的58.6%超过10个百分点。

Online-Mind2Web（浏览器操作测试）拿下84%，同时超过Opus 4.7和GPT-5.5。

Terminal-Bench Hard一下涨了6.8个百分点。

反过来看GPT-5.5。

它在静态推理上依然是怪物级别，ARC-AGI-2拿到85%，Terminal-Bench也都优。

但一旦任务从「解题」变成「在复杂环境中持续操作」，GPT-5.5就开始掉速。

SWE-bench Pro落后Opus 4.8超过10个百分点，GDPval-AA真实工作场景评测中，Opus 4.8以1890 Elo领先约120分，胜率67%。

换句话说就是，考「已知领域的推理深度」，GPT-5.5仍然最强。考「未知场景下的持续适应」，Opus 4.8正在拉开差距。

而ARC-AGI-3，恰好是后者的极端版本。

5帧推出规则，然后一头扎进死胡同

为了更好地分析Opus 4.8的表现，ARC Prize官方同步给出了它解题的完整过程。

总结下来，关键词只有一个——「抽象层级」。

Opus 4.7看到的ARC-AGI-3画面是一张「图片」，逐像素处理。

Opus 4.8看到的是「物体和系统」，它开始识别出画面中哪些是独立实体、哪些是背景、哪些在互动。

差一个抽象层级，结果天差地别。

在ar25环境中，Opus 4.8只用了5帧就推导出了镜像反射规则（「蓝色往左移3格，橙色就往右移3格……关于第31列镜像反射」），24步通关第一关。

在lp85环境中表现更亮眼。

这是ARC Prize官方标注的Opus 4.8「得分最高的公开环境」，多个关卡都打出了接近人类的效率。

不过，在dc22环境里，Opus 4.8虽然漂亮地通了1到3关，但在第4关时却锁死在一个错误的子目标上，怎么都不松手。

这是Opus 4.7根本走不到的阶段，也是一种全新的失败模式。

可以说，进步和新bug同时到货了。

每一代ARC-AGI，都预言了下一场战争

从诞生到现在，ARC-AGI每换一代，都精准预言了下一波AI的主战场。

ARC-AGI-1预言了推理革命。2024年底o3的突破，精准标记了大推理模型（LRM）范式的到来。半年后，推理成了所有前沿模型的标配。

ARC-AGI-2预言了编程Agent的爆发。2025年各家AI在ARC-AGI-2上快速攀升，和Claude Code、Codex等编程Agent的产品化几乎同步。

ARC-AGI-3正在测的，是交互式环境中的自主探索与适应。

如果这个规律再次成立，那么接下来这一轮竞赛的核心，将会是谁能在从未见过的世界里更快地搞清楚状况。

GPT-5.5在旧考试上赢了11个百分点。Opus 4.8在新考试上赢了近4倍。

哪张考试更能代表未来，答案可能很快就会揭晓。

参考资料：

https://arcprize.org/leaderboard

https://x.com/scaling01/status/2061513383287882111?s=20

本文来自微信公众号“新智元”，作者：ASI启示录，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Opus 4.8烧1万美元，冲顶AI最难考试，断崖领先GPT-5.5近4倍

Opus 4.8刷榜，最难考试新SOTA

5帧推出规则，然后一头扎进死胡同

每一代ARC-AGI，都预言了下一场战争

最近内容

36氪AI测评

36氪寻求报道

下一篇