Opus 4.8烧1万美元,冲顶AI最难考试,断崖领先GPT-5.5近4倍

新智元·2026年06月02日 20:57
ARC-AGI-1预言了推理革命,ARC-AGI-2预言了编程Agent爆发。第三代锁定新战场:谁能在从未见过的世界里最快搞清状况。Opus 4.8率先撕开口子。

就在刚刚,Claude Opus 4.8(High)拿下了这张榜单的榜首。

RHAE得分1.5%,是第二名的3倍!

但代价是,跑一次评测要烧掉整整1万美元。

要是放到别的AI测试里,1.5%这个成绩只能用惨不忍睹来形容。

但在ARC-AGI-3上,它是有史以来的最高分,而且没有之一。

此前的纪录保持者Opus 4.6(Max),得分是0.5%。

GPT-5.5更惨,只有0.4%。连Opus 4.8的零头都不到。

完整榜单是这样的(截至6月1日):

Opus 4.8(High),1.5%,1万美元

Opus 4.6(Max),0.5%,8900美元

GPT-5.5(High),0.4%,1万美元

Gemini 3.1 Pro(Preview),0.4%,2200美元

Opus 4.7(High),0.2%,1万美元

GPT-5.4(High),0.2%,5200美元

Grok 4.20(Beta Reasoning),0.1%,3800美元

Opus 4.8刷榜,最难考试新SOTA

最高分才1.5%。这张试卷凭什么这么难?

虽然之前的ARC-AGI-1和2也不简单,但依然是有标准答案的填空题。 

而ARC-AGI-3是把你扔进一个从来没见过的游戏里。没有任何说明,没有任何提示。 

自己探索,自己猜规则,自己推断胜利条件,自己规划路线。 

测试一发布,所有前沿AI的得分直接归零。 

说白了,ARC-AGI-3考的就是Agent能力。而Opus 4.8这次升级的重心,恰好全押在了这上面。

在大多数传统benchmark上,它确实只是在Opus 4.7的基础上小幅涨分。

SWE-bench Verified从87.6%到88.6%,GPQA Diamond持平在93.6%。

但在所有和Agent相关的评测上,画风直接突变。

SWE-bench Pro(更难的代码修复测试)从64.3%直接涨到69.2%,领先GPT-5.5的58.6%超过10个百分点。

Online-Mind2Web(浏览器操作测试)拿下84%,同时超过Opus 4.7和GPT-5.5。

Terminal-Bench Hard一下涨了6.8个百分点。

反过来看GPT-5.5。

它在静态推理上依然是怪物级别,ARC-AGI-2拿到85%,Terminal-Bench也都优。

但一旦任务从「解题」变成「在复杂环境中持续操作」,GPT-5.5就开始掉速。

SWE-bench Pro落后Opus 4.8超过10个百分点,GDPval-AA真实工作场景评测中,Opus 4.8以1890 Elo领先约120分,胜率67%。

换句话说就是,考「已知领域的推理深度」,GPT-5.5仍然最强。考「未知场景下的持续适应」,Opus 4.8正在拉开差距。

而ARC-AGI-3,恰好是后者的极端版本。

5帧推出规则,然后一头扎进死胡同

为了更好地分析Opus 4.8的表现,ARC Prize官方同步给出了它解题的完整过程。

总结下来,关键词只有一个——「抽象层级」

Opus 4.7看到的ARC-AGI-3画面是一张「图片」,逐像素处理。

Opus 4.8看到的是「物体和系统」,它开始识别出画面中哪些是独立实体、哪些是背景、哪些在互动。

差一个抽象层级,结果天差地别。

在ar25环境中,Opus 4.8只用了5帧就推导出了镜像反射规则(「蓝色往左移3格,橙色就往右移3格……关于第31列镜像反射」),24步通关第一关。

在lp85环境中表现更亮眼。

这是ARC Prize官方标注的Opus 4.8「得分最高的公开环境」,多个关卡都打出了接近人类的效率。

不过,在dc22环境里,Opus 4.8虽然漂亮地通了1到3关,但在第4关时却锁死在一个错误的子目标上,怎么都不松手。

这是Opus 4.7根本走不到的阶段,也是一种全新的失败模式。

可以说,进步和新bug同时到货了。

每一代ARC-AGI,都预言了下一场战争

从诞生到现在,ARC-AGI每换一代,都精准预言了下一波AI的主战场。

ARC-AGI-1预言了推理革命。2024年底o3的突破,精准标记了大推理模型(LRM)范式的到来。半年后,推理成了所有前沿模型的标配。

ARC-AGI-2预言了编程Agent的爆发。2025年各家AI在ARC-AGI-2上快速攀升,和Claude Code、Codex等编程Agent的产品化几乎同步。

ARC-AGI-3正在测的,是交互式环境中的自主探索与适应。

如果这个规律再次成立,那么接下来这一轮竞赛的核心,将会是谁能在从未见过的世界里更快地搞清楚状况。

GPT-5.5在旧考试上赢了11个百分点。Opus 4.8在新考试上赢了近4倍。

哪张考试更能代表未来,答案可能很快就会揭晓。

参考资料:

https://arcprize.org/leaderboard

https://x.com/scaling01/status/2061513383287882111?s=20

本文来自微信公众号“新智元”,作者:ASI启示录,36氪经授权发布。

+1
2

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

收购后,柠季面临四大挑战。

46分钟前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业