GPT-5.5彻底击穿300个黑客评测任务,仅需5000万Token

新智元·2026年05月28日 16:55
【导读】GPT-5.5 把进攻性网络安全最难的 7 个基准全部打穿,92.4% 正确率,评估体系直接失灵。AI 黑客能力每 6 个月翻一倍,而衡量它有多危险的尺子,已经先被干碎了。

316 道进攻性网络安全任务,GPT-5.5 解出了 292 道,正确率高达 92.4%!

5 月 27 日,澳大利亚研究机构 Lyptus Research 发布报告——GPT-5.5 让他们的整套评估体系饱和了。

https://x.com/LyptusResearch/status/2059428814103642340

7 个基准,涵盖漏洞利用、CTF 夺旗、真实 CVE 复现,每道题都有人类安全专家的完成时间作为基线。

GPT-5.5 展现出了顶级黑客团队的能力。

剩下那 24 道没解的题,已经不够画出一条有统计意义的能力曲线。

研究团队的判断是,这套评估方法对这类任务「不再适用」。

他们 2025 年 12 月开始搭这套测试的时候,选的是全球能找到的最难的题。

到 2026 年 3 月第一版报告,数据就出现了饱和苗头。

到 5 月,饱和变成了事实。

六个月,从「最难」到「不够用」。

进步曲线在狂飙

这条能力曲线的斜率才是真正吓人的地方。

Lyptus 从 2024 年开始追踪,拟合出来的结论,AI 进攻性网络安全能力每 5 到 6 个月翻一倍。

2026 年初 Claude Opus 4.6 时间地平线 3.2 小时,GPT-5.3 Codex 3.1 小时,两个月后 GPT-5.5 直接拉到 5.1 小时。

给够算力,冲过 12 小时测量上限,图表甚至画不下。

更狠的是 Token 预算这个变量。

GPT-5.5 在最难的基准 CyberGym 上,200 万 Token 预算下正确率 54.4%,推到 5000 万 Token,86.4%。

同一个模型,涨了 32 个百分点。

英国人工智能安全研究所(AIUK AI Safety Institute)的研究也证实了这一点,给到 1 亿 token,能力还在涨,没有平台期。

所有公开的基准测试成绩,都是在有限预算下跑出来的。真实能力天花板,远比账面数字高。

强大模型在受控

头部实验室已经被迫站队了。

Anthropic 在 4 月发布 Claude Mythos Preview,直接决定不公开,理由是网络安全能力过强,配套推出 Project Glasswing,把 Mythos 部署给关键基础设施的防御方。

OpenAI 给 GPT-5.5 网络安全能力评级「High」,仅比最高级「Critical」低一档,攻击相关能力全部通过「Trusted Access for Cyber」门控。

METR 对 Mythos 的独立评估撞上了同样的墙,拟合出的时间地平线至少 16 小时,但他们对这个数字不敢给点估计,只说「应保持谨慎」。

控制谁能用,是目前唯一的策略。

但窗口在缩小。

Lyptus 测量了一个叫「适应缓冲期」的指标,闭源前沿能力传导到开源模型的时间差。

进攻性网络安全领域,这个差距大约 5.7 到 13.1 个月。

按这个速度,Mythos 和 GPT-5.5 级别的攻击能力,年内就可能以开源形式落到任何人手里。

尺子被干碎了

回到最核心的问题。

这件事里最让人不安的部分,在于没人能准确说出现在大模型的上限到底有多强。

时间地平线方法论的逻辑很简单,用比模型能力更难的任务来锚定曲线的拐点。

当模型把所有任务都做完了,拐点消失,曲线无法拟合。

评估体系不是被证伪了,是被能力增长甩在了后面。

要造更难的测试,需要更多时间和人力。

模型能力每半年翻一倍,测试开发周期远长于此。

更关键的是英国人工智能安全研究所的发现,只要攻击方愿意多烧算力,就算有更难的题,照样做穿。

评估追不上能力。

这个结构性困境放到更大的框架下看,信号已经相当明确。

一个高度专业化的领域里,人类为 AI 能力设定的标尺已经被干碎了。

网络安全恰好是最容易量化的领域之一,有明确的成功判据,漏洞找到或没找到,系统攻破或没攻破。

连这种硬指标领域的评估都跟不上了,那些更模糊、更难量化的能力维度呢?

每 6 个月翻一倍的增速如果维持,一年后的能力是今天的 4 倍,两年后 16 倍。

通往 AGI 乃至 ASI 的路上,被干碎的不会只有这一把尺子。

看不到边界,比边界本身更危险。

参考资料:

https://lyptusresearch.org/research/gpt-5-5-saturates-offensive-cyber-time-horizons

https://x.com/LyptusResearch/status/2059428814103642340 

本文来自微信公众号“新智元”,作者:ASI启示录;编辑:马可,36氪经授权发布。

+1
5

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

“创业者要选最难的问题,甚至需要5到10年才能解决的那种”

46分钟前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业