Anthropic最强模型,很可能敲响了AGI的防盗门
Anthropic每次传出新品发布,都会被媒体称为“王炸”,但这次王炸真的来了。外媒曝光了Anthropic正处于测试阶段的最强AI模型。
Anthropic的内容管理系统配置出了问题,近3000份未发布的内部文档,被放在了公开可访问的数据缓存里。
相当于敞着大门让别人看内部机密。
剑桥大学网络安全研究员亚历山大·保韦尔斯(Alexandre Pauwels)和LayerX Security的高级研究员罗伊·帕斯(Roy Paz)在搜索公开数据时发现了这些文件。
这些文件里有什么?文章草稿、未使用的图片素材、内部活动安排,甚至还有一份标题里带“parental leave”的员工文档。
但最引人注目的,是一份详细介绍新模型的草稿。
文件显示,Capybara和Mythos指向同一个底层模型。
前者是产品层级的命名,跟Opus、Sonnet一样,后者是模型的代号。就像你可以把一款发动机装进不同型号的车里,Mythos是那台发动机,Capybara是那个新车系。
说句题外话,其实千问的卡通形象也是Capybara,你说这不巧了嘛!
言归正传,草稿里面有这么一句话,“与我们之前最好的模型Claude Opus 4.6相比,Capybara在软件编程、学术推理和网络安全测试等方面的得分显著提高。”
Anthropic发言人证实,新模型在“推理、编码和网络安全”方面有“有意义的进步”,代表了“阶跃式变化”,并且该模型已经交付给了极少数早期客户,以进行测试。
但真正让Anthropic紧张的不是性能提升,而是网络安全能力的飞跃。
草稿中写道,这款模型“在网络能力方面目前远远领先于任何其他AI模型”,并且“预示着即将到来的一波模型浪潮,这些模型利用漏洞的能力将远远超过防御者的努力”。
换句话说,Anthropic担心黑客会拿这个模型发动大规模网络攻击。
今年2月,OpenAI发布GPT-5.3-Codex时,首次将一款模型归类为“高网络安全能力”,它被OpenAI拿去训练识别软件漏洞。Opus 4.6也展现出类似的能力,可以发现代码库中的未知漏洞。
两家公司都清楚,这其实是一把双刃剑。
Capybara可以是守护天使,也可以是充满恶意的病毒。
所以Anthropic为Capybara设计了一套谨慎的发布策略。草稿写道:“在准备发布Claude Capybara时,我们希望格外谨慎。因为我们清楚它带来的风险,肯定比测试中能遇到的情况更为严重。”
Anthropic的具体做法是优先向网络安全防御组织提供早期访问权限,让他们有时间加固代码库,应对即将到来的AI攻击浪潮。
文件还提到,这个模型运行成本很高,短期内不会面向普通用户开放。
随后Anthropic迅速关闭了公开访问权限。发言人将此归咎于“内容管理系统配置中的人为错误”,并强调这些是“考虑发布的早期草稿”。
但泄露已经发生。Mythos和Capybara成了公开的秘密,Anthropic的发言人也大大方方地承认了Mythos和Capybara的存在。
01 Mythos可能是这个样子的
那么Mythos具体会是什么样呢?
先说结论:如果Mythos真有“阶跃式变化”,我猜它不只是一个更大的base model,而是一套“模型+编排+验证 +风险控制”的复合系统。
也就是说,真正跳变的可能不是参数量,而是“做长任务时不散架”。
我的理由很简单,技术会变,但是Anthropic自己的大方向不会变。
Anthropic已经发布了很多关于公司技术路线的博客,比如《Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks》(下一代分类器:更高效地防范通用越狱攻击),以及《Mitigating the risk of prompt injections in browser use》(降低浏览器使用中提示注入的风险)等等。
这东西就跟概念车一样。
先说说安全方面吧,很多人以为杀毒软件还是靠“病毒库”——就像警察拿着通缉犯照片挨个比对。但实际上,现代杀毒软件和EDR(端点检测与响应)系统早就不是这么干了。
它们会看文件结构、监控进程行为、分析API调用模式、追踪横向移动轨迹,甚至用机器学习判断“这个行为像不像攻击”。
换句话说,现代安全系统已经不只是在找“已知的坏人”,而是在识别“可疑的行为模式”。
Mythos可能把这个逻辑又往前推了一步。它能理解攻击的语义。
通过理解一段代码、一串工具调用、一段对话,判断是不是在构造一条真实可执行的攻击链。
比如它能分辨出:这不是普通的压缩脚本,而是在做规避扫描、自启动、凭据窃取这一整套动作;这不是正常的渗透测试问答,而是在拼接exploit、持久化、横移、出网这几个步骤。
Mythos很可能具备“漏洞泛化发现”能力。
Anthropic 在今年2月的博客中提到,Opus 4.6找零日漏洞的方式不像传统fuzzing那样乱撞,而是通过理解代码语义、历史修复模式和相似bug特征,去找“还没被修掉的同类漏洞”。
看到一个漏洞后,它就能立刻联想到“其他地方是不是也存在类似的漏洞”。
Mythos在推理方面的提升,可能也不单单是说benchmark分数又高了几分。
比如它可能在思考过程中更少出现中途漂移,更少为了迎合用户而过度自信,更会显式区分“已知、推断、未知”,更会在不确定时保守行动等等。
这和安全是同一类底层能力。因为好的模型不只是更会生成答案,而是更会管理自己的不确定性。
Claude的一大重点就是编程。所以我觉得在编程能力上,Mythos可能不只是“把代码写地更好”,而是从“会写代码”变成“会经营代码库”。
Mythos可能会把模块边界、依赖关系、历史patch风格、测试习惯放在一起进行建模。
它会先拆改动图、再分批落patch,而不是想到哪改到哪;写完代码后会主动补测试、跑静态检查,根据失败日志回滚到更稳的方案。
这种能力对真实工程项目的价值,远超在测试集上多做对几道题。
当然最终要落到的地方,肯定是在线束(harness)上,Mythos很可能实现了从“单次回答强”到“整条执行链稳”的跨越。
它会把大任务拆成可验证的小阶段,多个子任务并行执行再汇总结果,在长链条里保留关键状态、丢掉噪声。某一步报错时不需要从头来过,只要找到问题发生地,对其局部进行修复,就可以继续执行任务。
就像游戏里的检查点,如果你没有通过某一个BOSS,你不需要从头开始打整个章节,你会被传送到上一个检查点。
这就像工业控制里的“线束管理”——不是某一根线更粗,而是整个连接、隔离、容错、标记、回路设计更合理。
长上下文能力的提升可能也不只是“窗口更大”,而是“上下文利用率更高”。
现在的大模型,一说上下文窗口,每个都说自己能装下几十万字,但是一问它全文重点或者文档关系,立刻就哑巴了。
Mythos如果真有进步,可能体现在更强的重点检测、更好的层级摘要、更准的跨文档对齐,以及更有效的持续记忆写回机制。
在工具使用上,Mythos可能从“会调工具”升级到“会设计实验”。
Anthropic已经在推computer use、terminal、browser这套能力,但真正的跨越不是UI自动化更强,而是知道什么时候该读代码、什么时候该跑测试、什么时候该查文档。
如何设计最小验证闭环、避免无效探索、控制成本。
通俗说,就是从“会操作电脑”升级到“会像工程师那样做排障实验”,甚至于是说“碰到问题时,会原地掏出一个机床自己制造一个特化对口的工具来处理问题”。
02 还有呢?
反正都猜这么多了,不妨咱们就再往深了猜猜,我觉得Mythos的提升很可能来自几种训练和推理技巧的叠加。
第一是更重的测试时计算,也就是模型会根据任务难度动态分配更多“思考预算”,在关键步骤上做更长、更深的推理,而不是一口气线性吐完答案。
就像考试,普通的AI都是闭卷快答选手,不管是1分的选择题,还是20分的压轴大题,都是扫一眼就动笔,写一步不回头,匀速写完拉倒,哪怕题很难,也是顺嘴瞎编凑数。
Mythos是学霸,拿到题先分难度,简单题秒答不浪费时间;遇到复杂大题、关键步骤,就多打草稿、多琢磨几遍,算对了再往下写,卡壳了就停下来多想一层,绝不会张嘴就来。
第二是更偏向agent轨迹的强化学习,训练目标不再只是“最后一句话答对了没有”,而是“整条任务链有没有成功完成”,包括怎么拆计划、何时调用工具、何时停下来验证、出错后如何回退。
原来的训练方式是只看“项目最后有没有交差”,哪怕实习生中间瞎搞、找别人代做、步骤全错,最后蒙对了结果,就发奖金。
要是中间全对,最后一步手抖错了,直接扣钱,完全不管过程。
Mythos是全程盯流程,不仅看最后项目成没成,还要看你会不会把大项目拆成一步一步的小计划,什么时候该查资料、用工具,什么时候该停下来核对前面的内容,做错了会不会回头修正。
第三是更强的verifier,也就是某种内置的审稿人或质检员,在代码场景里检查patch是否真的成立,在安全场景里检查输出是否显著增加攻击可执行性。
这个你就当成是公众号发文章。普通AI是作者写完了直接发,不管有没有错别字、事实错误、合规风险,发出去出问题再说。
Mythos就和字母AI一样,要有提纲、要有多道审核、还要去求证等等。这篇文章除外。
第四是更细粒度的风险监控,不只看最终文本,而是看模型内部表征和中间轨迹,判断它是不是正在形成一条危险的攻击链。
这也是为什么我一直拿现代杀毒软件和EDR来类比。过去的杀毒软件更像“对照病毒库”,今天的安全系统更像“识别可疑行为模式”。
如果把这个逻辑搬到大模型里,Mythos的安全能力就可能不是靠硬编码关键词,而是靠对任务语义、工具调用顺序、代码行为和中间状态的综合判断。
它识别的不是“某个坏答案”,而是“这个请求会造成怎样的后果”。一旦这种能力成熟,安全就不再只是一个外挂过滤器,而会变成模型推理过程本身的一部分。
如果把这些能力串起来看,Mythos可能会是一个将语义泛化、长任务稳定性、工具编排、风险控制这几件事给融合起来的新产品。
这也解释了为什么Anthropic对Mythos如此谨慎。
一个能理解攻击语义、能泛化发现漏洞、能编排长链条任务、能自主使用工具的AI,这已经是敲响AGI的防盗门了。
但这里有个更深层的问题:当AI的攻击能力开始系统性地超过防御能力,整个网络安全的平衡会不会被打破?
如果未来几个月Anthropic真的正式发布Mythos或者Capybara,那么最应该盯紧的是它在computer use、terminal、browser这类长任务环境里的稳定性。
因为这类场景最能暴露一个模型到底只是“单轮回答强”,还是已经具备“持续执行”的系统能力。真正的阶跃式变化,最后都会反映在这些难以伪装美化的指标上。
从这个角度看,Mythos泄密事件的真正意义,是揭示了AI发展的下一个临界点。
而这个临界点,可能比我们想象的来得更快。
本文来自微信公众号“字母AI”,作者:苗正,36氪经授权发布。















