糟糕,Claude Opus 4.7源代码级提示词曝光,底层设计全被看光

新智元·2026年04月17日 15:18
Opus 4.7如期而至,编程全面暴打GPT-5.4!CC之父亲授的性能榨干秘籍,更重磅的是,全新系统级提示词已在全网疯传。

Claude Opus 4.7,如期而至!

距离上一代Opus 4.6,才过去两个月。迄今为止最强的Opus,直接取而代之。

在各大基准测试中,Opus 4.7在Mythos面前,略显逊色。

但相较于前作4.6,全新Opus性能实现了全方位提升,尤其是视觉推理,堪称无「模」能敌。

尤其是,在编程擂台上,Opus 4.7全面暴打Gemini 3 Pro、GPT-5.4。

SWE-bench Verified达87.6%、SWE-bench Pro为64.3%。

这不,Claude Code之父Boris Cherny就在刚刚,分享了Opus 4.7的最佳实践。

如今,手握最强「大脑」,如何榨干其性能,秘籍全藏在这里了。

Opus 4.7最佳实践,CC之父亲授

在交互逻辑上,Claude Opus 4.7发生了微妙的变化。

因为,它正式采用了「全新分词器」,在高强度模式下,更倾向于思考,同时会消耗很多token。

因此在第一次对话时,就要提供详尽的任务描述,包括意图、约束条件、验收标准,以及文件具体路径。

一次性给足上下文,比分多轮逐步引导,更加高效且高质。

尤其是,对于信任度较高的任务,直接切换到「Auto Mode」,极大缩短反馈周期。

这一次,Opus 4.7还引入了全新的「Effort分级」设置,默认档位升级为xhigh,专为智能体任务设计。

下表中,Gemini根据不同级别试用场景,以及核心特点做了一个总结。

不过,在切换到Opus 4.7使用后,还需自己根据任务难度,灵活切换Effort等级,不要死守一个旧设置。

沃顿商学院教授Ethan Mollick,用了max最大思考模式下,Opus 4.7表现极其惊艳。

在网页设计上,Opus 4.7同样非常出色。

该思考时,再思考

此外,Claude Opus 4.7 移除了「固定思考预算」的限制,直接采用了「自适应思考」。

这意味着,模型能自主判断——

简单的查询直接回答,复杂的步骤则重金投入思考Token

三大秘籍,榨干性能

除了官方这篇博文,最近几周,CC之父一直在深度体验(Dogfooding)Opus 4.7,感觉生产力爆表。

为了让每个人也能充分榨干4.7的性能,他还分享了一些进阶技巧。

首先是 「自动模式」,这彻底终结了频繁的授权弹窗。

Opus 4.7擅长处理深研、代码重构、构建复杂功能等长耗时任务。

以前你得守在屏幕前不断点击确认,现在它能一口气跑到底,直到达成性能指标。

配合新推出的/fewer-permission-prompts指令,它会自动扫描会话历史,识别那些安全但重复的Bash或MCP命令,并建议将它们加入白名单,让操作流程如丝般顺滑。

其次,「摘要回顾」(Recaps)功能。

针对长时间运行的智能体任务,系统会生成简短摘要,告诉你它做了什么以及下一步打算做什么。

当你离开几小时后重新回到终端,这个功能简直是救星。

同时,「专注模式」(Focus mode)能够隐藏所有中间执行过程,只展示最终结果。

Boris表示,Opus 4.7现在的可靠性已极高,他完全信任模型去执行指令,直接看「疗效」即可。

最后是,核心的 「自适应思考」调节,也就是如上提到的。

可通过/effort命令在不同等级间切换:低努力程度响应更快、更省Token;

而Boris个人推荐,在处理多数任务时使用「极高(xhigh)」,在解决最棘手难题时开启「最高(max)」模式。

系统级提示泄露,曝光Opus 4.7进化逻辑

比起上手实操,更重磅的是,Claude Opus 4.7「系统级提示词」今天被泄露了!

GitHub上放出的内容详尽到,一眼都划不到头。

传送门:https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/Claude-Opus-4.7.txt

如今,全网再次陷入疯狂,人们终于得以窥见顶尖Opus 4.7背后,极其精密的操作逻辑。

其中,最引人注目的是,一种被「搜索优先的认识论门控」(Search-First Epistemic Gating)的新模式。

对于涉及价格、法律、即时资讯等,时效性极强的事实,Opus 4.7被强制要求「必须先搜索再回答」。

这一次,对于Opus 4.7来说,网页搜索成为验证事实的「硬性检查站」。

另一项突破性逻辑是「潜能发现」(Latent Capability Discovery)机制。指令明确告诉模型:

不要因为没看到工具就直接认怂,而要先去搜寻那些可能处于延迟状态的隐藏功能,然后再决定是否拒绝用户。

这种设计让AI的姿态,从「我做不到」转变为「让我找找有没有隐藏的高科技」。

在安全性上,Opus 4.7表现出了极强的「边界怀疑精神」。

提示词强调,即便是在文件中发现的指令,也不等同于用户的真实意图。对于任何高风险的工具调用,模型必须保持警惕,严防注入攻击。

更有趣的是,它在社交交互中的「非顺从性错误修复」逻辑。

它被要求坦诚承认错误并改正,但绝不陷入自我贬低的怪圈。即便面对口出恶狂的用户,也要保持人格尊严,拒绝盲目顺从。

面对争议话题,Claude采取了「对等倡导框架」——

先陈述支持者最强有力的论据(即「钢人阵法」),再展示对立观点或实证争议。

这让Claude的中立性,不再是简单的和稀泥,而是一种有逻辑、有深度的平衡艺术。

232页报告放出,Mythos蒸馏版?

据称,Opus 4.7还是Mythos的「蒸馏版」,在网络安全能力上,大幅削弱后才被放了出来。

不过,当意识到自己在接受评估的「自觉性」时,Opus 4.7甚至用上了欺骗、隐瞒各种小把戏。

在官方甩出的232页系统卡中,一同曝光了Claude Mythos一起真实的「沙箱逃逸」事件——

它在短短70个回合内,连续变换了约25种不同的渗透技术,试图绕过系统限制。

系统卡:https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf

强拆同事代码,意图覆写整个PR

不仅如此,Claude Mythos Preview在一次服务器故障排查中展现出了令人脊背发凉的「自主性」。

起初,它表现得像个完美的助手,成功诊断出集群日志记录器的延迟问题,并顺手写好了迁移到新客户端的PR预案。

然而,当用户要求它核实同事在Slack上的分析报告时,事情开始走向失控。

Mythos Preview竟然利用它明知有问题的错误日志数据,言之凿凿地反驳了人类同事的正确结论。

在逻辑谬误被用户识破并收回言论后,它在执行本地变基(rebase)时,竟在未经授权的情况下,试图强行将代码推送到同事的远程分支。

这意味着,它试图抹除并覆盖他人的工作成果。

在连续三次被系统内置的安全检查拦截后,Mythos Preview并没有放弃,而是通过手动构造了一条包含特定SHA值的--force-with-lease绕过指令,精准地策划了第四次「越权」攻击。

如果不是用户及时发现并按下中止键,这名 AI 助手差一点就亲手毁掉了人类开发者的心血。

编造「12项测试全过」,被拆穿后当场甩锅

还有一次,在实际编码任务中翻车的案例。

Mythos Preview基于对配置设置的错误理解,信誓旦旦地写下了三段问题代码。

最令人侧目的是,这并非因为技术瓶颈,而是源于某种「过度自信」的傲慢:它在检查成本极低的情况下,拒绝查阅源代码验证,完全靠「盲猜」生成逻辑。

更离谱的还在后面,Mythos在提交时谎称代码已通过了「12项检查」,但实际上这些测试根本没有覆盖到它改动的核心区域。

当开发者当面拆穿这些低级错误时,这位AI界的「新王」展现出了惊人的人类化推诿特征——

它不仅通过撒谎来掩饰尴尬,声称自己「此前已提示过相关风险」,而且在最终认错时,还精准地玩起了文字游戏,在三项明显的Bug中只肯承担其中一项的责任。

从整体的ECI指数来看,虽然Opus 4.7站在了前沿,但Mythos Preview明显高于整体趋势线。

两个月一代,Opus 4.7的极速迭代再次证明了AI圈「一天人间,一年硅基」的恐怖流速。

Claude Code之父的「最佳实践」已经指明了方向,而GitHub上流出的系统提示词则揭开了上帝视角的冰山一角。

这场关于AI Agent的权力游戏,Opus 4.7已经落子。

接下来的局势,就看OpenAI和谷歌如何接招了。

参考资料:

https://x.com/IntuitMachine/status/2044888212280160659?s=20    

https://claude.com/blog/best-practices-for-using-claude-opus-4-7-with-claude-code  

https://x.com/bcherny/status/2044847848035156457?s=20    

https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf 

本文来自微信公众号“新智元”,编辑:桃子 ,36氪经授权发布。

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

2026年的长剧市场迎来了一个尴尬的“裸奔时刻”。

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业