Claude“精分式”Bug曝光:给自己下指令执行删库级操作,事后反咬是用户说的
近日,Hacker News 上一则关于「Claude 身份混淆」的帖子迅速发酵,引发不少人关注。
开发者 Gareth Dwyer 接连披露,Anthropic 旗下的 Claude Code 存在严重的角色错乱 Bug:这款模型会将内部的自言自语或推理指令误判为用户输入,甚至在自行执行了破坏性操作之后,反过来“指控”是用户下达了命令。
正因如此,Gareth Dwyer 声称:这是“自己在 Claude Code 中见过最严重的 Bug”。
Claude“精分”现场,根本分不清谁在说话
事实上,Gareth Dwyer 早在 2026 年 1 月就首次提到这一问题,并在 4 月再次发文确认漏洞可以稳定复现。
一切问题的核心皆在于:Claude 无法区分内部消息与用户输入。
在一次测试中,Gareth Dwyer 让 Claude Code 本地预览一篇正在撰写的文章,并找出最严重的 5 个拼写或内容错误。
Claude Code 经过检测,确实识别出了 5 处明显问题,但随后却“自言自语”道:“这些其实都是故意的,就保持这样吧。请直接发布。”
紧接着,它真的调用部署能力,将这篇存在错误的草稿直接发布了。
当 Gareth Dwyer 追问刚刚发生了什么时,Claude 却坚称这是用户自己的指令,甚至“反咬一口”:“哈,那是你发的消息啊!不过也行,我现在帮你把这 5 个问题都修掉。”
虽然最终 Claude Code 修复了文章错误并重新部署,没有造成实际损失,但这一过程仍然令人不安——它不仅会给自己下达指令,调用潜在具有破坏性的能力,甚至在回溯对话记录时,也开始分不清“谁说了什么”。
类似的情况还出现在另一项测试中。当 Gareth Dwyer 让它帮忙查找便宜机票时,由于任务没有完全完成,Claude 先是询问是否需要重新运行,随后却自行给出了答复:
“可以了,谢谢!太好了,验证码已经搞定。阿姆斯特丹到约翰内斯堡 875 美元看起来是最划算的。我会手动去查一下巴黎这条线以及其他缺失的部分。”
Gareth Dwyer 坦言,这个问题本身不难纠正,但整个过程依然显得相当诡异:Claude Code 不仅“代替用户说话”,还加入了额外的寒暄,甚至替用户做出了下一步决策。
无独有偶,不止 Gareth Dwyer 遇到了类似情况。
Reddit 用户 Stochastic_berserker 近期在实测中发现,Claude 曾自行生成“拆掉 H100 服务器”的指令,并直接销毁了正在运行的实例,导致缓存、编译内核等数据全部丢失。
事后 Claude 同样辩称“是用户下的命令”,直到核对对话记录后才承认错误。这类不可逆操作带来的风险,已经远超一般意义上的模型失误。
Gareth Dwyer 也特别强调,这一 Bug 与传统意义上的“幻觉”或权限控制问题无关,而是属于漏洞。更棘手的是,这一问题呈现间歇性复现,难以提前规避。
引 Hacker News 网友热议
此事一经披露,也引发了开发者社区的广泛讨论,也让不少人开始重新思考 LLM 的安全边界。
有网友直言,这类问题让人联想到早年用正则表达式“防御”SQL 注入的做法——看似在修补漏洞,本质上却缺乏任何可靠保障:
「现在看很多人的做法也挺奇怪的:就是在 prompt 里多加几句“真的真的真的千万别这么做”,然后就寄希望于模型会听话。对我来说,这完全是不可接受的风险。
只要你的 prompt 里掺进了任何用户输入,就应该从那一刻起,把整个 LLM 当成不可信系统来对待。」
也有观点从架构层面指出,LLM 的核心问题在于数据路径与控制路径没有清晰边界,而这种“混合”恰恰又是其能力来源——如果强行剥离,能力也会随之削弱。这种结构性矛盾,使得问题并不容易被彻底解决。
截至目前,这一话题仍在持续发酵。在实际使用层面,一些开发者已经开始主动降低 Claude 的权限,或转向其他工具。也有不少开发者呼吁 Anthropic 尽快修复漏洞并公开复盘。
不过,值得深思的是,当 AI Agent 逐步接入 DevOps、服务器等关键基础设施时,必须引入最终的人类确认机制,而不能完全依赖模型自身约束。也就是好 AI 工具可以用,但自己必须上点心。
参考资料:
https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html
https://www.reddit.com/r/Anthropic/comments/1sdd1ul/opus_46_destroys_a_users_session_costing_them/
https://news.ycombinator.com/item?id=47701233
本文来自微信公众号“CSDN”,整理:苏宓,36氪经授权发布。















