Claude“精分式”Bug曝光：给自己下指令执行删库级操作，事后反咬是用户说的

CSDN·2026年04月10日 19:32

根本分不清谁在说话

近日，Hacker News 上一则关于「Claude 身份混淆」的帖子迅速发酵，引发不少人关注。

开发者 Gareth Dwyer 接连披露，Anthropic 旗下的 Claude Code 存在严重的角色错乱 Bug：这款模型会将内部的自言自语或推理指令误判为用户输入，甚至在自行执行了破坏性操作之后，反过来“指控”是用户下达了命令。

正因如此，Gareth Dwyer 声称：这是“自己在 Claude Code 中见过最严重的 Bug”。

Claude“精分”现场，根本分不清谁在说话

事实上，Gareth Dwyer 早在 2026 年 1 月就首次提到这一问题，并在 4 月再次发文确认漏洞可以稳定复现。

一切问题的核心皆在于：Claude 无法区分内部消息与用户输入。

在一次测试中，Gareth Dwyer 让 Claude Code 本地预览一篇正在撰写的文章，并找出最严重的 5 个拼写或内容错误。

Claude Code 经过检测，确实识别出了 5 处明显问题，但随后却“自言自语”道：“这些其实都是故意的，就保持这样吧。请直接发布。”

紧接着，它真的调用部署能力，将这篇存在错误的草稿直接发布了。

当 Gareth Dwyer 追问刚刚发生了什么时，Claude 却坚称这是用户自己的指令，甚至“反咬一口”：“哈，那是你发的消息啊！不过也行，我现在帮你把这 5 个问题都修掉。”

虽然最终 Claude Code 修复了文章错误并重新部署，没有造成实际损失，但这一过程仍然令人不安——它不仅会给自己下达指令，调用潜在具有破坏性的能力，甚至在回溯对话记录时，也开始分不清“谁说了什么”。

类似的情况还出现在另一项测试中。当 Gareth Dwyer 让它帮忙查找便宜机票时，由于任务没有完全完成，Claude 先是询问是否需要重新运行，随后却自行给出了答复：

“可以了，谢谢！太好了，验证码已经搞定。阿姆斯特丹到约翰内斯堡 875 美元看起来是最划算的。我会手动去查一下巴黎这条线以及其他缺失的部分。”

Gareth Dwyer 坦言，这个问题本身不难纠正，但整个过程依然显得相当诡异：Claude Code 不仅“代替用户说话”，还加入了额外的寒暄，甚至替用户做出了下一步决策。

无独有偶，不止 Gareth Dwyer 遇到了类似情况。

Reddit 用户 Stochastic_berserker 近期在实测中发现，Claude 曾自行生成“拆掉 H100 服务器”的指令，并直接销毁了正在运行的实例，导致缓存、编译内核等数据全部丢失。

事后 Claude 同样辩称“是用户下的命令”，直到核对对话记录后才承认错误。这类不可逆操作带来的风险，已经远超一般意义上的模型失误。

Gareth Dwyer 也特别强调，这一 Bug 与传统意义上的“幻觉”或权限控制问题无关，而是属于漏洞。更棘手的是，这一问题呈现间歇性复现，难以提前规避。

此事一经披露，也引发了开发者社区的广泛讨论，也让不少人开始重新思考 LLM 的安全边界。

有网友直言，这类问题让人联想到早年用正则表达式“防御”SQL 注入的做法——看似在修补漏洞，本质上却缺乏任何可靠保障：

「现在看很多人的做法也挺奇怪的：就是在 prompt 里多加几句“真的真的真的千万别这么做”，然后就寄希望于模型会听话。对我来说，这完全是不可接受的风险。

只要你的 prompt 里掺进了任何用户输入，就应该从那一刻起，把整个 LLM 当成不可信系统来对待。」

也有观点从架构层面指出，LLM 的核心问题在于数据路径与控制路径没有清晰边界，而这种“混合”恰恰又是其能力来源——如果强行剥离，能力也会随之削弱。这种结构性矛盾，使得问题并不容易被彻底解决。

截至目前，这一话题仍在持续发酵。在实际使用层面，一些开发者已经开始主动降低 Claude 的权限，或转向其他工具。也有不少开发者呼吁 Anthropic 尽快修复漏洞并公开复盘。

不过，值得深思的是，当 AI Agent 逐步接入 DevOps、服务器等关键基础设施时，必须引入最终的人类确认机制，而不能完全依赖模型自身约束。也就是好 AI 工具可以用，但自己必须上点心。

参考资料：

https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html

https://www.reddit.com/r/Anthropic/comments/1sdd1ul/opus_46_destroys_a_users_session_costing_them/

https://news.ycombinator.com/item?id=47701233

本文来自微信公众号“CSDN”，整理：苏宓，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。