GPT-5.5发布后，Anthropic道歉了

智东西·2026年04月24日 16:04

过去一个多月内三项产品的调整叠加失效所致。

Anthropic

C+轮海外2019-02

人工智能安全和研究公司

36氪报道前沿技术

我要联系

智东西4月24日消息，过去一个多月，不少Claude Code用户明显感受到体验“缩水”：回复变短、上下文记忆变差、代码质量也有所下滑，甚至调侃这款产品“降智了” 。

恰恰在今日凌晨GPT-5.5正式亮相后，Anthropic发布技术报告，对近期 Claude Code 的 “降智” 风波作出直接回应：问题并非模型能力退化，而是过去一个多月内三项产品的调整叠加失效所致。Anthropic还强调，其绝不会蓄意降低模型性能，并在今日重置所有订阅用户的使用额度。

经全面排查，Anthropic定位到三个具体问题：

1、推理难度调整失当：3月4日，Anthropic为解决部分用户在 “高” 难度下的界面卡顿问题，将Claude Code默认推理难度下调至 “中”。但用户反馈，更倾向于默认使用更高智能级别，仅在处理简单任务时手动切换至低难度。因此，团队于4月7日撤销更改，恢复原有默认设置，此次调整影响Sonnet 4.6与Opus 4.6版本。

2、缓存优化漏洞致模型 “健忘”：3月26日上线的会话缓存优化功能，本意是清除闲置超一小时会话的历史思维记录以降低延迟，但程序漏洞导致该清除操作在会话剩余时间内反复触发，造成模型回答重复、工具选择异常。该漏洞于4月10日修复，影响范围覆盖Sonnet 4.6与Opus 4.6版本。

3、系统提示调整损害代码质量：4月16日，Anthropic新增一条系统提示以精简输出冗余，但该指令与其他规则叠加后导致代码生成质量下滑。团队于4月20 日撤销该提示，此次变更影响Sonnet 4.6、Opus 4.6及Opus 4.7版本。

01.默认推理强度调整引发连锁反应

Anthropic在最新发布的排查与修复公告中披露，此次性能波动并非单一原因导致，而是由三项独立功能调整叠加引发，影响范围仅限于Claude Code、Claude Agent SDK及Claude Cowork三款产品，核心API服务未受影响。截至4月20日（v2.1.116），相关问题已全部修复。

公告指出，由于三次变更在影响范围与持续时间上存在差异，用户侧表现为“普遍存在但不稳定”的性能下降。这也增加了排查难度。尽管团队早在3月初便启动调查，但初期难以区分正常波动与异常问题，内部测试环境也未能第一时间复现故障。为弥补用户体验损失，Anthropic宣布自4月23日起重置所有订阅用户的使用额度。

从时间线来看，此轮问题最早可追溯至今年2月。彼时，Anthropic在Claude Code中上线Opus 4.6版本，并将默认推理强度设为“高”，以提升模型智能表现。但上线后不久，用户反馈指出，高强度模式下模型思考时间过长，不仅带来明显延迟，也显著增加了Token消耗。

Opus 4.7与Opus 4.8不同模式下token消耗量

为此，Anthropic对默认设置进行了调整。Claude Code中的“工作量级别”功能，本意是让用户在“思考时间—输出质量—成本”之间进行权衡。内部测试显示，中等强度虽然在智能表现上略有下降，但能显著降低延迟、避免极端等待时间，同时提高使用效率。因此，团队一度将默认模式切换为“中”，并通过产品内弹窗进行说明。

然而，这一调整很快引发了新的问题，大量用户感知到模型“变弱”。尽管团队随后通过增加启动提示、内嵌难度选择器等方式引导用户调整设置，但多数用户仍沿用默认配置，负面反馈持续累积。

Claude通过产品内对话框解释了更改原因

在综合用户意见后，Anthropic最终于4月7日撤回这一调整：将Opus 4.7的默认工作量设为1（对应xhigh级别），其余模型设为2（对应high级别），恢复更高推理强度。

02.让模型“健忘”的缓存漏洞

在正常设计中，当Claude完成一次推理后，其思考过程会被保存在对话历史中。这样，在后续每一轮交互中，模型都可以回溯此前为何执行某项编辑或调用某个工具，从而保持决策的一致性与连贯性。

3月26日，Anthropic上线了一项性能优化，引入“提示缓存”机制，旨在降低连续API调用成本并提升响应速度。具体而言，Claude在发起请求时会将输入内容写入缓存；当会话长时间不活跃后，缓存内容会被清理，以释放资源并提升整体效率。

按照原始设计逻辑，这一机制相对简单：当会话闲置超过一小时，系统会一次性清理旧的推理记录，以减少恢复会话时的资源消耗。在用户继续交互后，再恢复完整的推理历史。

但在实际实现中，这一机制出现了关键性漏洞：推理历史并未只被清理一次，而是在后续每一轮对话中持续被清除。一旦会话超过闲置阈值，之后的每个请求都会指示API仅保留最新一段推理数据，并丢弃此前所有记录。

更严重的是，在工具调用过程中，如果用户插入新消息，系统可能在“上下文已损坏”的状态下开启新一轮交互，甚至连当前回合的推理信息也被清除。最终的表现就是，Claude仍会继续执行任务，但会越来越模糊此前执行操作的决策依据，这正是用户反馈的健忘、回答重复、工具选择异常等问题的根源。

与此同时，由于该漏洞持续移除上下文信息，后续请求频繁出现缓存未录入的情况，反而增加了Token消耗。Anthropic认为，这也是部分用户反馈“使用额度消耗异常加快”的重要原因。

这一问题之所以难以及时发现，主要有两方面原因：一是其仅在“长时间闲置会话”等极端条件下触发；二是两项内部并行实验在一定程度上掩盖了问题表现，包括一项消息队列相关的服务器端实验，以及一项对“思维过程展示”的功能调整，后者恰好在多数场景中抑制了异常现象，使问题在测试阶段未能暴露。

从技术层面看，该漏洞位于Claude Code上下文管理、Anthropic API与扩展推理机制的交汇处。相关代码变更已通过多轮人工与自动化审查，并完成单元测试、端到端测试及内部验证，但由于触发条件苛刻、复现难度极高，团队最终花费超过一周时间才定位根因，并于4月10日发布的v2.1.101版本中完成修复。

在事后复盘中，团队使用Opus 4.7对相关代码提交进行回溯分析，在提供完整代码仓库上下文后，该模型成功识别出漏洞，而Opus 4.6未能发现。Anthropic表示，未来将优化代码审查流程，引入更大规模上下文支持，以提升模型辅助开发的有效性。

03.系统提示优化的“副作用”

与此同时，随着Claude Opus 4.7发布，模型在复杂任务中的表现显著增强，但输出内容更为详尽，也随之带来更高的Token消耗。

为此，Anthropic在Opus 4.7发布前数周便开始对Claude Code进行适配优化。由于不同模型在行为上存在差异，每次版本更新前，团队都会针对提示策略与产品体验进行系统性调整。

在减少冗余输出方面，团队采用了多种手段，包括模型训练优化、提示词设计以及交互体验改进。其中，一项关键调整是在系统提示中加入明确的长度限制：

工具调用之间的文本不超过25字；最终回复不超过100字（除非任务确有需要）。

这一改动在内部测试阶段未出现明显问题，多组评估结果也未显示性能下降，因此团队在4月16日随Opus 4.7版本一同上线该策略。

但在后续更大规模的评估中，通过消融实验（逐条移除提示语以分析影响）发现，这一长度限制对模型能力产生了负面影响，Opus 4.6与Opus 4.7的整体性能均下降约3%。

基于这一结果，Anthropic于4月20日立即恢复了提示。

为避免类似问题再次发生，Anthropic表示将从产品使用、研发流程与沟通机制等多个层面进行改进。首先，团队将扩大内部真实使用场景，确保更多员工直接使用Claude Code的公开版本，而非仅依赖测试环境中的预发布版本，以便更早发现潜在问题。同时，公司也将升级内部代码审查工具，并计划将相关改进能力逐步开放给开发者使用。

在技术流程上，Anthropic将进一步收紧对系统提示变更的管理。未来，每一次针对Claude Code的提示调整，都需要在不同模型上进行全面评估，并通过持续的消融测试（逐项验证每一行提示的影响）来确保稳定性。团队还开发了新的审查与审计工具，以提升提示变更的可追溯性与可控性。此外，在CLAUDE.md文件中也已补充相关规范，明确不同模型的提示调整边界，避免跨模型干扰。

对于可能影响模型智能表现的改动，Anthropic表示将延长测试周期、扩大评估数据集，并采用渐进式发布策略，以便在早期阶段识别并修复问题。

在外部沟通方面，公司已在X平台上线@ClaudeDevs账号，用于更透明地解释产品决策及其技术背景；同时，也会在GitHub集中讨论帖中同步更新进展，增强与开发者社区的互动。

Anthropic最后表示，此次问题的定位与修复离不开用户的持续反馈。无论是通过反馈渠道提交的问题，还是公开分享的可复现案例，都为排查提供了关键线索。作为回应，公司于今日重置所有订阅用户的使用额度。