GPT-5.5发布后,Anthropic道歉了

智东西·2026年04月24日 16:04
过去一个多月内三项产品的调整叠加失效所致。
Anthropic
C+轮海外2019-02
人工智能安全和研究公司
我要联系

智东西4月24日消息,过去一个多月,不少Claude Code用户明显感受到体验“缩水”:回复变短、上下文记忆变差、代码质量也有所下滑,甚至调侃这款产品“降智了” 。

恰恰在今日凌晨GPT-5.5正式亮相后,Anthropic发布技术报告,对近期 Claude Code 的 “降智” 风波作出直接回应:问题并非模型能力退化,而是过去一个多月内三项产品的调整叠加失效所致。Anthropic还强调,其绝不会蓄意降低模型性能,并在今日重置所有订阅用户的使用额度

经全面排查,Anthropic定位到三个具体问题:

1、推理难度调整失当:3月4日,Anthropic为解决部分用户在 “高” 难度下的界面卡顿问题,将Claude Code默认推理难度下调至 “中”。但用户反馈,更倾向于默认使用更高智能级别,仅在处理简单任务时手动切换至低难度。因此,团队于4月7日撤销更改,恢复原有默认设置,此次调整影响Sonnet 4.6与Opus 4.6版本。

2、缓存优化漏洞致模型 “健忘”:3月26日上线的会话缓存优化功能,本意是清除闲置超一小时会话的历史思维记录以降低延迟,但程序漏洞导致该清除操作在会话剩余时间内反复触发,造成模型回答重复、工具选择异常。该漏洞于4月10日修复,影响范围覆盖Sonnet 4.6与Opus 4.6版本。

3、系统提示调整损害代码质量:4月16日,Anthropic新增一条系统提示以精简输出冗余,但该指令与其他规则叠加后导致代码生成质量下滑。团队于4月20 日撤销该提示,此次变更影响Sonnet 4.6、Opus 4.6及Opus 4.7版本。

01.默认推理强度调整引发连锁反应

Anthropic在最新发布的排查与修复公告中披露,此次性能波动并非单一原因导致,而是由三项独立功能调整叠加引发,影响范围仅限于Claude Code、Claude Agent SDK及Claude Cowork三款产品,核心API服务未受影响。截至4月20日(v2.1.116),相关问题已全部修复。

公告指出,由于三次变更在影响范围与持续时间上存在差异,用户侧表现为“普遍存在但不稳定”的性能下降。这也增加了排查难度。尽管团队早在3月初便启动调查,但初期难以区分正常波动与异常问题,内部测试环境也未能第一时间复现故障。为弥补用户体验损失,Anthropic宣布自4月23日起重置所有订阅用户的使用额度。

从时间线来看,此轮问题最早可追溯至今年2月。彼时,Anthropic在Claude Code中上线Opus 4.6版本,并将默认推理强度设为“高”,以提升模型智能表现。但上线后不久,用户反馈指出,高强度模式下模型思考时间过长,不仅带来明显延迟,也显著增加了Token消耗。

Opus 4.7与Opus 4.8不同模式下token消耗量

为此,Anthropic对默认设置进行了调整。Claude Code中的“工作量级别”功能,本意是让用户在“思考时间—输出质量—成本”之间进行权衡。内部测试显示,中等强度虽然在智能表现上略有下降,但能显著降低延迟、避免极端等待时间,同时提高使用效率。因此,团队一度将默认模式切换为“中”,并通过产品内弹窗进行说明。

然而,这一调整很快引发了新的问题,大量用户感知到模型“变弱”。尽管团队随后通过增加启动提示、内嵌难度选择器等方式引导用户调整设置,但多数用户仍沿用默认配置,负面反馈持续累积。

Claude通过产品内对话框解释了更改原因

在综合用户意见后,Anthropic最终于4月7日撤回这一调整:将Opus 4.7的默认工作量设为1(对应xhigh级别),其余模型设为2(对应high级别),恢复更高推理强度。

02.让模型“健忘”的缓存漏洞

在正常设计中,当Claude完成一次推理后,其思考过程会被保存在对话历史中。这样,在后续每一轮交互中,模型都可以回溯此前为何执行某项编辑或调用某个工具,从而保持决策的一致性与连贯性。

3月26日,Anthropic上线了一项性能优化,引入“提示缓存”机制,旨在降低连续API调用成本并提升响应速度。具体而言,Claude在发起请求时会将输入内容写入缓存;当会话长时间不活跃后,缓存内容会被清理,以释放资源并提升整体效率。

按照原始设计逻辑,这一机制相对简单:当会话闲置超过一小时,系统会一次性清理旧的推理记录,以减少恢复会话时的资源消耗。在用户继续交互后,再恢复完整的推理历史。

但在实际实现中,这一机制出现了关键性漏洞:推理历史并未只被清理一次,而是在后续每一轮对话中持续被清除。一旦会话超过闲置阈值,之后的每个请求都会指示API仅保留最新一段推理数据,并丢弃此前所有记录。

更严重的是,在工具调用过程中,如果用户插入新消息,系统可能在“上下文已损坏”的状态下开启新一轮交互,甚至连当前回合的推理信息也被清除。最终的表现就是,Claude仍会继续执行任务,但会越来越模糊此前执行操作的决策依据,这正是用户反馈的健忘、回答重复、工具选择异常等问题的根源。

与此同时,由于该漏洞持续移除上下文信息,后续请求频繁出现缓存未录入的情况,反而增加了Token消耗。Anthropic认为,这也是部分用户反馈“使用额度消耗异常加快”的重要原因。

这一问题之所以难以及时发现,主要有两方面原因:一是其仅在“长时间闲置会话”等极端条件下触发;二是两项内部并行实验在一定程度上掩盖了问题表现,包括一项消息队列相关的服务器端实验,以及一项对“思维过程展示”的功能调整,后者恰好在多数场景中抑制了异常现象,使问题在测试阶段未能暴露。

从技术层面看,该漏洞位于Claude Code上下文管理、Anthropic API与扩展推理机制的交汇处。相关代码变更已通过多轮人工与自动化审查,并完成单元测试、端到端测试及内部验证,但由于触发条件苛刻、复现难度极高,团队最终花费超过一周时间才定位根因,并于4月10日发布的v2.1.101版本中完成修复。

在事后复盘中,团队使用Opus 4.7对相关代码提交进行回溯分析,在提供完整代码仓库上下文后,该模型成功识别出漏洞,而Opus 4.6未能发现。Anthropic表示,未来将优化代码审查流程,引入更大规模上下文支持,以提升模型辅助开发的有效性。

03.系统提示优化的“副作用”

与此同时,随着Claude Opus 4.7发布,模型在复杂任务中的表现显著增强,但输出内容更为详尽,也随之带来更高的Token消耗。

为此,Anthropic在Opus 4.7发布前数周便开始对Claude Code进行适配优化。由于不同模型在行为上存在差异,每次版本更新前,团队都会针对提示策略与产品体验进行系统性调整。

在减少冗余输出方面,团队采用了多种手段,包括模型训练优化、提示词设计以及交互体验改进。其中,一项关键调整是在系统提示中加入明确的长度限制:

工具调用之间的文本不超过25字;最终回复不超过100字(除非任务确有需要)。

这一改动在内部测试阶段未出现明显问题,多组评估结果也未显示性能下降,因此团队在4月16日随Opus 4.7版本一同上线该策略。

但在后续更大规模的评估中,通过消融实验(逐条移除提示语以分析影响)发现,这一长度限制对模型能力产生了负面影响,Opus 4.6与Opus 4.7的整体性能均下降约3%。

基于这一结果,Anthropic于4月20日立即恢复了提示。

为避免类似问题再次发生,Anthropic表示将从产品使用、研发流程与沟通机制等多个层面进行改进。首先,团队将扩大内部真实使用场景,确保更多员工直接使用Claude Code的公开版本,而非仅依赖测试环境中的预发布版本,以便更早发现潜在问题。同时,公司也将升级内部代码审查工具,并计划将相关改进能力逐步开放给开发者使用。

在技术流程上,Anthropic将进一步收紧对系统提示变更的管理。未来,每一次针对Claude Code的提示调整,都需要在不同模型上进行全面评估,并通过持续的消融测试(逐项验证每一行提示的影响)来确保稳定性。团队还开发了新的审查与审计工具,以提升提示变更的可追溯性与可控性。此外,在CLAUDE.md文件中也已补充相关规范,明确不同模型的提示调整边界,避免跨模型干扰。

对于可能影响模型智能表现的改动,Anthropic表示将延长测试周期、扩大评估数据集,并采用渐进式发布策略,以便在早期阶段识别并修复问题。

在外部沟通方面,公司已在X平台上线@ClaudeDevs账号,用于更透明地解释产品决策及其技术背景;同时,也会在GitHub集中讨论帖中同步更新进展,增强与开发者社区的互动。

Anthropic最后表示,此次问题的定位与修复离不开用户的持续反馈。无论是通过反馈渠道提交的问题,还是公开分享的可复现案例,都为排查提供了关键线索。作为回应,公司于今日重置所有订阅用户的使用额度。

04.结语:不只是更聪明更要更可靠

这场“降智”风波,本质上并非模型能力的退步,而是工程与产品决策在复杂系统中叠加后的意外后果。

对Anthropic而言,这次公开复盘既是一次危机应对,也是一次对外释放信号。在与OpenAI等对手加速竞逐的背景下,稳定、可靠的产品体验或许正在成为与“更强模型”同等重要的竞争维度。

本文来自微信公众号“智东西”(ID:zhidxcom),作者:佳扬,编辑:云鹏,36氪经授权发布。

+1
1

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

报道的项目

Anthropic
我要联系
人工智能安全和研究公司
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业