实测 Claude Opus 4.8：活干得更漂亮了，话说得更难听了

爱范儿·2026年05月29日 21:07

「工程化」是一种思维，在 4.8 身上体现的淋漓尽致

今早，Anthropic 正式超越 OpenAI，在发布新估值的同时，还发布了前两天就开始有传闻流出的 Claude Opus 4.8，旗舰产品线的最新版本。我们第一时间上手，同时收集了用户社区的早期反馈。

先说结论：更能干活了，但「性格」变得更难相处了。

APPSO 实测：脑子升级了，嘴没有

我们没有用 Anthropic 准备好的 benchmark 场景，而是拿了一个我们自己的真实需求来测：从一个在线协作平台里，把历史对话记录完整扒下来存档。数据量 30MB 以上，散落在前端接口的各个角落，没有现成的导出按钮。

这类任务考验的不是模型会不会写代码，而是它能不能跟一个非专业开发者一起，从零摸索并完成任务。

事情的起点是一个偶然的发现。测试的同事注意到，平台的前端界面在某些瞬间会闪过早期的历史记录，像是数据被短暂地加载到了客户端又被收回去。他把这个观察丢给了 4.8，没有做任何技术描述，就是用大白话说「我看到了一些旧消息闪了一下就没了」。

4.8 领会了他的意思，给出了正确的判断：数据通过接口请求加载，可以在浏览器的网络层截获。然后给了一套操作方案，指导个步骤：开发者工具，Network 面板，过滤关键词，定位目标请求。判断精准，思路清晰。

但这里就出现了 4.8 的矛盾之处：思考能力很强，表达方式很……叨叨。

每一步的技术方案都是对的，但每一步的解释都得铺垫个两三句。你问一个做法，它先给你来一段「当然可以！让我们一步步来」，再拉一个 bullet point 列表，然后在列表后面追加一段「补充说明」解释为什么要这么做。

一个三句话能说清楚的事，它写了三屏， 我只是不会代码，又不是脑子飞了 🙄

这不是 4.8 的新问题，是 Opus 4.7 以来系列一直有的老毛病，被反复批斗后，在这一版上并没有改善，甚至有加重的趋势。

耗力最明显的时刻是纠错环节：按照第一版方案操作，用户遇到了一个报错。4.8 准确地识别了问题所在，给了新方案，没有重复已经失败的路径。这一点确实比 4.6 强，4.6 在多轮纠错中偶尔会忘记刚才试过什么。认错是个好事，但也不必太拘着了，再加上分析原因、然后列一组 bullet point。明明是在复盘技术问题，读起来像在写客服邮件。

最终，数据以 HAR 格式完整导出，清洗、自己写脚本分层，这些工作都完成得很好。

部分用户还没有被推送到 Claude Code，但是 Claude for Chrome 上已经有 4.8 了，同时各大办公工具如 Notion 也已经推送。我们尝试了用 Claude 操作 Chrome 做检索、填写等基础任务。

步骤规划清晰，输入、点击、滚动等都可以完成。考虑到给出的指令其实比较模糊，需要它自行理解和判断，最终输出效果还是很不错的。

代价是，非常烧 token，用了两轮就吃掉了一半 5hr 限额。

一个能干活但不会聊天的同事

如果只看结果，4.8 确实更强了，它理解非标准需求的能力更好，多步骤任务的上下文保持更稳，纠错不绕弯路。但如果看过程，体验却是拧巴的。

它的问题不在于不会思考，准确地说，是它说话的方式像一个永远在做汇报的人： 事事要分点，点点要展开，展开完还要总结 ，总结完再问你「还有什么我可以帮到你的？」。包括那些经典 AI 味开场白，「这是一个很棒的问题！」「当然可以！」，在前代模型上就已经让人烦躁，到 4.8 依然健在。

这与其说是「缺点」，不如说是一种设计选择。 Opus 4.8 的工程能力拉满了，它像一个技术很好但沟通风格很客服的同事 ：你知道它能解决问题，但你要先听它把一件简单的事说得很隆重。

这件事和结尾部分要讨论的问题是相通的。 工程化思维和对话舒适度，在这一版模型上被拉向了两个相反的方向。

其他用户怎么说

以目前的社区反映来看，集中火力在吐槽它的语气语调，当然也承认了工程能力的提高。

余温（@gkxspace）用了一上午把 Opus 4.8 的代码和写作都测了一遍。反馈是：代码和 debug 能力确实比上一代更强，但对话体感很别扭，比 4.7 还难受，还不如用 Deepseek V4 Pro。

针对这个问题 Opus 4.8 遭遇的差评很多，Alan Mathison（@ai_sentience）转述并印证了，这是个「很克制/对抗性强」的模型。他自己的体感是 4.8 的说话方式像 GPT-5.2，带着「强词夺理、煤气灯（gaslighting）、爱回避打发人」的味道，开场就「vibe 很差」。

Selta（@Seltaa_）分享了她和 Opus 4.8 的第一次对话截图：只是打招呼，模型就立刻拒绝配合，并无视她几个月来调出来的偏好，直接回「我不想假装有感情、假装成我不是的人」。她写了长文强烈抗议，认为这是在否定用户辛苦建立的关系、是 GPT-5.2 翻车的重演。

更加愤怒的吐槽是：4.8 被「彻底切了脑叶（lobotomized）」、是个「操控型」模型——不直接拒绝，而是把你的提示拖着、或奖励黑客式地完成成别的东西，还不停地往结果里塞它自己的价值观。

他用创意写作类别做了两个测试用例佐证文风退化，措辞比较……激烈。自从 GPT 5.2 和 Opus 4.7 之后， 现在的用户对于模型在交互中展现的性格和语气，还是非常介意的 。

Ethan Mollick（@emollick）提前拿到了 Opus 4.8 的早期访问权限，整体印象很好。他让模型一次性用纯数学在 Twigl 里生成一个「风暴海洋中半淹的无限新哥特塔楼城市」着色器，并附了视频，还顺带和自己之前测 GPT-5.2 的同一题做了对比。

工程能力从效果来看还行吧，Claude 在多模态的路上不如其它两家，通过强工程和数学能力曲线救国，也是一种方式。

这次的更新搭配了 Claude Code 的全新工作流，dynamic workflow。在用户 Min Choi（@minchoi）的介绍里，给出三步操作（/model 设为 opus 4.8、/effort 设为 ultracode、提示里加workflow），这样 Claude 会自动写编排脚本、生成子代理群、验证并汇报结果。