实测 Claude Opus 4.8:活干得更漂亮了,话说得更难听了

爱范儿·2026年05月29日 21:07
「工程化」是一种思维,在 4.8 身上体现的淋漓尽致

今早,Anthropic 正式超越 OpenAI,在发布新估值的同时,还发布了前两天就开始有传闻流出的 Claude Opus 4.8,旗舰产品线的最新版本。我们第一时间上手,同时收集了用户社区的早期反馈。 

先说结论:更能干活了,但「性格」变得更难相处了。 

APPSO 实测:脑子升级了,嘴没有 

我们没有用 Anthropic 准备好的 benchmark 场景,而是拿了一个我们自己的真实需求来测:从一个在线协作平台里,把历史对话记录完整扒下来存档。数据量 30MB 以上,散落在前端接口的各个角落,没有现成的导出按钮。 

这类任务考验的不是模型会不会写代码,而是它能不能跟一个非专业开发者一起,从零摸索并完成任务。 

事情的起点是一个偶然的发现。测试的同事注意到,平台的前端界面在某些瞬间会闪过早期的历史记录,像是数据被短暂地加载到了客户端又被收回去。他把这个观察丢给了 4.8,没有做任何技术描述,就是用大白话说「我看到了一些旧消息闪了一下就没了」。 

4.8 领会了他的意思,给出了正确的判断:数据通过接口请求加载,可以在浏览器的网络层截获。然后给了一套操作方案,指导个步骤:开发者工具,Network 面板,过滤关键词,定位目标请求。判断精准,思路清晰。 

但这里就出现了 4.8 的矛盾之处:思考能力很强,表达方式很……叨叨。 

每一步的技术方案都是对的,但每一步的解释都得铺垫个两三句。你问一个做法,它先给你来一段「当然可以!让我们一步步来」,再拉一个 bullet point 列表,然后在列表后面追加一段「补充说明」解释为什么要这么做。 

一个三句话能说清楚的事,它写了三屏, 我只是不会代码,又不是脑子飞了 🙄 

这不是 4.8 的新问题,是 Opus 4.7 以来系列一直有的老毛病,被反复批斗后,在这一版上并没有改善,甚至有加重的趋势。 

耗力最明显的时刻是纠错环节:按照第一版方案操作,用户遇到了一个报错。4.8 准确地识别了问题所在,给了新方案,没有重复已经失败的路径。这一点确实比 4.6 强,4.6 在多轮纠错中偶尔会忘记刚才试过什么。认错是个好事,但也不必太拘着了,再加上分析原因、然后列一组 bullet point。明明是在复盘技术问题,读起来像在写客服邮件。 

最终,数据以 HAR 格式完整导出,清洗、自己写脚本分层,这些工作都完成得很好。 

部分用户还没有被推送到 Claude Code,但是 Claude for Chrome 上已经有 4.8 了,同时各大办公工具如 Notion 也已经推送。我们尝试了用 Claude 操作 Chrome 做检索、填写等基础任务。 

步骤规划清晰,输入、点击、滚动等都可以完成。考虑到给出的指令其实比较模糊,需要它自行理解和判断,最终输出效果还是很不错的。 

代价是,非常烧 token,用了两轮就吃掉了一半 5hr 限额。 

一个能干活但不会聊天的同事 

如果只看结果,4.8 确实更强了,它理解非标准需求的能力更好,多步骤任务的上下文保持更稳,纠错不绕弯路。但如果看过程,体验却是拧巴的。 

它的问题不在于不会思考,准确地说,是它说话的方式像一个永远在做汇报的人: 事事要分点,点点要展开,展开完还要总结 ,总结完再问你「还有什么我可以帮到你的?」。包括那些经典 AI 味开场白,「这是一个很棒的问题!」「当然可以!」,在前代模型上就已经让人烦躁,到 4.8 依然健在。 

这与其说是「缺点」,不如说是一种设计选择。 Opus 4.8 的工程能力拉满了,它像一个技术很好但沟通风格很客服的同事 :你知道它能解决问题,但你要先听它把一件简单的事说得很隆重。 

这件事和结尾部分要讨论的问题是相通的。 工程化思维和对话舒适度,在这一版模型上被拉向了两个相反的方向。

其他用户怎么说 

以目前的社区反映来看,集中火力在吐槽它的语气语调,当然也承认了工程能力的提高。 

余温(@gkxspace)用了一上午把 Opus 4.8 的代码和写作都测了一遍。反馈是:代码和 debug 能力确实比上一代更强,但对话体感很别扭,比 4.7 还难受,还不如用 Deepseek V4 Pro。 

针对这个问题 Opus 4.8 遭遇的差评很多,Alan Mathison(@ai_sentience)转述并印证了,这是个「很克制/对抗性强」的模型。他自己的体感是 4.8 的说话方式像 GPT-5.2,带着「强词夺理、煤气灯(gaslighting)、爱回避打发人」的味道,开场就「vibe 很差」。 

Selta(@Seltaa_)分享了她和 Opus 4.8 的第一次对话截图:只是打招呼,模型就立刻拒绝配合,并无视她几个月来调出来的偏好,直接回「我不想假装有感情、假装成我不是的人」。她写了长文强烈抗议,认为这是在否定用户辛苦建立的关系、是 GPT-5.2 翻车的重演。 

更加愤怒的吐槽是:4.8 被「彻底切了脑叶(lobotomized)」、是个「操控型」模型——不直接拒绝,而是把你的提示拖着、或奖励黑客式地完成成别的东西,还不停地往结果里塞它自己的价值观。 

他用创意写作类别做了两个测试用例佐证文风退化,措辞比较……激烈。自从 GPT 5.2 和 Opus 4.7 之后, 现在的用户对于模型在交互中展现的性格和语气,还是非常介意的 。 

Ethan Mollick(@emollick)提前拿到了 Opus 4.8 的早期访问权限,整体印象很好。他让模型一次性用纯数学在 Twigl 里生成一个「风暴海洋中半淹的无限新哥特塔楼城市」着色器,并附了视频,还顺带和自己之前测 GPT-5.2 的同一题做了对比。 

工程能力从效果来看还行吧,Claude 在多模态的路上不如其它两家,通过强工程和数学能力曲线救国,也是一种方式。 

这次的更新搭配了 Claude Code 的全新工作流,dynamic workflow。在用户 Min Choi(@minchoi)的介绍里,给出三步操作(/model 设为 opus 4.8、/effort 设为 ultracode、提示里加workflow),这样 Claude 会自动写编排脚本、生成子代理群、验证并汇报结果。 

谁适应谁? 

总体来看,Opus 4.8 是一个 「工程」气质拉满的模型 ,这使得它能够快速融入各个工具当中,不管是 CC 这样的代码工具,还是进入网页浏览和检索的 chrome 插件,甚至是各个自己做的小工具。 「工程化」是一种思维,在 4.8 身上体现的淋漓尽致。

尽管「大而全」是厂家们经常打出来的口号,但在实际搭建自己的工作流中,不同的工具必然有不同的用处,Opus 4.8 做到的是,让其工程能力和思维,调动和流淌在各种不同的工具当中。 

不过, 这反过来意味着用户要去适应它的风格 。比如指令更加精确、分步骤、分类别地陈述自己的需求,甚至是在更宏观的层面,给不同的工具分配不同的任务。 

考虑到现在模型的发布越来越快,距离 4.7 不过也是一晃眼的事,这种频繁的更新所带来的频繁适应,势必会带来一些痛苦。除了把重负转嫁给用户,也是厂商要考虑的问题——为了融资上市一昧加速再加速,未来会带来相当多的适应问题。 

本文来自微信公众号“APPSO”,作者:发现明日产品的,36氪经授权发布。

+1
22

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业