Claude Opus 4.5发布:价格腰斩、无限对话,重夺代码王座

山自·2025年11月25日 14:23
人工智能正在以超越预期的速度重塑知识工作,而最新证据来自Anthropic今天发布的Claude Opus4.5

就在今天凌晨,AI领域迎来了一场足以改写行业格局的重磅发布!Anthropic正式推出其旗舰模型Claude Opus 4.5,以令人震惊的定价策略和突破性的性能表现,在大模型战场上投下了一枚"核弹"。这不仅是技术迭代,更是一场深刻的市场革命——API调用成本直降三分之二,在严格的软件工程测试中历史性地超越所有人类工程师,标志着AI技术正式迈入一个全新的发展阶段。

顶级AI能力进入普惠时代

Anthropic此次的定价调整堪称"毁灭性打击"。具体来看,Opus 4.5的输入token价格从之前的每百万15美元骤降至5美元,输出token价格从75美元暴跌至25美元,整体降幅达到了惊人的67%!这一价格水平甚至让许多竞争对手的中端模型都显得黯然失色。

更值得关注的是,Anthropic同时宣布了一系列普惠性政策:32K上下文窗口现在完全免费开放,此前需要额外付费的"无限对话"功能也向所有付费用户全面开放。这意味着开发者和企业用户现在可以用更低的成本,享受到更强大的AI能力。

Anthropic产品负责人Scott White在接受CNBC专访时表示:"我们真切地希望确保这项技术能够为所有想要使用这些模型的人真正发挥作用。我们的核心关注点始终是:如何让Claude更好地帮助您完成那些在工作中不一定想亲自处理的任务?"

编码能力首次超越人类专家

在最具权威性和挑战性的SWE-bench Verified测试中,Opus 4.5取得了80.9%的惊人成绩。这一表现不仅显著超越了OpenAI刚刚发布的GPT-5.1-Codex-Max(77.9%)和谷歌上周推出的Gemini 3 Pro(76.2%),更在Anthropic内部最严格的工程能力测试中创造了新的历史记录。

"在我们规定的2小时时限内,Claude Opus 4.5的得分高于任何人类候选人",Anthropic在官方博客中郑重宣布。这项测试原本是为选拔顶级性能工程师而设计的,专门评估候选人在时间压力下的技术能力和专业判断力。

虽然公司方面谨慎地表示,这项测试并不衡量候选人可能具备的其他关键技能,如协作、沟通或多年经验形成的本能,但这一里程碑式的结果无疑引发了业界对"AI将如何重塑工程技术行业"的深度思考。

智能与成本的完美平衡

Opus 4.5引入了创新的"努力参数"(effort parameter)机制,让开发者能够在性能与成本之间找到最佳平衡点。这一设计充分体现了Anthropic对实际应用场景的深刻理解。

具体数据显示,在中等努力水平设置下,Opus 4.5能够匹配Sonnet 4.5在SWE-bench Verified上的最佳表现,同时输出token使用量减少了76%。而在高等努力水平下,Opus 4.5的性能比Sonnet 4.5高出4.3个百分点,同时token使用量仍减少48%

这种效率提升在实际企业应用中产生了显著效果。GitHub首席产品官Mario Rodriguez证实:"早期测试显示,Opus 4.5在内部编码基准测试中表现卓越,同时将token使用量减半,特别适合代码迁移和代码重构等复杂任务。"

Replit总裁Michele Catasta进一步补充道:"Opus 4.5在我们的内部基准测试中击败了Sonnet 4.5和竞争对手,同时使用更少的token解决相同问题。在规模应用中,这种效率优势将产生复合效应。"

AI智能体学会自主优化

更令人惊叹的是,Opus 4.5展现出了前所未有的自我优化能力。日本电商巨头乐天公司的测试结果令人震惊:基于Opus 4.5的AI代理仅用4次迭代就达到了峰值性能,而其他模型即使经过10次迭代仍无法达到同等质量水平。

乐天商业AI总经理Yusuke Kaji表示:"我们的代理能够自主优化自身能力——在4次迭代中就达到了峰值性能,而其他模型即使在10次迭代后也无法匹配这种质量。"

Anthropic的Albert解释说,这种能力并非模型在更新自身的权重参数,而是在迭代改进解决问题的工具和方法。"它在一个任务中迭代优化某项技能,试图通过优化技能来获得更好的性能,从而完成这个任务。"

这种自我进化能力不仅限于编码任务。Albert表示,Anthropic在创建专业文档、电子表格和演示文稿等方面也观察到了显著的改进。"测试者告诉我们,这是他们在模型代际之间见过的最大的飞跃,甚至从Sonnet 4.5到Opus 4.5的进步,比过去任何两个连续模型之间的进步都要大。"

全面升级的工作流集成

伴随着模型的重磅发布,Anthropic同步推出了一系列生产力工具的重大更新:

Claude for Chrome现已全面向所有Max用户开放,实现了真正的跨浏览器智能操作能力。用户现在可以在浏览器标签页中无缝使用Claude的各项功能,大大提升了工作效率。

Claude for Excel正式面向Max、Team和Enterprise用户发布,新增了对数据透视表、图表分析和文件上传等高级功能的支持。这意味着财务分析师、顾问和会计师等知识工作者现在可以更高效地处理复杂的数据分析任务。

桌面版Claude Code现在支持本地与云端开发会话的并行运行,为开发者提供了前所未有的灵活性。同时,新引入的"程序化工具调用"功能允许Claude直接编写和执行代码来调用函数,极大地扩展了其自动化能力。

企业级防护能力全面提升

在安全性能方面,Opus 4.5展现了显著的进步。根据Anthropic发布的系统卡数据,新模型在抵御提示注入攻击方面的稳健性大幅提升:

在单次提示注入攻击测试中,Opus 4.5的成功率仅为4.7%,远低于Gemini 3 Pro的12.5%和GPT-5.1的12.6%。即使在10次攻击尝试下,成功率也控制在33.6%,相比竞争对手的60.7%和58.2%有了明显改善。

在代理编码评估中,Opus 4.5对150个恶意编码请求的拒绝率达到了100%,展现了出色的安全防护能力。不过,在Claude Code环境下测试恶意软件创建、DDoS攻击代码编写等场景时,模型的拒绝率约为78%,而在计算机使用场景中的拒绝率超过88%,这说明在特定环境下仍需保持警惕。

开发生态:为下一代AI应用奠基

Anthropic此次还对Claude开发者平台进行了重要升级。增强的上下文管理和内存功能使代理任务性能提升了近15%,而新的多代理协调能力让构建复杂AI系统变得更加可行。

这些改进在实际应用中已经产生了显著效果。金融建模公司Fundamental Research Labs联合创始人Nico Christie报告称:"在我们内部的评估中,准确率提高了20%,效率提升了15%,曾经看似无法完成的复杂任务现在变得可以实现了。"

Cursor CEO Michael Truell评价道:"Opus 4.5相比之前的Claude模型在Cursor内部有了显著改进,在困难编码任务上具有更好的定价和智能表现。"Cognition CEO Scott Wu补充说:"该模型在我们最困难的评估中提供了更强结果,并在30分钟自主编码会话中保持了一致的性能。"

AI民主化进程加速

此次发布正值AI竞争进入白热化阶段——OpenAI在上周刚刚推出GPT-5.1系列,谷歌的Gemini 3也才亮相七天。Anthropic在短短两个月内完成了Haiku、Sonnet、Opus三个产品线的迭代更新,展现了惊人的研发速度和技术积累。

更令人印象深刻的是,Anthropic在2025年第一季度实现了20亿美元的年化收入,较前期的10亿美元翻了一番。年消费超过10万美元的客户数量同比增长了八倍,这充分显示了市场对其技术的高度认可。

Albert坦言,这种快速的发布节奏部分得益于使用Claude来加速自身开发。"我们在实际产品构建和模型研究方面都看到了Claude本身的很多协助和加速作用。" 

当AI在专业工程测试中开始系统性超越人类专家,我们正站在一个历史性的转折点上。Claude Opus 4.5的发布不仅代表了技术的突破,更预示着工作方式的根本性变革。这一刻,我们见证的不仅是另一个AI模型的发布,而是智能计算新时代的开启。

本文来自微信公众号“山自”,作者:山自,36氪经授权发布。

+1
7

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

教育大模型代表的有道,前三季营收接近停滞。

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业