深夜炸场,Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败

CSDN·2025年09月30日 16:40
Claude Sonnet 4.5来了

 

 

双节小长假将近,国内国外大模型公司闻风而动,赶在正式放假前让众人“小卷”一波。这不,继昨晚 DeepSeek 发布 DeepSeek V3.2-Exp之后,Anthropic 又在今天带来了全新升级的 Claude Sonnet 4.5 版本,号称“世界上最好的编码模型”。

 

 

最强的编码模型 Claude Sonnet 4.5 来了:可自主持续运行 30 小时

根据官方测试结果显示,Claude Sonnet 4.5 在 SWE-bench Verified 评测里拿下了顶级成绩,这个测试主要看模型在真实世界里写代码的水平。

实际测试中,Claude Sonnet 4.5 能在复杂的多步骤任务上坚持专注超过 30 个小时。相比此前 Opus 4 运行 7 小时左右的时间,Claude Sonnet 4.5 有了大幅优化与改进。这对于 Anthropic 想要构建的代理系统而言,是一个重要的里程碑。

不仅如此,Sonnet 4.5 在电脑操作方面也有明显提升。在 OSWorld 这个专门测试 AI 完成真实电脑任务的评测中,它拿下了 61.4% 的成绩。而就在四个月前,Sonnet 4 还凭借 42.2% 排名第一。

现在这些升级过的能力已经整合进 Claude 的 Chrome 插件,根据官方演示,可以看到这个大模型能够直接在浏览器里操作:打开网站、填写表格、完成任务等等。

同时,Sonnet 4.5 在推理和数学等多项测试中也有大幅提升。从下图看出,在 Agentic Coding、Agentic Tool Use 等测试中 Claude Sonnet 4.5 远超过更昂贵的 GPT-5、Gemini 2.5 Pro 等竞品模型。

此外,来自金融、法律、医学和理工科等领域的专家一致认为,它在专业知识和推理能力上,已经远远超过了之前的模型(包括 Opus 4.1)。

 

有效改进的“幻觉”、“谄媚”、“欺骗”等问题

要知道,如果不加以审查,AI 自主生成的代码一旦投入生产环境,往往会带来各种潜在风险。对此,Anthropic 表示,Claude Sonnet 4.5 不仅是当前最强的模型,也是他们迄今推出的 最“对齐”的前沿模型 。 

Anthropic 透露,其模型已经接受“广泛”的安全训练,也增强了 Sonnet 4.5 对即时注入攻击的防护。数据显示,其使用自动化行为审计工具对模型进行了评估,得分越低代表越安全。所谓“不对齐行为”包括但不限于:欺骗、迎合、权力攫取、鼓励妄想,以及响应危险系统指令。

在一众大模型中,Sonnet 4.5 评分是最低的。

此外,Claude Sonnet 4.5 按照 AI 安全等级 3(ASL-3) 标准发布,这意味着它配备了与能力水平相匹配的防护措施。例如通过分类器(classifier) 来过滤潜在的危险输入和输出,尤其是涉及化学、生物、放射和核武器(CBRN)的内容。

不过,Anthropic 也承认这些分类器有时会误伤正常内容。为此,他们提供了便捷的切换方案,用户可以改用 CBRN 风险更低的 Sonnet 4 继续对话。值得注意的是,团队在减少“误报”方面已取得显著成果:与最初版本相比,误报率降低了 10 倍;与今年 5 月发布的 Claude Opus 4 相比,也下降了一半。

 

重磅更新的 Claude Code

对于开发者而言,最为关注的莫过于 Claude Code 的最新进展。

Anthropic 表示,他们花了六个多月的时间更新 Claude Code 的能力,在 Sonnet 4.5 的支持下,Claude Code 现在能够在终端和 IDE 中处理更长、更复杂的开发任务。

此次也带来了不少更新,具体包括:

原生 VS Code 插件:Anthropic 即将推出一个原生 VS Code 插件的 Beta 版本,将 Claude Code 直接引入 IDE。用户可以通过专用侧边栏面板实时查看 Claude 对代码的修改,并看到内联差异(inline diffs)。这款插件为偏好在 IDE 中开发的用户提供了更直观、更丰富的 Claude Code 使用体验。

终端界面升级:Claude Code 的终端界面也进行了升级,新增了更清晰的状态显示和可搜索的提示历史(Ctrl+r),方便用户重复使用或编辑之前的指令。

Claude Agent SDK 来了:对于想要创建自定义代理体验的团队,Anthropic 将用于构建 Claude Code 的核心“模块”开放给开发者,命名为 Claude Agent SDK

这套底层基础设施不仅支撑 Claude Code,也适用于各种任务,开发者可以用它搭建自己的智能体。它解决了智能体在长任务中管理记忆、平衡自主性与用户控制,以及协调多个子智能体协作等难题。正如官方所说,当初开发 Claude Code,是因为市面上没有合适的工具;现在,Agent SDK 让开发者也能用同样的基础打造强大工具,解决各自的业务问题。

checkpoint 功能:Claude Code 增加了用户期待已久的 checkpoint 功能,因为复杂开发往往需要不断探索和迭代。新系统会在每次修改前自动保存代码状态,用户可以通过双击 Esc 或使用 /rewind 命令瞬间回退到先前版本。Checkpoint 可让开发者放心尝试大规模或复杂任务,同时保证可以随时恢复之前的代码状态。回退时,用户可以选择恢复代码、对话或两者兼顾。Checkpoint 仅适用于 Claude 的修改,不会影响用户手动编辑或 Bash 命令。官方建议将其与版本控制结合使用,以获得最佳效果。

在官方公告中,Anthropic 建议,Checkpoint 可以与 Claude Code 最新功能配合使用效果最佳,譬如:

子智能体可以委派专门任务,例如在主智能体构建前端的同时启动后台 API,实现并行开发;

钩子(Hooks) 可在特定环节自动触发操作,如代码修改后运行测试套件,或提交前进行 lint 检查;

后台任务可以保持长时间运行的进程(如开发服务器)活跃,同时不阻塞 Claude Code 处理其他工作。

这些能力使  Claude Code 可以用于一些大规模重构或功能探索等任务。

 

其他功能

不止如此,Anthropic 还同步对产品进行了多项升级:

Claude API 新增上下文编辑和记忆工具,让智能体可以运行更长时间、处理更复杂的任务;

Claude 应用中,现在可以直接在对话里运行代码和生成文件(包括表格、幻灯片和文档);

Chrome 插件已对上个月排队的 Max 用户开放。

Anthropic 还推出了一个限时实验功能 “Imagine with Claude”。在这个实验中,Claude 能实时生成软件:没有预设功能,也没有预写代码,它会根据用户的即时交互需求进行创造和适配。当前,“Imagine with Claude” 对 Max 用户开放 5 天,可在 claude.ai/imagine 体验。

Claude Sonnet 4.5 今天即可使用。如果是开发者,可通过 Claude API 调用 claude-sonnet-4.5。Sonnet 4.5 的 API 定价与 4.0 相同,保持不变:每百万输入 token 收费 3 美元,每 百万输出 token 收费 15 美元。

 

开发者实测

随着 Claude Sonnet 4.5 和全新 Claude Code 的上线,不少开发者第一时间上手体验,纷纷分享了他们的惊喜与疑问。

一位开发者 This is Dmitry Zhomir 尝试让 Claude 4.5 Sonnet 用 Three.js 制作一个简单的 3D 射击游戏,结果让人震惊:

「我甚至都不用提供贴图和音效,它自己全都生成了。难道 Anthropic 要取代游戏开发者了吗??」

还有人做了简单的 SVG 测试,这是由 Claude Sonnet 4.5 生成的作品:

这是 GPT-5 生成的:

你觉得哪一个更胜一筹?

当然,也有人指出,AI 并不能完全替代人工。开发者 Vas 分享了他的体验:

“Claude 4.5 Sonnet 一次调用就重构了我的整个代码库。

调用了 25 个工具,新增了 3000 多行代码,创建了 12 个全新文件。

它把所有东西模块化,拆分了巨型单体结构,整理了凌乱的代码。

可惜,这些都没能运行……

但不得不说,效果真是赏心悦目。”

与此同时,有人向悄悄向 Sam Altman 发问:“Dario 刚刚发布了 Claude 4.5,它在编程、代理任务和计算机使用上已经击败了 GPT-5;同时 Deepseek 也推出了新模型,推理成本降低了 10 倍,API 成本降低了 50%……”你们准备如何应对?

据报道,未来两周 OpenAI 将发布新产品。Wired 消息显示,他们计划为 Sora 2 推出一款独立社交媒体应用,类似抖音,但内容将 100% 由 AI 根据用户 prompt 生成,无需用户亲自拍摄或剪辑。

可以说,新一轮的 AI “内卷”已经悄然开启。面对这一波工具更新,你会如何看待?

更多内容可参考官方公告:https://www.anthropic.com/news/claude-sonnet-4-5

 

本文来自微信公众号“CSDN”,整理:苏宓 ,36氪经授权发布。

+1
17

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

这场由补贴开启的外卖战争,将以价值的回归而告终。

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业