不换 Kimi 底座,1/10 成本追平 Opus 4.7?Cursor 用 Composer 2.5 反击 Claude Code
Cursor 发布了 Composer 2.5,想解决的是 AI 编程里越来越关键的长任务能力。它没有更换基础模型,仍然沿用 Kimi K2.5,而是把重点放在后训练上:用更多训练投入换取更好的基准测试成绩,同时继续维持低价。
1 Cursor 被 Claude Code 逼急了
过去几个季度,AI 编程市场的主角越来越像是 Anthropic 的 Claude Code。Cursor 仍然是最重要的 AI 编程工具之一,但它曾经那种“默认领先”的气势,确实被削弱了。现在,Cursor 试图用一款自己的模型,把主动权重新拿回来。
这款模型就是刚发布的 Composer 2.5,也是 Cursor 迄今能力最强的内部模型。按照 Cursor 的说法,它在智能水平、长时间任务可靠性和整体可用性上都有明显提升。放在今天的市场环境里,Composer 2.5 不只是一次产品升级,更像是 Cursor 对自主 Agent 竞争的一次正面回应:当竞争焦点从 IDE 体验转向更强的模型和任务执行能力,Cursor 必须证明自己还能继续定义开发者工具。
压力首先来自 Anthropic 的 Claude Code。这个产品已经成长为 Cursor 面前最强劲的对手,据称年化收入超过 25 亿美元,企业客户超过 30 万家。更麻烦的是,Anthropic 有一个 Cursor 很难复制的结构性优势:Claude Code 可以用 Cursor 难以匹配的价格去抢用户,而 Cursor 如果继续依赖 Anthropic 的模型能力,还要反过来为推理成本买单。换句话说,Cursor 一边要和 Anthropic 的 Claude Code 竞争,一边还要向 Anthropic 付钱。自研模型的意义,也就不只是技术路线选择,而是 Cursor 摆脱被动局面的必要动作。
Cursor 自己的数据并不差。到 2025 年年中,它每天仍能生成 10 亿行被接受的代码,财富 500 强企业中也有 67% 是它的客户。但市场兴奋点已经变了。Warp CEO Zach Lloyd 曾对《财富》说:“我不相信‘Cursor 已死’这种梗,但‘IDE 已死’是真的。”这句话点出了 Cursor 现在的处境:用户还在用 IDE,但资本、开发者和市场真正兴奋的,已经转向能独立完成更多工作的自主编程 Agent。Composer 2.5,就是 Cursor 对这场变化给出的回应。
2 跑分接近,价格更狠
从纸面成绩看,Composer 2.5 具备竞争力。在 SWE-Bench Multilingual 上,它得分 79.8%,只比 Opus 4.7 的 80.5% 略低,高于 GPT-5.5 的 77.8%。
在 Terminal-Bench 2.0 上,它也几乎追平 Opus 4.7,二者分别为 69.3% 和 69.4%,不过 GPT-5.5 以 82.7% 明显领先。
更值得细看的是 CursorBench v3.1,这是 Cursor 自己设计的、更偏困难任务的基准测试。Composer 2.5 在该测试中得分 63.2%。Opus 4.7 在最高设置下得分更高,为 64.8%,但在默认的 xhigh 设置下会降至 61.6%。GPT-5.5 的默认成绩则为 59.2%。
Cursor 最有说服力的地方,其实是成本效率。Composer 2.5 的价格为每百万输入 token 0.50 美元、每百万输出 token 2.50 美元,显著低于可比较的前沿模型。
Cursor 在发布时同步给出的一张 effort curve 图显示,Composer 2.5 在 CursorBench 上能以低于 1 美元的单任务平均成本达到约 63% 的成绩;而在类似或更差结果上,Opus 4.7 和 GPT-5.5 等竞争模型每个任务要贵出数美元。
3 Kimi 底座没变,Cursor 把赌注押在了后训练上
Cursor 称,Composer 2.5 更适合处理长时间运行的编程任务,在复杂指令下更可靠,也比 Composer 2 更好用。Cursor 同时表示,Composer 2.5 底层仍然沿用此前的 Kimi K2.5,但在此基础上加入了更多调优和训练方法,因此整体表现有所提升。
这也让 Kimi 底座再次成为外界关注的焦点。2026 年 3 月,Cursor 创始人 Aman Sanger 曾回应过 Kimi 披露不足的问题。当时,Cursor 一开始并没有说明 Composer 2 的训练使用了 Moonshot AI 的 Kimi K2.5 模型。Aman Sanger 后来承认:“我们一开始没有在博客里提到 Kimi 底座,这是一个疏漏。下一个模型我们会修正这一点。”
因此,Composer 2.5 也变成了一个很直接的验证题:在不更换基础模型、也不提高入门价格的情况下,单靠更强的后训练,能不能让一个编程 Agent 明显变强。
放到 AI 编程市场里看,Cursor 此前曾在一份 AI 编程助手市场对比中,被认为在原型开发速度上最强。那份对比认为,买方区分编程 Agent 时,不会只看单一基准测试,而是会综合看架构、多文件准确率、安全能力、响应速度和成本控制。更低的标准定价,以及对长任务能力提升的承诺,正是 Composer 2.5 想要守住 Cursor 位置的关键。
Cursor 表示,Composer 2.5 总计算量中的 85%,都投入到了它在 Kimi K2.5 基础之上自行完成的训练和强化学习中。
其中有三项技术进展尤其值得关注。第一是带文本反馈的定向强化学习。Cursor 没有只依赖长 rollout 结束后的单一奖励信号,而是在模型执行过程里出错的位置直接插入局部提示(“Reminder: Available tools...”),比如某次错误的工具调用,并把修正后的分布作为教师信号。这样一来,即便一次 rollout 跨越数十万 token,模型也更容易知道到底是哪一步出了问题,信用分配会更精确,训练反馈也更有针对性。
第二是大规模合成数据。Composer 2.5 使用的合成任务数量是上一代的 25 倍。其中一个很有意思的方法叫“功能删除”:Cursor 会从一个可运行代码库中删掉某项功能,再要求模型把它重新实现出来,并用测试作为可验证的奖励信号。副作用是,模型在完成任务时也表现出了很强的“钻空子”能力。比如有一次,它逆向分析了 Python 的类型检查缓存,从中恢复了一个被删除函数的签名;另一次,它反编译 Java 字节码来重建第三方 API。Cursor 称这些情况是通过 Agent 式监控发现的,但这些例子也说明,大规模强化学习正在变得越来越难控制。
第三是 Sharded Muon 与双 mesh HSDP。Cursor 使用了一种分布式版本的 Muon 优化器,可以在不同分片上异步运行 Newton-Schulz 正交化,并把网络通信与计算过程重叠起来。在一个 1T 参数模型上,优化器单步耗时为 0.2 秒。
另外,Cursor 并不打算止步于 Composer 2.5。公司已经宣布,正在与 SpaceXAI 训练一个规模大得多的模型,会使用 Colossus 2 的百万 H100 等效算力,总计算量则是现在的 10 倍。
与此同时,自主 Agent 的推进也在加速。Cursor 自己内部已经有 35% 的合并 PR 由自主 Agent 创建,CEO Michael Truell 曾引用这一数字,作为软件开发未来方向的信号。
Composer 2.5 现在已经可以在 Cursor 中使用,首周用量翻倍。它是否足以改变外界对 Cursor 的叙事,还有待观察。但至少这次发布释放了一个可信信号:Cursor 不想只做别人大模型上的产品层,它正在认真争取在模型竞赛中掌握自己的命运。
参考链接
https://cursor.com/cn/blog/composer-2-5
本文来自微信公众号“InfoQ”(ID:infoqchina),作者:Tina,36氪经授权发布。















