Token太贵,中国开源模型一夜之间霸榜了
全球头部AI模型API聚合平台OpenRouter的数据显示,2026年2月,中国AI模型的调用量三周大涨127%,首次超越美国模型,全球前五中占据四席。
最新的2月16日至22日的周榜单中,平台调用量排名前五的模型中,有四款来自中国厂商,包括MiniMax的M2.5、月之暗面的Kimi K2.5、智谱的GLM-5、DeepSeek的V3.2。这四款模型合计贡献了Top 5总调用量的85.7%。
一年前,中国模型在这个平台上的份额不到2%。
图:从2024年11月到2025年11月的周度Token总量堆叠柱状图。深红色=闭源模型,橙色=中国开源模型,蓝绿色=其他地区开源模型。能清晰看到中国开源模型(橙色)从几乎不可见到逐渐占到近30%的过程。
OpenRouter聚合了超过300个模型的API调用,覆盖60多家供应商,超过一半的使用量来自美国以外。开发者拿一套API Key就能在不同模型之间即时切换,如果哪个不好用,可以秒切。Token数据在OpenRouter的涨跌,几乎就是实时的市场投票。
这个时间,刚刚经过了开源个人智能体框架OpenClaw的火爆,也经历了中国春节AI大战,几乎所有模型的关键词已经切换成了“Agentic”。
过去两年,大模型竞争的核心叙事是模型能力:谁更聪明,谁在 ARC、SWE-Bench 这类 benchmark 上更高分,谁就更接近 AGI。参数规模、推理深度、复杂任务完成率,构成了行业的主要坐标系。
但是2026年的春节过后,Agentic AI的核心叙事是持续完成任务,包括写代码、调试、调用工具、读取文件、再迭代。Token 消耗从“人机对话”升级为“机器自循环”。一次任务可能消耗数十万、数百万 Token。
模型之间的差异,开始转变为在长流程、高频调用、长上下文环境下,谁的单位成本更低、稳定性更强、推理曲线更平滑。
图:OpenClaw是OpenRouter最大的单一应用,其Token消耗量约占平台显著比例
图片由AI生成
01 Token消耗的底层逻辑变了
OpenRouter与a16z联合发布的《2025 AI使用报告》,覆盖超100万亿Token的匿名元数据。里面有一组数据极其关键——编程任务的Token占比从2025年初的11%飙到了50%以上,成为平台最大的单一使用品类。同时,Agent驱动的工作流(模型自主执行多步骤任务)产生的输出Token已超过平台总输出的一半。
图:编程类请求在所有LLM查询中的占比,从2025年初约11%持续攀升至50%以上
过去的问答式AI,一轮对话消耗几百到几千Token,用户不再提问,Token就不会再消耗。Agent模式下,机器可以持续在后台跑流程。
拿OpenClaw举例,它的Token消耗粗略看有三种模式:
一是多轮自我修正。一次编程任务可能经历“写代码→运行→报错→改→再跑”几十个回合,每个回合都是一次完整的模型调用。
二是上下文无限膨胀。为了让Agent“记住”之前的操作,每次调用都要携带完整对话历史。有用户实测,一个活跃会话的上下文很快膨胀到23万Token以上。
三是工具链级联。Agent处理一个“帮我整理邮件并创建待办”的任务,可能触发5-10次API调用,每次都背着完整上下文。
有OpenClaw用户吐槽,一个配置不当的自动化任务一天烧掉了200美元API费。更直观的数字是:7×24小时跑OpenClaw,全量使用Claude API,月成本在800到1500美元之间。
再看OpenRouter自身的数据:2月9日当周,平台处理了13万亿Token,1月第一周是6.4万亿,一个月翻了一倍。平台最新周Token总量12.1万亿,是一年前的12.7倍。
AI的使用模式从“对话型”切换到了“流程型”,Token消耗从“按次”变成了“按流量”。成本敏感度被急剧放大。
02 Agent模型组合背后的机会
极端假设Agent全天候运行,每天吞掉数十亿Token。在这种负载下,价格差距就是生死线。
当前主流模型的API定价对比(每百万Token,美元)
Claude 4.6 Sonnet 的输出价格为 15 美元 / 百万 Token,而 MiniMax M2.5 的典型输出价格约为 1.1 美元 / 百万 Token,前者是后者的约 13.6 倍。GPT-5.2 的输出价格为 14 美元 / 百万 Token,也接近 MiniMax 的 12.7 倍。即便是已经涨价的智谱 GLM-5,输出价格约为 2.55 美元 / 百万 Token,仍然只有 Claude 的大约六分之一左右。
在 Agent 场景里,这种差距会被指数级放大。假设一个生产级 Agent 每天处理 10 亿输出 Token(即 1000 个百万 Token 单位),挂 Claude 意味着每天约 1.5 万美元的支出;同样规模如果使用 MiniMax,大约 1100 美元。30 天下来,前者接近 45 万美元,后者约 3.3 万美元,中间差出 40 多万美元。
这个价差已经在真实项目里决定了开发者的选择。
一家使用OpenClaw的欧洲开发工作室公开了他们的方案:80%的日常推理引擎用Kimi K2.5,碰到高难度推理、复杂系统架构之类的20%硬骨头,通过bash命令把任务甩给Claude。一天的Kimi开销大约5到10美元,月度Token预算控制在150到300美元。如果同样的事全量用ClaudeAPI模式,月成本将高达800-1500美元以上。
“80%能力,20%价格”的组合,对标“100%能力,100%价格”的方案,在实际部署中是碾压级的吸引力。
a16z合伙人Martin Casado去年底接受《经济学人》采访时也披露了一个数字:在使用开源模型的AI初创企业中,约80%跑的是中国模型。他后来在X上澄清,这个比例指的是“用开源模型的那部分创业公司”,占全部创业公司的20%-30%,折算下来,大约16%-24%的美国AI初创企业技术栈里嵌着中国开源模型。
OpenRouter COO Chris Clark说得更直接:中国开放权重模型在美国企业运行的Agent工作流中“占比异常高”。
03 架构暗战,“Agent原生”
这一轮范式转换中,中国开源模型阵营几乎所有头部玩家都把“Agentic”作为主攻方向,从架构到训练全链路为Agent场景做原生适配。
底层仍然延续了上一阶段跑通的MoE + MLA路线,总参数做大,每次推理只激活一小部分,保住能力的同时控制Token成本。
但光便宜不够,在这一轮真正拉开差距的,要在Agent场景下“跑得好”。
MiniMax内部开发了一套叫Forge的原生Agent强化学习框架,核心设计是把Agent的执行逻辑跟底层训推引擎彻底解耦:Agent只管跑任务、产出轨迹数据,训练引擎只管从轨迹里学习。这套架构能接入任意Agent脚手架。MiniMax披露的数据是,他们在数十万个真实Agent脚手架和环境上做了大规模强化学习,上下文长度拉到200K。
Forge里有两个工程细节值得注意。一是“前缀树合并”,Agent多轮请求之间有大量重复的上下文前缀,传统方法把每个请求当独立样本重复计算,Forge把训练样本从线性序列重构成树形结构,共享前缀只算一次,MiniMax给出的数字是训练加速约40倍。
二是奖励设计:除了任务完成度,M2.5的强化学习还把“任务完成时间”作为奖励信号,直接激励模型选最短路径、主动利用并行。效果上,根据Minimax的数据,M2.5跑SWE-Bench Verified的端到端时间22.8分钟,比上代M2.1的31.3分钟快了37%,跟Claude Opus 4.6的22.9分钟基本持平。连续运行1小时(100 TPS)成本1美元,MiniMax的说法是“1万美金可以让4个Agent连续工作一年。
Kimi K2.5可支持Agent集群,能根据任务需求现场调度多达100个“分身”,组成不同角色的团队并行工作,最多同时处理1500个步骤。在大规模搜索场景下,Agent集群比单Agent减少了3到4.5倍的关键步骤,实际运行时间最高缩短4.5倍。
K2.5的定位就是原生多模态、Agent模型,同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务,架构层面做了全面适配。
这些创新表面,中国头部模型已经不只是在“便宜”上做文章。
闭源模型Anthropic和OpenAI的模型架构是黑箱,开发者没法评估长期运行的成本曲线,也没法做本地部署优化。但Claude的长板在产品化能力,computer use、Artifacts、MCP生态,以及复杂推理的精确度。
图:编程类Token按闭源/中国开源/其他开源的占比拆分。能看到Anthropic Claude在编程领域长期占据60%+的份额,但中国开源模型和其他开源模型在2025年下半年持续蚕食它的份额。
竞争力已经形成差异化:中国开源模型工程细节透明,可以被复刻和优化,在成本敏感的大规模部署里占优;美国闭源模型的长板在产品化能力和复杂推理的精确度上。
Agent时代到来,中国开源模型已经吃到了结构性红利。
04 价格战结束了,需求战开始了
2月12日,智谱AI发布GLM-5的同一天,宣布GLM Coding Plan套餐整体涨价30%起,取消首购优惠。海外版涨价幅度更大,订阅价格涨30%-60%,API调用涨67%-100%。
这是国产大模型2026年首次大幅提价。
背景也很有意思。过去一年多,中国大模型市场打了一场惨烈的价格战。字节豆包报价低到0.0008元/千Token,阿里通义千问GPT-4级主力模型降价97%,智谱自己也把上一代GLM-4-Plus砍了90%。
现在掉头涨价,同时GLM Coding Plan上线即售罄,国产AI编程产品的付费套餐被秒空。
这里也衍生出另外一个问题,“智谱敢涨价,是不是说明中国模型的增长跟价格战无关”?
答案不是“是或否”这样简单。
Agent化让Token需求暴涨,中国模型凭着相对成本优势吃到了增量,涨价本质上是供需再平衡。智谱回应涨价:“用户规模与调用量快速提升,公司同步加大算力投入”。
据媒体报道,Kimi K2.5在1月27日发布后不到一个月,近20天的累计收入已经超过了2025年全年总收入。这个增长的核心驱动力来自海外开发者和API调用,K2.5在OpenRouter平台的调用量持续位居前列,直接带动了B端收入的暴涨,海外收入首次超过国内。
MiniMax的情况类似,M2.5发布7天内Token使用量就突破3万亿,内部数据显示M2.5生成的代码已占公司新提交代码的80%。
放到行业里看,智谱、月之暗面、MiniMax、阶跃星辰4家都已上调部分API价格。长江证券研报的判断是:国产模型“正式进入需求驱动时代”。
价格战的时代结束了,接下来是需求战。
05 数据里有多少水分?
关于这次暴涨,也有争议说,这次的Token数据有水分。
比如,MiniMax M2.5单周197%的暴涨,很大程度上受益于Kilo Code和Cline两大AI编程工具的免费推广。2月12日起,Kilo Code为超过150万开发者用户提供一周免费M2.5访问,Cline也搞了类似活动。
免费送量带来的短期拉动,客观上是不能忽略的。但免费推广只能解释“量”的爆发,解释不了趋势和留存。
MiniMax M2.5在编程、工具调用和搜索、办公等生产力场景都达到或者刷新了行业的SOTA,比如SWE-Bench Verified (80.2%),Multi-SWE-Bench (51.3%),BrowseComp (76.3%);从Benchmark来看,分数够到了旗舰级的门槛,不能再用“廉价平替”来概括。
OpenRouter年度数据显示,中国开源模型份额从2024年末不到2%,2025年下半年加速爬升,某些周接近30%。
一条持续上行的曲线,跟某次促销带来的孤立脉冲完全是两回事。
榜单中还有另外一个细节,前五名里,MiniMax、月之暗面、智谱、DeepSeek是四个不同团队的产品。这次不仅仅是一个爆款在带节奏,是中国开源模型生态的工程成熟度在国际化的市场中受到了认可。
图:2024年末DeepSeek V3和R1占了一半以上(深蓝色),2025年中之后色块急剧多样化,Qwen、MiniMax、Kimi、GPT-OSS等轮番上位,没有单一模型超过25%。
06 写在最后
Agent时代正在重写模型竞争的规则。
Agent使用组合模型的方案,让模型性价比的权重在提升。
API聚合平台的成长一定程度上瓦解了原厂的入口壁垒。
开源模型的工程成熟度已经够得上产品级。全球开发者把中国开源模型嵌入生产环境的Agent工作流,跑在真实业务里,跟实验室的刷分完全是两码事。
2026年开年,模型范式又一次更迭,从对话式AI到AgenticAI,中国开源模型在2026年开年抓住了这个结构性窗口。
但变局远没有到终点。
本文来自微信公众号“腾讯科技”,作者:值得关注的,36氪经授权发布。















