a16z 100万亿Token研究揭示的真相:中国力量重塑全球AI版图
硅谷风险投资公司a16z近日发布了名为 《State of AI:An Empirical 100 Trillion Token Study》的重量级年度报告。
这分析了AI模型路由平台OpenRouter上超过100万亿个真实生产环境中的Token使用数据,系统性地揭示了大语言模型(LLM)的实际使用图景。
这是迄今为止规模最大、最全面的AI使用实证分析,数据覆盖全球60余家模型提供商的300多个模型,展现了AI技术从实验室走向真实世界的完整轨迹。
研究发现,AI领域正在经历三大根本性转变:从单一模型竞争走向多元化生态系统;
从简单文本生成迈向智能体推理范式;从西方中心向全球分布式创新格局演进。
整个报告中,还有一些有趣的发现:
中国开源力量崛起:从2024年底几乎可以忽略不计的市场份额(周使用量占比低至1.2%),到2025年后期在某些周度达到近30%的占比;
超过一半的开源模型使用量流向了角色扮演、故事创作等创意对话场景;
推理模型所处理的Token量已占总量的50%;
编程相关的查询量在2025年实现了稳定增长,从年初占总Token量的约11%攀升至年底的超过50%;
DeepSeek模型展现出的“回旋镖效应”。部分用户在尝试其他模型后,会重新回归DeepSeek。
该图片可能由AI生成
以下为报告精华内容:
1.转折点已至:从“文本预测”到“机器思考”
过去一年标志着AI发展史上的一个关键转折点。2024年12月5日,OpenAI发布了首个成熟的推理模型o1,这一事件从根本上改变了整个AI领域的技术范式。
在此之前,主流模型本质上仍是基于单次前向传播的自回归文本预测器,即使是最先进的系统,如Anthropic的Sonnet系列或Cohere的Command R模型,也仅仅是通过复杂的指令遵循和工具调用模拟推理过程。它们的输出虽然呈现出推理的表象,但内核并未实现真正的迭代性内部计算。
o1模型的问世打破了这个局限。它引入了扩展的推理时计算过程,包含内部多步思考、潜在规划和迭代优化,最终才生成输出。
这在数学推理、逻辑一致性和多步决策等方面带来了系统性提升,标志着AI从“模式补全”转向“结构化内部认知”。如果说之前的模型是在描述推理过程,那么o1则是在真正执行推理。
2.开源崛起:中国力量如何重塑全球AI版图
研究数据清晰地揭示了一个多元、活跃且竞争激烈的模型生态系统。曾经由少数闭源巨头主导的市场格局已经被彻底打破,开源模型不仅实现了量的突破,更在关键领域确立了质的优势。
下图展示了各类模型每周消耗的总Token数量占比。其中,浅蓝色区域代表开源模型(细分为中国vs全球其他地区),深蓝色区域则代表闭源模型。图中的垂直虚线标记了关键开源模型的发布时间节点,包括Llama 3.3 70B、DeepSeek V3、DeepSeek R1、Kimi K2、GPT OSS系列以及Qwen 3 Coder。
中国开源力量的崛起尤为引人注目。从2024年底几乎可以忽略不计的市场份额(周使用量占比低至1.2%),到2025年后期在某些周度达到近30%的占比,以DeepSeek、Qwen、Moonshot AI为代表的中国开源模型完成了一次令人瞩目的逆袭。
这种增长并非昙花一现,数据显示,每一次重要的开源模型发布(如DeepSeek V3、Kimi K2等)都伴随着使用量的显著跃升,并且增长具有持续性,表明这些模型已经深入真实的生产工作流。
下图展示了按模型类型划分的每周Token使用量。这是一个堆叠柱状图,呈现了不同时期、各类模型消耗的Token总量。其中:深红色部分代表闭源模型,橙色部分代表中国开源模型,青绿色部分代表海外开源模型。图表显示,截至2025年,开源模型的Token使用份额呈逐步上升趋势,特别是在年中之后,中国开源模型的增长尤为显著。
值得注意的是,开源生态内部也在经历深刻的结构性变化。早期由一两个模型主导的垄断格局(如DeepSeek家族曾占据超50%的开源Token量)已经瓦解,市场呈现出健康的多元化态势。
到2025年底,没有任何单一开源模型能持续占据超过25%的市场份额,流量均匀分布在五到七个主要竞争者之间。这种格局为开发者提供了更丰富的选择,也迫使模型提供者必须通过持续创新来维持地位。
下图表示各模型开发方的总Token使用量(2024年11月至2025年11月),反映了所有模型变体在OpenRouter平台上的聚合使用量。
在模型规模的分布上,一个明显的趋势是中型模型的崛起。市场不再是非大即小的两极分化,参数规模在150亿至700亿之间的中型模型找到了独特的市场定位。
这类模型在能力与效率之间取得了更好的平衡,满足了大量实际应用场景的需求。而小型模型尽管数量众多,却面临着使用份额持续下滑的困境,显示出市场对模型能力的底线要求正在不断提升。
下图是开源模型规模与使用情况,代表了小型、中型和大型开源模型每周所处理Token量占当周开源模型总Token使用量的份额百分比。
3.超半数流量竟不是用来工作 AI成为情感伙伴与创作引擎
研究中最反直觉的发现,或许是角色扮演和娱乐性使用在AI应用中所占的巨大比重。数据显示,超过一半的开源模型使用量流向了角色扮演、故事创作等创意对话场景。这一比例甚至超过了编程辅助这一核心生产力工具。
这种现象揭示了AI技术被主流叙事长期忽略的一个维度:人类对陪伴、创造和情感探索的深层需求。用户与AI的互动远不止于获取信息或完成任务,更包含构建叙事、发展角色关系、探索虚拟身份等丰富的社交与创作体验。开源模型在这一领域的优势尤为明显,部分原因在于它们对内容的限制通常更宽松,能够更好地适应虚构和幻想题材的需求。
下图是开源模型的任务类别趋势。该图表展示了开源模型在不同高级别任务类别中的使用量分布:角色扮演(约占52%)和编程任务持续主导着开源模型的工作负载,两者合计占用了大部分的开源模型Token。占比较小的任务类别包括翻译、通用知识问答以及其他类型。
这一发现具有深远的产品启示。它意味着AI的未来不仅关乎生产力提升,同样关乎情感连接和创造性表达。成功的AI产品可能需要融合叙事设计、角色一致性维护、长期记忆和个性化适应等能力。模型评估的标准也需要相应扩展,从传统的事实准确性和逻辑严谨性,延伸到对话连贯性、角色一致性和情感共鸣度等维度。
与此同时,编程辅助作为另一大核心应用场景,展现出截然不同但同样重要的发展轨迹。编程相关的查询量在2025年实现了稳定增长,从年初占总Token量的约11%攀升至年底的超过50%。这一趋势背后是AI开发工具的深度普及和开发工作流程的彻底重构。如今的编程任务不再局限于简单的代码补全,而扩展到复杂的系统设计、调试优化和多步骤问题解决。
4.智能体时代:AI不再简单回复,而是“会思考、能动手”
如果说o1模型定义了推理的技术可能性,那么市场数据则记录了这种可能性如何转化为实际应用。报告明确显示,推理优化模型的使用量已从近乎零增长至总Token使用量的50%以上。这意味着半数以上的AI交互不再是简单的问答,而是涉及多步思考、状态管理和工具调用的复杂过程。
下图是推理与非推理模型的Token使用趋势。自2025年初以来,通过推理优化模型处理的Token份额持续稳步上升。需要说明的是,该指标反映的是推理模型所处理的Token量占总量的比例,而非模型输出内容中“用于推理的Token”所占的份额。
这一转变在多个数据维度上得到印证。工具调用的比例持续上升,模型越来越多地作为协调者,调度外部API、数据库和功能模块来完成复合目标。
交互序列的长度显著增加,平均输入Token数从约1,500增长到超过6,000,输出Token数也从150左右增加到约400。这反映了用户正在将更复杂的上下文(如完整代码库、长文档或多轮对话历史)交给AI处理,期望得到更深度的分析和更精准的输出。
特别值得注意的是,编程工作负载是推动这一复杂化的主要动力。编程相关的提示平均长度是其他类别的3-4倍,且增长速率更快。这表明软件开发者正在以最激进的方式探索AI能力的边界,将代码理解、系统架构设计和迭代式调试等传统上高度依赖人类专业知识的任务,逐步委托给AI处理。
图表显示编程任务是推动输入Token增长的主要动力。自2025年春季有标签数据以来,与编程相关的任务持续需要最大的输入上下文,是驱动输入端Token总量增长的核心类别。
这种“智能体化”的转变正在重新定义AI基础设施的要求。推理平台不再仅仅是处理孤立的文本生成请求,而需要支持长程对话状态管理、工具执行跟踪、权限敏感的操作链等复杂功能。对模型提供商而言,延迟优化、工具调用可靠性、长上下文处理能力和对抗性输入的鲁棒性,正成为新的竞争壁垒。
5.全球化新秩序:亚洲崛起,中文进击
AI的发展与应用正在打破地理边界,呈现出鲜明的全球化特征。数据显示,亚洲在全球AI使用量中的份额已从约13%显著提升至31%,这一增长既反映了该区域企业采纳AI技术的加速,也体现了本地创新生态的成熟。
左图显示来自各洲(按计费地区划分)的Token量占总量的百分比,右图是根据各国/地区消耗的全球LLM Token份额进行排名。
在这一进程中,中国扮演了双重角色。它不仅是全球最重要的AI应用市场之一,更通过DeepSeek、Qwen、Moonshot AI等一批具有国际竞争力的开源模型,成为AI技术重要输出者。这些模型不仅在中文语境下表现优异,其多语言能力和通用推理水平也赢得了全球开发者的认可。
从语言分布来看,英语仍占据主导地位(82.87%的Token使用),但中文(简体)已以4.95%的占比成为第二大使用语言,俄语、西班牙语、泰语等也构成了有意义的“长尾”。这种多语言并存的格局提示,未来的AI系统必须具备真正的跨文化适应能力,而不仅仅是表面的语言翻译。
6. 成本PK价值:为什么便宜不是万能的
研究发现,当前的AI市场呈现出复杂的价值分层结构,而非简单的成本驱动型商品市场。
下图是各任务类别的对数成本与对数使用量关系图。该图表展示了不同任务类别(如编程、角色扮演等)在使用量(通常为Token数量) 和成本两个维度上的分布与权衡关系。
高端市场由Anthropic的Claude系列和OpenAI的GPT系列等闭源模型主导。这些模型的每百万Token成本通常在2美元左右(Claude)甚至高达35美元(GPT-4/5),但依然保持着可观的使用量。这表明在关键业务场景中,比如复杂的代码生成、精密的逻辑分析以及高风险的决策支持等,用户对性能和质量的要求远超过对成本的敏感。模型的可靠性、推理深度和输出的一致性构成了其核心价值主张。
大众市场则呈现出不同的逻辑。以Google Gemini Flash、DeepSeek V3等为代表的高效模型,以低于0.4美元每百万Token的成本提供了强大的性能,吸引了海量的日常使用。
这些模型特别适合处理长上下文、批量任务和成本敏感的应用。值得注意的是,降价并不必然导致使用量的线性增长。研究显示价格弹性较弱,降价10%仅能带来0.5-0.7%的使用量增加。这说明用户的选择受到模型性能、可靠性、易用性等多重因素的综合影响。
下图是开源与闭源模型格局:成本与使用量对比图(双对数坐标)。图中每个点代表OpenRouter平台上的一个模型,并按来源类型着色。闭源模型聚集在高成本、高使用量的象限,而开源模型则主导了低成本、高使用量的区域。
一个有趣的现象是,某些特定领域呈现出异常的成本结构。例如,“技术”类查询的平均成本显著高于其他所有类别,但使用量依然保持高位。这可能反映了系统架构设计、底层技术问题解决等高复杂性、高价值任务的特殊需求。用户愿意为获得真正有洞察力的技术方案支付溢价。
开源模型的持续进步正在对闭源市场构成一种“底线压力”。每一次开源模型在推理能力或编码能力上的突破,都在一定程度上压缩了闭源模型的定价空间。闭源提供商不得不通过更紧密的生态集成、更强的企业级支持和更可靠的服务水平来证明其溢价的合理性。这种动态竞争推动了整个行业的技术进步和成本优化。
7.用户留存:“灰姑娘水晶鞋”效应
在模型能力快速迭代的背景下,用户留存呈现出独特的动态模式。报告提出了“灰姑娘水晶鞋”的理论框架,用以解释这一现象。
其核心观点是:在AI能力快速跃迁的过程中,存在一个短暂的时间窗口。当某个新模型恰好满足了一类长期存在但尚未被解决的高价值工作负载需求时,就会形成“完美契合”。对于找到这种契合的用户而言,模型不再是可替换的工具,而成为其工作流和业务流程的核心组成部分。
这种契合一旦建立,就会产生强大的锁定效应。用户不仅从技术上适配了该模型的API和输出格式,更在操作习惯、团队协作和组织流程上形成了深度依赖。即使后续出现能力相当甚至略优的替代方案,迁移成本也往往高到令人却步。
数据为这一理论提供了支持。研究发现,某些模型的早期用户群体会展现出异常持久的留存率。例如,Claude 4 Sonnet在2025年5月的用户群,在五个月后依然保持了约40%的留存率,显著高于后续用户群体。这些“基础群体”构成了模型最稳定的价值基础。
与此相对,如果一个模型从未与任何高价值工作负载形成这种深度契合,其所有用户群体的留存曲线都会表现平平,呈现出快速衰减的态势。这意味着该模型可能始终停留在“足够好但非必需”的尴尬位置。
一个特别值得关注的现象是DeepSeek模型展现出的“回旋镖效应”。部分用户在尝试其他模型后,会重新回归DeepSeek。这暗示着DeepSeek在某些特定能力维度(可能是成本效率、特定领域的性能或开放性)上建立了难以替代的优势,即使用户探索了其他选项,最终仍会回归。
未来已至:推理即服务,生态定胜负
这份实证研究描绘了一幅AI技术深度融入全球经济与社会生活的生动图景。大语言模型已不再仅仅是实验性技术或辅助工具,而是成为全球计算基础设施的重要组成部分,深刻改变着信息生成、处理和消费的基本方式。
o1模型的出现并非竞争的终结,而是设计空间的极大扩展。行业正从对单一“最佳模型”的追逐,转向构建灵活、多样、适应性强的模型生态系统;从依赖基准测试排名,转向基于真实使用数据的实证决策;从关注孤立的文本生成质量,转向优化端到端的任务完成效能。
展望未来,随着智能体推理范式的成熟和全球化应用的深入,竞争焦点将进一步转向运营卓越性:如何精确衡量真实场景下的任务完成率,如何降低模型在不同数据分布下的性能波动,如何使AI行为更好地对齐生产环境中的实际需求。那些能够系统化解决这些问题,同时保持技术敏锐度和生态包容性的参与者,将在下一个阶段的AI发展中占据领先地位。
这份报告的价值不仅在于记录了已经发生的变化,更在于为未来的技术演进、产品设计和战略规划提供了一个基于真实世界数据的参照系。在这个快速变化的领域中,保持对实际使用模式的敏锐洞察,或许比追逐最新的技术热点更为重要。
本文来自“腾讯科技”,作者:金鹿,36氪经授权发布。















