智力能效:Token之上的竞争

中欧商业评论·2026年04月01日 18:14
AI软件竞争的本质是智力能效的竞争。

编者按

2025 年初, Anthropic 宣布 Claude API的价格比GPT-4高出50%。原本以为会出现的大量客户流失却在六个月后呈现出截然相反的走向:Claude在企业市场的采用率不仅没有下降,反而上升了。

过去两年,无数AI应用层公司涌入市场,却难逃被基础模型步步蚕食的命运。问题出在哪里?为何有的产品能实现数十倍溢价,而多数应用层公司却在模型升级中不堪一击?本文一针见血地指出:大多数应:用不过是在做“嫁接”与“装修”,创造的“智力能效”微乎其微。本文从模型、封装到垂直场景,层层拆解“智力能效”的竞争逻辑--读懂了它,也就读懂了AI软件溢价背后的真正密码。

2025 年初,Anthropic 宣布 Claude API 的价格比 GPT-4 高出 50%。市场初步预判Anthropic 会出现大量用户流失——毕竟在互联网时代,基础服务通常免费,提高价格无异于自杀。但六个月后,市场数据呈现出截然相反的走向:Claude 在企业市场的采用率不仅没有下降,反而上升了。更令人意外的是,到 2025年底,据Menlo Ventures报告,Anthropic 在企业级 AI 市场的占有率为40%,首次超过了 OpenAI 27%,成为 B 端市场的新领导者。

近期,阿里巴巴完成了一项引人注目的组织架构调整:将ATH(阿里巴巴旗下专注 AI 应用交付的业务单元)从阿里云体系中独立建制。如果 AI 软件卖的仅仅是底层、同质化的资源,它最合理的归属应当是留在云平台内部,作为一种算力组件追求极致的规模成本;如果其商业模式已经转向结果收费,其组织边界理应锚定在对结果的定义、核验和结算上。现实情况是处在两者之间,ATH“独立于云、又异于服务”。

这些现象背后,隐藏着AI软件市场的一个根本性转变。用户付费的对象,既不是底层的 Token 消耗,也不完全是最终的业务结果,而是介于两者之间的某种“能力”。然而,学界与产业界迄今缺乏一套精确的分析语言来描述和衡量这种能力。本文提出“智力能效”这个概念,试图为理解 AI 软件的真实价值提供一个新的分析维度。

一个定价悖论

我们先以一个具体场景为切入点。假设你需要 AI 系统帮你“分析这份销售数据,给出三条可执行的增长建议”。

系统 A给了你一份三页的分析报告,里面有精美的图表、详细的趋势描述,看起来很专业。它消耗了10,000个Token。但当你真正要用这份报告时,发现给出的建议“优化客户体验”、“加强市场推广”这类话都很空泛,你还得花时间重新解读、提炼,然后转化为具体的行动方案。在此假设情境下,任务的实际推进程度约为 20%。

系统 B消耗了12,000个Token,较系统 A多出约 20%。但它直接给了你三条具体建议,每一条都包含数据支撑、具体的行动步骤、预期影响和执行优先级排序。你看完之后,基本可以直接进入执行流程,只需要做最终确认。在同等假设情境下,任务推进程度约为 80%。

如果按Token计费,B应该比A贵20%。然而,基于现实市场中的定价观察,用户愿意为B支付的价格是A的三到五倍。为什么?

因为用户真正付费的,不是“系统思考了多久”,而是“系统把事情推进了多少”。虽然B消耗了更多Token,但它在单位成本下创造的有效产出远高于 A。这种“单位成本下的任务推进能力”,就是本文所界定的智力能效。

智力能效:Token 定价的新标尺

前面的例子揭示了一个现象:同样是Token,用户愿意支付的价格可以相差数倍。这背后的原因,需要我们重新理解“按Token付费”这件事本身。

但在讨论这个问题之前,我们需要先理解一个更基础的问题:当我们说“按 Token付费”时,我们到底在说什么?

在当前市场上,“按Token付费”有两种截然不同的理解方式。

第一种理解:Token 是算力资源的计量单位。这是云计算的逻辑。就像云服务按 CPU 时间、存储空间计费一样,Token 衡量的是调用了多少次模型、消耗了多少推理资源。在这个理解下,Token 的价格应该主要由成本决定——底层模型的推理成本加上合理利润。不同供应商的 Token 价格差异,主要来自技术效率和规模优势。

这个逻辑看起来很合理,也是很多人的直觉。但市场实践正在显示出越来越多的反例。过去两年,底层 Token 价格持续下降,但企业侧 AI 的总支出并没有同步下降,很多场景下甚至还在增加。Claude 的 API 比 GPT-4 的市场份额反而上升。Cursor 按订阅收费,用户并不关心它底层消耗了多少Token。如果 Token只是算力资源,这些现象是难以解释的。

第二种理解:Token 是任务推进能力的计量单位。在这个理解下,用户为 Token付费,但他们真正买的不是“调用了多少次模型”,而是“把任务推进了多少”。两个系统消耗相同的 Token,给用户带来的价值可以相差数量级。系统 A消耗10,000个Token,给你一份需要两小时人工提炼的报告;系统B消耗 12,000个Token,直接给你可执行的方案。用户愿意为B支付的价格是A的三到五倍。当产品真正卖出去的,已经不是一次孤立的模型调用,而是一整套围绕任务完成被组织起来的过程——系统要先判断任务类型,决定采用什么路径处理;可能要读取资料、调用外部工具、接入数据库;可能要多轮尝试、交叉核对、失败后重试;还可能要与企业原有流程、人工作业和外部系统衔接。成本的重点不再只是“回答一次要多少钱”,而是“把一件事真正做下来,要组织多少环节”。

如果接受第二种理解,一个自然的问题就会浮现:既然用户买的是“任务推进能力”,那为什么不直接按结果付费?

这个问题很合理。按结果付费听起来很美好——“只为成功付费”——似乎是最直接的价值计量方式,但在实践中会遇到一系列难以解决的问题。

什么叫结果?如何定义和度量结果?生成一份文档算不算,还是文档被采用才算?客服接完一轮对话算不算,还是问题真正解决才算?结果越接近业务终点,越难标准化。更麻烦的是归因:一次成功,究竟来自模型能力、工作流设计、人工兜底、客户自己的数据质量,还是组织执行能力与外部市场环境?一旦价格和结果绑定,归因就不再是事后分析,而会变成合同问题。

真正难实现的并不只是“让AI更接近结果”,而是把“结果”变成一个可以定义、可以核验、可以结算、可以争议处理的收费对象。只有极少数场景——结果可以被系统自动检测、因果链条短、价值可标准化、单次金额足够高——才适合结果付费。

所以,Token是最现实最高效的计量单位。它清晰、可核验、可预期。企业知道自己为什么付费,供应商知道如何结算,不需要复杂的结果定义和归因机制。

但这里出现了一个矛盾:我们承认用户买的是“任务推进能力”而不是“算力消耗”,但又不能按结果付费。那么,Token 应该如何定价?

这就是为什么我们要提出“智力能效”这个概念。它不是要取代 Token 作为计量单位,而是要回答一个更根本的问题:在保持 Token 计量清晰性的前提下,如何让定价反映真实价值?同样是 Token,为什么有的能卖出更高的价格?

什么是智力能效?

智力能效(Intelligence Efficiency),指的是 AI 系统在单位成本下,将资源转化为有效任务推进的能力。它不衡量“思考了多久”(Token 消耗),也不衡量“最终做成了什么”(业务结果),而是衡量“在可控成本下,把事情推进了多少”。

如果用一个公式来表达:

智力能效 = 任务完成质量 / (Token 成本 + 人工干预成本)

这个公式的含义是:完成同样质量的任务,消耗的总成本越低,智力能效就越高。这里的成本不只包括 Token 消耗,还包括人工修正、返工、兜底的时间成本。质量则体现在输出是否可用、是否准确、是否需要返工。

用一个类比来理解。设想你雇了两个助手完成同一项工作。助手 A 工作八小时,写了五十页报告,但你需要花两小时提炼要点才能使用;助手 B 工作十小时,直接给你五页执行方案,你可以立刻使用。谁的效率更高?显然是 B——虽然他花了更多时间,但他的产出更接近你真正需要的东西,减少了你的后续工作。

在AI系统中,智力能效体现为四个方面:理解的准确度,能否精准抓住任务目标,少走弯路;推理的有效性,能否进行有价值的思考,少做无用功;输出的可用性,产出是否可以直接使用,少需要返工;执行的稳定性,能否持续维持这种水平,少出错。

在公式的分子端,“任务完成质量”看起来是一个难以精确量化的概念。确实如此——我们很难给一次 AI 输出打一个绝对的分数。但智力能效的使用场景不是给单个系统打分,而是在同一个任务上比较不同系统。这时候我们不需要绝对衡量,只需要相对比较。任务完成质量衡量的是 AI 输出本身的属性——是否准确抓住了任务要求,是否给出了完整的信息,是否逻辑清晰、结构合理。同一个任务,系统 A 的输出偏离目标、信息缺失、逻辑混乱,系统 B 的输出精准、完整、清晰,那 B 的质量就明显更高。而质量差异会直接影响公式的分母——输出质量越低,用户需要投入的修正、补充、验证时间就越多,人工干预成本就越高。

两个系统消耗相同的 Token,智力能效可能相差十倍——这就是为什么我们不能只看 Token 成本,也不能只等最终结果,而需要这个中间的度量维度。

智力能效的三层竞争

智力能效在真实产品中是如何体现的?我们可以从三个层面来看:模型层、封装层和垂直层。这三层构成了 AI 软件智力能效竞争的完整图景。

第一层:模型能力的竞争

先看最底层。Claude的API价格长期高于GPT-4,但在企业市场保持强劲增长。如果只看Token成本,这是不合理的。但如果看智力能效,逻辑就清晰了。

在复杂推理任务中——比如代码审查、法律文档分析、多步骤问题解决——Claude往往能在更少的轮次内给出更深入、更可用的输出。虽然单次调用更贵,但完成同样任务所需的总成本——Token 成本加上人工时间——可能更低。这正是智力能效公式中“分子”的作用:通过提升任务完成质量,即使成本略高,整体效率仍然更优。Claude 比 GPT-4 贵 50%,但如果它能让任务完成质量从 60 分提升到 80 分,用户就愿意为这个质量差异付费。

但模型层的溢价空间相对有限,通常在一点五到两倍之间。原因在于,这一层的竞争主要靠提升“分子”——推理能力本身——而模型能力的差异正在逐渐收窄,技术边界限制了提升空间。OpenAI 通过o1系列强化推理深度,Anthropic 通过Claude强化理解准确度和输出质量,DeepSeek通过极致的成本优化,用更多轮次补偿单次能力。趋势是模型层会趋向分化:高端市场追求单次推理的深度和准确度,大众市场追求成本效率,通过多轮交互达到目标。

第二层:封装能力的竞争

再看中间层。Cursor 是一个 AI 代码编辑器,采用订阅制,每月二十美元,而不是按Token计费。这个定价背后,是对智力能效的封装。

Cursor的智力能效来自深度集成IDE,理解整个代码库的结构,而不只是当前文件;设计了多种交互方式,减少无效来回;可以直接执行代码、运行测试、查看错误,形成完整的开发闭环。相比直接调用 GPT-4 API 写代码,Cursor 在完成同样的开发任务时,需要的交互轮次更少,产生的无效代码更少,需要的人工修正更少。

这就是封装层的智力能效:通过精密工作流设计,把底层模型能力转化为更高效的任务完成能力。用户付的二十美元,不是为了Token,而是为了这种“减少摩擦、提高确定性”的封装价值。

从公式角度看,封装层的竞争开始同时作用于分子和分母。一方面通过深度集成提升任务完成质量(分子更大),另一方面通过减少无效交互、自动化重复操作来降低人工干预成本(分母更小)。当分子提升两倍、分母降低五倍时,智力能效就能提升十倍。这就是为什么封装层的溢价空间能达到十到二十倍,远大于模型层——它不只是让模型更聪明,而是让整个工作流更高效。

这层的竞争焦点是谁能通过更好的工作流设计,把模型能力转化为更高的任务完成效率。Cursor 和 Replit 在代码场景深度封装,Notion AI 和 Craft 在文档场景优化工作流,Perplexity 在搜索场景重新设计交互。封装层会出现大量创新:多模态交互,语音、图像、手势;主动式工作流,系统主动推进任务;协作式设计,人机协作的最优分工。

第三层:垂直场景的竞争

最后看应用层。Glean是一个企业知识搜索平台,帮助企业员工快速找到分散在各个系统中的信息和答案,定价从每用户每月数十美元起。如果只看Token 消耗,这些搜索和问答任务的底层推理成本可能只占定价的很小一部分。但 Glean卖的不是Token,而是高智力能效的垂直封装。

Glean的智力能效体现在它对企业知识场景的深度理解上。它能识别不同系统中信息的关联性,理解企业特有的术语、缩写和项目代号,判断哪些信息是最新的、最权威的。生成的答案不是简单的文档摘要,而是结合了上下文、考虑了时效性、标注了来源可信度的综合回答。

这种高智力能效从哪里来?底层模型的选择和调优,针对企业知识场景微调;知识图谱的深度构建,理解企业内部各系统间的关系和信息流动;大量真实查询的训练,用真实的员工搜索行为持续优化;持续的反馈机制,从用户的点击、停留和反馈中学习。

垂直层的溢价空间最大,往往能达到五十到一百倍。原因在于它同时优化了公式的两端:不仅给出高质量答案(分子大),更重要的是大幅降低了人工成本(分母小)。一个员工原本需要花三十分钟在五个系统里搜索、对比、验证信息,现在三分钟就能得到准确答案。这种十倍的时间节省,才是用户真正愿意付费的东西。

这层的竞争焦点是谁能在特定领域达到最高的智力能效。Glean 做企业知识搜索,Harvey 做法律研究和文档分析,Hebbia 做金融分析和尽职调查。垂直场景会形成高壁垒:领域数据的积累,专业知识的固化,行业流程的深度理解。

这里有一个关键问题:通用模型能力提升,会不会削弱垂直封装的价值?答案可能相反。模型越强,高质量封装的价值越大。因为更强的模型意味着可以处理更复杂的任务,而复杂任务对工作流设计、领域知识、质量控制的要求更高。就像汽车发动机越强大,对整车设计、底盘调校、安全系统的要求就越高。

从模型层到封装层再到垂直层,智力能效的提升空间越来越大。模型层主要靠提升分子,封装层开始优化分母,垂直层则能大幅削减分母。这就是为什么同样的底层模型,在不同的封装下,智力能效可以相差数十倍——智力能效不只是技术问题,更是产品设计和领域理解的问题。

用智力能效重新审视市场上的AI产品

既然封装层和垂直层分别拥有十到二十倍和五十到一百倍的溢价潜力。按照正常的商业逻辑,资本和人才应该迅速涌入填补这个空间。事实也确实如此——过去两年,AI 应用层的融资占整个 AI 赛道的半数以上,AI 搜索、AI Agent、各类垂直 AI 产品层出不穷。但一个令人不安的现象正在浮现:这些应用层公司中的大多数,正在被基础模型公司的每一次能力升级逐步蚕食。它们的护城河,远没有它们的融资额所暗示的那么深。

用智力能效来审视这些产品,原因就很清楚了。大部分 AI 应用在封装和垂直两个维度上都做得极其初级。封装维度上,它们做的事情本质上是“给传统软件加一个 AI 功能”——在现有的界面体系里嵌入一个对话框,在现有的工作流里插入一个 AI 环节,用按钮、菜单、功能模块把 AI 能力组织起来。这不是封装,这是嫁接。垂直维度上,大部分行业 AI,深度停留在塞一些行业术语进 prompt、接几个行业数据源、设计几套行业模板的层面。这不是行业认知,这是行业装修。两个维度都浮在表面,创造的智力能效增量微乎其微——可能只有一点二到一点五倍。而基础模型每一次代际升级带来的智力能效提升,轻松就能超过这个数字。这些公司以为自己站在封装层和垂直层,实际上它们的智力能效还停留在模型层附近。它们不是被大公司打败的,而是从一开始就没有真正离开过起跑线。

那么,真正好的封装应该是什么样的?看几个产品就明白了。Claude Code 是一个运行在终端里的AI编程助手,它没有精心设计的图形界面,没有按钮和菜单。OpenClaw是一个开源的AI个人助手,它的界面就是你已经在用的 WhatsApp或Telegram。表面上看,它们都很“简陋”。但这种简陋恰恰是高智力能效的表征。因为它们在用户看不到的地方做了大量精密的封装工作。Claude Code理解整个代码库的结构和依赖关系,自动判断哪些文件需要作为上下文送入模型,管理多轮对话中的Token 窗口,设计了完整的工具调用链让模型能直接执行命令、读写文件、运行测试。OpenClaw 的Skills系统、本地环境集成、多平台接入、工具编排,同样是深度的工程封装。YouMind 也是这个逻辑——用户感觉只是在和 AI 对话,但背后有完整的内容索引、语义搜索、上下文管理和工具链,这些不可见的基础设施才是智力能效的真正来源。这些产品揭示了一个反直觉的规律:真正好的封装,对模型侧越来越厚,对用户侧越来越薄。厚的那一面是让模型更好地理解任务、调用工具、管理上下文、执行操作;薄的那一面是让用户只需要用自然语言表达意图,不需要学习任何新的界面和操作逻辑。而大部分 AI 应用做反了——对模型侧极薄,基本就是 API 转发加一层简单的 prompt;对用户侧极厚,堆砌了大量的界面元素、功能选项和操作流程。用户看到的那些精心设计的界面和功能,恰恰是智力能效公式中分母里最大的一项——它们不是在降低人工干预成本,而是在制造新的人工干预成本。

但封装只解决了“怎么更好地调用 AI”的问题,没有解决“AI 是否真正理解这个领域”的问题。这就是垂直维度的意义。垂直维度的本质不是给系统贴行业标签,而是把专业人士的行业认知——判断逻辑、决策框架、经验直觉、对模糊情境的处理方式——编码进系统。这种东西不在公开数据里,不在行业报告里,而在资深从业者的脑子里。一个不在行业里的技术团队,甚至不知道该去优化什么。未来真正高智力能效的产品形态,应该是 OpenClaw、Claude Code 这样的深度封装基座,叠加上特定领域的专业行业认知。交互层极薄,封装层极厚,认知层极深。三者叠加,才能真正进入智力能效公式所揭示的高溢价空间。现在市场上绝大多数AI产品,三个维度都没有做到位——这才是它们脆弱的根本原因。

结语

2024 年初,中国日均 Token 调用量为一千亿;至 2025 年底,跃升至一百万亿;今年三月,已突破一百四十万亿,两年增长超过千倍。在三月的中国发展高层论坛上,国家数据局局长刘烈宏将 Token 定义为“智能时代的价值锚点”与“连接技术供给与商业需求的结算单位”。Token 正在成为一种基础设施,这已经不是比喻。

Token 的爆发式增长,并不意味着 AI 软件的竞争就是 Token 的竞争。恰恰相反,当底层资源变得越来越充裕、越来越便宜时,真正的竞争会转向更高层次:谁能把这些资源组织成更高效的能力。

这就是为什么需要“智力能效”这个概念。它让我们可以比较不同 AI 系统的真实价值,而不只是看 Token 价格或模型排名;理解为什么有些产品能维持高溢价,而有些产品陷入价格战;预测哪些方向会产生竞争优势,是模型能力、封装设计,还是垂直深化。

更重要的是,智力能效提供了一个新的视角:AI 软件的价值,不在于它“有多智能”——这是模型能力;也不在于它“做成了什么”——这是业务结果;而在于它“能多高效地把智能转化为任务推进”。这个转化过程,包含了模型选择、工作流设计、工具集成、领域知识、质量控制等多个层面。它是技术问题,也是产品问题;是工程问题,也是认知问题。

未来的 AI 软件竞争,本质上是智力能效的竞争。因此,理解并提升智力能效,就是理解 AI 软件竞争的本质。

说明:本文的核心概念“智力能效”仍在演进中。我们期待更多的讨论、质疑和完善,让这个概念能够真正帮助行业理解 AI 软件的价值创造逻辑。

撰 文:

王子阳 清华大学经济管理学院商业模式创新研究中心研究主管、西安交通大学物流科创融合发展与研究中心副研究员

朱武祥 清华大学经济管理学院金融系教授、清华大学经济管理学院商业模式创新研究中心主任

郑云曦 清华大学五道口金融学院博士生

王晨雨 清华经管商业模式创新研究中心产业学者

本文来自微信公众号“中欧商业评论”,作者:王子阳 朱武祥等,36氪经授权发布。

+1
23

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
特邀作者

助力提升中国商业精英的思维力、决策力、领导力。

下一篇

信任,不再只属于医生

8小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业