AI芯片，新混战

半导体行业观察·2026年04月15日 09:47

推理，成为新的主战场。

2026年春，AI行业又传出一则重磅消息：据路透社报道，Anthropic正在探索自主设计芯片的可能性。这家年度化营收已突破300亿美元、旗下Claude模型用户激增的AI实验室，正认真考虑从算力的消费者，演变为算力的定义者。

消息人士坦承，相关计划仍处于早期阶段，公司尚未确定具体方案，也未组建专门团队。Anthropic最终仍可能选择只采购芯片，而非自行设计。但即便只是可能性，也足以说明一些问题。

目前，Anthropic同时使用谷歌母公司Alphabet设计的TPU张量处理单元，以及亚马逊的Trainium芯片来开发并运行Claude。就在本周，该公司还与谷歌及博通签署了一项长期协议，后者正是谷歌TPU的核心设计支持方。一边签下百亿级的外部采购协议，一边悄悄探路自研，这种左右两手并举的姿态，像极了几年前的Meta和微软，而它们在今天都已拥有了自己的专属芯片。

设计一款顶级AI芯片，业内估算约需五亿美元，但在价格之外更值得关注的，是Anthropic此举背后的行业信号。当一家纯模型公司开始认真思考自研硅片，这场关于AI推理的硬件争夺战，实际上已进入了新的烈度。

推理，成为新的主战场

这两年，AI行业发生了一次剧变，大量算力需求从训练侧迅速转向推理侧。

训练阶段，动辄耗费数周乃至数月，需要大规模GPU集群并行运算，英伟达在这一侧的统治地位已近乎无可撼动。但推理不同。推理是模型每一次响应用户请求时实时发生的计算，它追求的是低延迟、高吞吐、低能耗，而这些目标，与GPU所擅长的领域并不完全吻合。

根据巴克莱的预测，到2026年，推理计算需求将占AI总算力需求的70%以上，是训练需求的4.5倍，可以说，未来AI芯片市场的真正决战就在推理。

英伟达在训练端积累了十年的护城河，若这条护城河无法延伸到推理端，那么整个行业格局就面临重写。正因如此，英伟达在去年年底正式出手，宣布与AI推理芯片初创公司Groq达成非独家许可协议。Groq创始人兼CEO乔纳森·罗斯、总裁桑尼·马德拉及多名核心工程师，随即加入英伟达。外媒援引知情人士的说法，这笔交易的对价约为200亿美元。

英伟达官方措辞谨慎，强调只是技术授权加人才引入，而非传统收购。但这种非典型收购的玩法，在硅谷已经相当普遍，它既能规避繁琐的反垄断审查，又能实质性地将目标技术和核心团队收入囊中。

Groq的故事本来相当精彩。创始人罗斯曾是谷歌TPU项目的核心成员，深知GPU架构在推理场景下的天然局限：数千个并行计算单元、极为复杂的内存调度逻辑，这些特性在训练时是优势，在推理时反而造成不可预测的延迟抖动。

也因为如此，Groq选择了一条截然不同的路：彻底取消硬件层面的调度器，改由编译器在代码阶段就确定每一比特数据的流转路径，让芯片像一条精确到纳秒的自动化流水线运转。这种架构被命名为LPU，即语言处理单元，在主流大模型的推理测试中，其单词生成速度可达英伟达GPU的十倍以上，而每token的能耗仅为后者的十分之一。

凭借这种极致性能，Groq吸引了超过150万开发者用户，并先后获得思科、三星、贝莱德等顶级机构的多轮投资，估值一度达69亿美元。然而成也萧何，败也萧何。正是Groq过于耀眼的推理性能，让它成为了黄仁勋眼中最需要被锁定的目标。

表面上，英伟达收购Groq是在补全推理侧的技术版图，而更深入看，这是一次防御性整合，通过将最强外部挑战者之一收编进自己的生态，英伟达拿走了那些没有自研芯片能力的二线云厂商和AI软件公司手中的议价筹码。失去了Groq作为替代选项，那些不愿被英伟达征税的企业，如今面临的选项骤然收窄。

巨头各自磨刀

然而釜底抽薪的困局，未必会持续太久。

事实上，早在Groq崛起之前，各大云巨头就已经在独立谋划自己的算力出路。谷歌有TPU，亚马逊有Trainium，微软有Maia，这三条自研路线，如今都已走到了可以向外兜售的成熟阶段。

谷歌的第七代TPU，代号Ironwood，2025年底正式发布并上市。与前代相比，其单芯片性能提升4倍以上，单集群最高可互联9216颗芯片。谷歌对这一代产品的定位毫不掩饰：推理时代最省钱的商业引擎。从2015年因内部算力瓶颈被迫自研，到2025年将TPU开放部署到客户自有数据中心，谷歌用十年时间，把一个应急项目打磨成了战略武器。Anthropic宣布未来Claude系列的训练与部署将使用多达一百万颗TPU，更让Ironwood的商业价值得到了市场层面的权威背书。

亚马逊走的是另一条路。AWS长期高度依赖旗下Annapurna Labs自研的芯片，Trainium系列大致对标英伟达GPU，但侧重点在于降低云基础设施成本、减少对外部供应商的依赖。此番AWS与Cerebras签署多年合作协议，计划将Cerebras的晶圆级引擎WSE芯片引入数据中心，与自研Trainium芯片并行部署，正是这种自研为主、外采为辅逻辑的具体体现。

AWS的目标非常明确，用Trainium承接低速、低价的推理需求，用Cerebras芯片锁定那些对延迟极度敏感、愿意为速度付溢价的高端客户。

对于推理芯片而言，它不像训练芯片那样追求短期的速度，其更看重长期的能耗效益。一块英伟达GPU功耗约700瓦，而同等算力的专用推理芯片功耗可控制在200瓦以内，对于需要数十万片推理芯片支撑的超大规模应用，这种差距每年能带来数亿美元的成本节省。这也是谷歌、亚马逊、Meta等云巨头争相押注ASIC专用芯片的核心原因之一。

据最新消费透露，Meta和博通达成了1Gw的训练和推理芯片合作协议，这势必会给本就“混乱”的推理芯片市场，带来新的催化剂。

异构时代，新联盟崛起

如果说云巨头的自研路线是一种有充足资源保障的长期赌注，那么英特尔与SambaNova的联手，则代表了另一种更具现实感的突围路径。

2026年，SambaNova宣布与英特尔推出异构硬件推理方案，采用GPU负责预填充、英特尔至强6处理器作为主控与执行CPU、SambaNova RDU负责解码的三层架构，专为智能体AI工作负载设计。这套方案将于2026年下半年面向企业、云服务商及主权AI项目开放。

SambaNova指出，纯GPU体系擅长并行化的预填充环节，但在生产环境的推理任务中，CPU的工具调度与专用推理加速器的解码效率，才是决定整体速度与成本的关键变量。

而其测试数据显示，英特尔至强6处理器的LLVM编译速度较基于Arm架构的服务器CPU提升超50%，向量数据库性能最高快70%，这两个指标，恰好切中代码智能体工作流的核心性能瓶颈。

英特尔在这场合作中的角色耐人寻味。曾经的PC霸主，在GPU时代几乎被边缘化出AI芯片主战场，如今借助至强6的CPU控制调度优势，正在异构推理方案中重新找回存在感。数据中心软件生态以x86架构为基础，也让英特尔重新回到了AI舞台中心。

大芯片，闯入视线

Cerebras是另一个值得单独书写的名字。

这家专注晶圆级AI芯片的初创公司，曾在2024年提交IPO申请，随即撤回，资本市场对其前景一度疑虑重重。但随后，OpenAI与Cerebras签署了价值超百亿美元的合作协议，为ChatGPT提供算力，这一消息让Cerebras重回公众视野，也让那些曾经观望的机构重新审视其技术价值。2026年2月，Cerebras完成10亿美元新一轮融资，总融资额达26亿美元，投后估值约230亿美元。

Cerebras的核心技术是晶圆级引擎WSE，将整块晶圆作为一颗芯片使用，突破了传统芯片的物理切割限制，在特定推理任务中的延迟表现极为出色。据Cerebras声称，其芯片在推理解码环节的速度，最高可达英伟达GPU的25倍。

此番AWS宣布与Cerebras签署多年合作协议，将WSE芯片引入数据中心用于AI推理，标志着这家初创公司完成了一次关键的身份跃迁，从融资故事，变成了全球最大云平台的供应商。

AWS选择Cerebras，其背后逻辑与OpenAI的选择一脉相承：对于编程辅助、智能体任务这类对响应速度极度敏感的场景，每一毫秒的延迟缩减都直接对应用户体验和商业价值，而这恰好是GPU的软肋所在。

对于Cerebras而言，越来越多的人用AI解决越来越难的问题，对速度的需求只会增不会减。若速度本身就是产品价值所在，那么为速度付溢价就是理所当然的商业行为。这套逻辑，正在越来越多的企业端被接受。

CoreWeave，

算力市场的新引力中心

算力争夺战的背面，是基础设施供给侧的重构。而在这一端，CoreWeave的角色愈发不可忽视。

2025年，Meta率先与CoreWeave签署供应协议，约定在2031年前采购142亿美元的AI算力；近日提交SEC的文件显示，Meta已追加协议，将在2032年前额外采购210亿美元的算力。这笔新协议的加入，将CoreWeave的订单储备推至878亿美元，其中Meta一家便占去约40%。

CoreWeave的崛起，是GPU算力由稀缺商品向基础设施演变这一过程的缩影。作为纯粹的算力租赁商，它提供的并非模型能力，而是让模型跑得起来的底层支撑。在三大云巨头之外，AI企业需要一个不绑定平台生态的算力选项，而CoreWeave恰好填补了这个空缺。

2025年全年，CoreWeave实现销售额51.3亿美元，较上年增长约1.7倍。其数据中心规模已扩至43座，在用电力容量达850兆瓦。公司配备的约60万张GPU，以英伟达H100、H200为主干，Blackwell系列占比持续提升。签约总电力容量则已达3500兆瓦，这个数字，是其当前在用容量的四倍有余。

然而CoreWeave的扩张逻辑，也正是其面临的最大结构压力所在。为覆盖数据中心扩建成本，公司近日宣布定向发行总计47.5亿美元债券。在手现金不足40亿美元的情况下，要在2026年完成300亿至350亿美元的资本支出，意味着需要持续依靠外部融资维持高速扩张。CoreWeave的投资方们，显然下注的是算力需求仍将长期高增长这一核心判断。

混战，仍在继续

Anthropic开始自研芯片，英伟达200亿美元收购Groq，谷歌十年磨一剑将TPU打造成标杆产品，亚马逊将Cerebras引入自家数据中心构建差异化推理组合，英特尔联手SambaNova在异构推理市场争夺一席之地等等，这些看似分散的事件，其实都指向了推理这一新战场。

越多越多人意识到，AI的重心，正在从如何训练出更好的模型转向如何以更低的成本、更快的速度推理更多的请求。这个转变，使得之前以GPU为核心的算力体系，开始进行一场浩浩荡荡的转变。

这一轮竞争，与早年GPU对CPU的替代并不相同。那是一场新产品对旧产品的单向碾压。而今天的推理芯片之争，更像是一个复杂生态内部的分工重组，没有任何一种架构能独占所有场景，异构组合正在成为主流。GPU处理高度并行的预填充，专用推理芯片承担解码，CPU负责调度协调，云端与边缘端各有侧重，每个环节都有多个玩家竞逐。

这也意味着，胜负远未分晓。

对Anthropic而言，探索自研芯片是一种对算力自主权的主动追求，也是一张防止被上游供应商裹挟的保险单。但芯片研发的长周期与高投入，意味着这条路走起来并不轻松。对英伟达而言，CUDA生态护城河依然深厚，但推理端越来越明显的性能-成本缺口，正在成为所有潜在挑战者共同瞄准的突破口。对类似Groq的其他技术竞争者而言，技术领先并不必然转化为商业胜利，被收购的可能性也在不断增大。

战线已经拉开，参与者的名单还在增加。这场AI推理的算力混战，才刚刚走进它最热烈的章节。

本文来自微信公众号“半导体行业观察”（ID：icbank），作者：邵逸琦，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。