AI芯片,新混战
2026年春,AI行业又传出一则重磅消息:据路透社报道,Anthropic正在探索自主设计芯片的可能性。这家年度化营收已突破300亿美元、旗下Claude模型用户激增的AI实验室,正认真考虑从算力的消费者,演变为算力的定义者。
消息人士坦承,相关计划仍处于早期阶段,公司尚未确定具体方案,也未组建专门团队。Anthropic最终仍可能选择只采购芯片,而非自行设计。但即便只是可能性,也足以说明一些问题。
目前,Anthropic同时使用谷歌母公司Alphabet设计的TPU张量处理单元,以及亚马逊的Trainium芯片来开发并运行Claude。就在本周,该公司还与谷歌及博通签署了一项长期协议,后者正是谷歌TPU的核心设计支持方。一边签下百亿级的外部采购协议,一边悄悄探路自研,这种左右两手并举的姿态,像极了几年前的Meta和微软,而它们在今天都已拥有了自己的专属芯片。
设计一款顶级AI芯片,业内估算约需五亿美元,但在价格之外更值得关注的,是Anthropic此举背后的行业信号。当一家纯模型公司开始认真思考自研硅片,这场关于AI推理的硬件争夺战,实际上已进入了新的烈度。
推理,成为新的主战场
这两年,AI行业发生了一次剧变,大量算力需求从训练侧迅速转向推理侧。
训练阶段,动辄耗费数周乃至数月,需要大规模GPU集群并行运算,英伟达在这一侧的统治地位已近乎无可撼动。但推理不同。推理是模型每一次响应用户请求时实时发生的计算,它追求的是低延迟、高吞吐、低能耗,而这些目标,与GPU所擅长的领域并不完全吻合。
根据巴克莱的预测,到2026年,推理计算需求将占AI总算力需求的70%以上,是训练需求的4.5倍,可以说,未来AI芯片市场的真正决战就在推理。
英伟达在训练端积累了十年的护城河,若这条护城河无法延伸到推理端,那么整个行业格局就面临重写。正因如此,英伟达在去年年底正式出手,宣布与AI推理芯片初创公司Groq达成非独家许可协议。Groq创始人兼CEO乔纳森·罗斯、总裁桑尼·马德拉及多名核心工程师,随即加入英伟达。外媒援引知情人士的说法,这笔交易的对价约为200亿美元。
英伟达官方措辞谨慎,强调只是技术授权加人才引入,而非传统收购。但这种非典型收购的玩法,在硅谷已经相当普遍,它既能规避繁琐的反垄断审查,又能实质性地将目标技术和核心团队收入囊中。
Groq的故事本来相当精彩。创始人罗斯曾是谷歌TPU项目的核心成员,深知GPU架构在推理场景下的天然局限:数千个并行计算单元、极为复杂的内存调度逻辑,这些特性在训练时是优势,在推理时反而造成不可预测的延迟抖动。
也因为如此,Groq选择了一条截然不同的路:彻底取消硬件层面的调度器,改由编译器在代码阶段就确定每一比特数据的流转路径,让芯片像一条精确到纳秒的自动化流水线运转。这种架构被命名为LPU,即语言处理单元,在主流大模型的推理测试中,其单词生成速度可达英伟达GPU的十倍以上,而每token的能耗仅为后者的十分之一。
凭借这种极致性能,Groq吸引了超过150万开发者用户,并先后获得思科、三星、贝莱德等顶级机构的多轮投资,估值一度达69亿美元。然而成也萧何,败也萧何。正是Groq过于耀眼的推理性能,让它成为了黄仁勋眼中最需要被锁定的目标。
表面上,英伟达收购Groq是在补全推理侧的技术版图,而更深入看,这是一次防御性整合,通过将最强外部挑战者之一收编进自己的生态,英伟达拿走了那些没有自研芯片能力的二线云厂商和AI软件公司手中的议价筹码。失去了Groq作为替代选项,那些不愿被英伟达征税的企业,如今面临的选项骤然收窄。
巨头各自磨刀
然而釜底抽薪的困局,未必会持续太久。
事实上,早在Groq崛起之前,各大云巨头就已经在独立谋划自己的算力出路。谷歌有TPU,亚马逊有Trainium,微软有Maia,这三条自研路线,如今都已走到了可以向外兜售的成熟阶段。
谷歌的第七代TPU,代号Ironwood,2025年底正式发布并上市。与前代相比,其单芯片性能提升4倍以上,单集群最高可互联9216颗芯片。谷歌对这一代产品的定位毫不掩饰:推理时代最省钱的商业引擎。从2015年因内部算力瓶颈被迫自研,到2025年将TPU开放部署到客户自有数据中心,谷歌用十年时间,把一个应急项目打磨成了战略武器。Anthropic宣布未来Claude系列的训练与部署将使用多达一百万颗TPU,更让Ironwood的商业价值得到了市场层面的权威背书。
亚马逊走的是另一条路。AWS长期高度依赖旗下Annapurna Labs自研的芯片,Trainium系列大致对标英伟达GPU,但侧重点在于降低云基础设施成本、减少对外部供应商的依赖。此番AWS与Cerebras签署多年合作协议,计划将Cerebras的晶圆级引擎WSE芯片引入数据中心,与自研Trainium芯片并行部署,正是这种自研为主、外采为辅逻辑的具体体现。
AWS的目标非常明确,用Trainium承接低速、低价的推理需求,用Cerebras芯片锁定那些对延迟极度敏感、愿意为速度付溢价的高端客户。
对于推理芯片而言,它不像训练芯片那样追求短期的速度,其更看重长期的能耗效益。一块英伟达GPU功耗约700瓦,而同等算力的专用推理芯片功耗可控制在200瓦以内,对于需要数十万片推理芯片支撑的超大规模应用,这种差距每年能带来数亿美元的成本节省。这也是谷歌、亚马逊、Meta等云巨头争相押注ASIC专用芯片的核心原因之一。
据最新消费透露,Meta和博通达成了1Gw的训练和推理芯片合作协议,这势必会给本就“混乱”的推理芯片市场,带来新的催化剂。
异构时代,新联盟崛起
如果说云巨头的自研路线是一种有充足资源保障的长期赌注,那么英特尔与SambaNova的联手,则代表了另一种更具现实感的突围路径。
2026年,SambaNova宣布与英特尔推出异构硬件推理方案,采用GPU负责预填充、英特尔至强6处理器作为主控与执行CPU、SambaNova RDU负责解码的三层架构,专为智能体AI工作负载设计。这套方案将于2026年下半年面向企业、云服务商及主权AI项目开放。
SambaNova指出,纯GPU体系擅长并行化的预填充环节,但在生产环境的推理任务中,CPU的工具调度与专用推理加速器的解码效率,才是决定整体速度与成本的关键变量。
而其测试数据显示,英特尔至强6处理器的LLVM编译速度较基于Arm架构的服务器CPU提升超50%,向量数据库性能最高快70%,这两个指标,恰好切中代码智能体工作流的核心性能瓶颈。
英特尔在这场合作中的角色耐人寻味。曾经的PC霸主,在GPU时代几乎被边缘化出AI芯片主战场,如今借助至强6的CPU控制调度优势,正在异构推理方案中重新找回存在感。数据中心软件生态以x86架构为基础,也让英特尔重新回到了AI舞台中心。
大芯片,闯入视线
Cerebras是另一个值得单独书写的名字。
这家专注晶圆级AI芯片的初创公司,曾在2024年提交IPO申请,随即撤回,资本市场对其前景一度疑虑重重。但随后,OpenAI与Cerebras签署了价值超百亿美元的合作协议,为ChatGPT提供算力,这一消息让Cerebras重回公众视野,也让那些曾经观望的机构重新审视其技术价值。2026年2月,Cerebras完成10亿美元新一轮融资,总融资额达26亿美元,投后估值约230亿美元。
Cerebras的核心技术是晶圆级引擎WSE,将整块晶圆作为一颗芯片使用,突破了传统芯片的物理切割限制,在特定推理任务中的延迟表现极为出色。据Cerebras声称,其芯片在推理解码环节的速度,最高可达英伟达GPU的25倍。
此番AWS宣布与Cerebras签署多年合作协议,将WSE芯片引入数据中心用于AI推理,标志着这家初创公司完成了一次关键的身份跃迁,从融资故事,变成了全球最大云平台的供应商。
AWS选择Cerebras,其背后逻辑与OpenAI的选择一脉相承:对于编程辅助、智能体任务这类对响应速度极度敏感的场景,每一毫秒的延迟缩减都直接对应用户体验和商业价值,而这恰好是GPU的软肋所在。
对于Cerebras而言,越来越多的人用AI解决越来越难的问题,对速度的需求只会增不会减。若速度本身就是产品价值所在,那么为速度付溢价就是理所当然的商业行为。这套逻辑,正在越来越多的企业端被接受。
CoreWeave,
算力市场的新引力中心
算力争夺战的背面,是基础设施供给侧的重构。而在这一端,CoreWeave的角色愈发不可忽视。
2025年,Meta率先与CoreWeave签署供应协议,约定在2031年前采购142亿美元的AI算力;近日提交SEC的文件显示,Meta已追加协议,将在2032年前额外采购210亿美元的算力。这笔新协议的加入,将CoreWeave的订单储备推至878亿美元,其中Meta一家便占去约40%。
CoreWeave的崛起,是GPU算力由稀缺商品向基础设施演变这一过程的缩影。作为纯粹的算力租赁商,它提供的并非模型能力,而是让模型跑得起来的底层支撑。在三大云巨头之外,AI企业需要一个不绑定平台生态的算力选项,而CoreWeave恰好填补了这个空缺。
2025年全年,CoreWeave实现销售额51.3亿美元,较上年增长约1.7倍。其数据中心规模已扩至43座,在用电力容量达850兆瓦。公司配备的约60万张GPU,以英伟达H100、H200为主干,Blackwell系列占比持续提升。签约总电力容量则已达3500兆瓦,这个数字,是其当前在用容量的四倍有余。
然而CoreWeave的扩张逻辑,也正是其面临的最大结构压力所在。为覆盖数据中心扩建成本,公司近日宣布定向发行总计47.5亿美元债券。在手现金不足40亿美元的情况下,要在2026年完成300亿至350亿美元的资本支出,意味着需要持续依靠外部融资维持高速扩张。CoreWeave的投资方们,显然下注的是算力需求仍将长期高增长这一核心判断。
混战,仍在继续
Anthropic开始自研芯片,英伟达200亿美元收购Groq,谷歌十年磨一剑将TPU打造成标杆产品,亚马逊将Cerebras引入自家数据中心构建差异化推理组合,英特尔联手SambaNova在异构推理市场争夺一席之地等等,这些看似分散的事件,其实都指向了推理这一新战场。
越多越多人意识到,AI的重心,正在从如何训练出更好的模型转向如何以更低的成本、更快的速度推理更多的请求。这个转变,使得之前以GPU为核心的算力体系,开始进行一场浩浩荡荡的转变。
这一轮竞争,与早年GPU对CPU的替代并不相同。那是一场新产品对旧产品的单向碾压。而今天的推理芯片之争,更像是一个复杂生态内部的分工重组,没有任何一种架构能独占所有场景,异构组合正在成为主流。GPU处理高度并行的预填充,专用推理芯片承担解码,CPU负责调度协调,云端与边缘端各有侧重,每个环节都有多个玩家竞逐。
这也意味着,胜负远未分晓。
对Anthropic而言,探索自研芯片是一种对算力自主权的主动追求,也是一张防止被上游供应商裹挟的保险单。但芯片研发的长周期与高投入,意味着这条路走起来并不轻松。对英伟达而言,CUDA生态护城河依然深厚,但推理端越来越明显的性能-成本缺口,正在成为所有潜在挑战者共同瞄准的突破口。对类似Groq的其他技术竞争者而言,技术领先并不必然转化为商业胜利,被收购的可能性也在不断增大。
战线已经拉开,参与者的名单还在增加。这场AI推理的算力混战,才刚刚走进它最热烈的章节。
本文来自微信公众号“半导体行业观察”(ID:icbank),作者:邵逸琦,36氪经授权发布。















