「选了谷歌,落后一年!」美国AI领袖「砸场」谷歌:省点钱却输了时间,英伟达笑醒?

36氪的朋友们·2026年05月26日 19:43
到底有多大怨念?

AI短剧中的情节照进现实。

就在谷歌年度开发者大会进行时,AI业界领袖却毫不留情地砸场子!到底有多大怨念?

就在几天前的谷歌I/O大会进行期间,文生图AI知名企业Midjourney创始人兼CEO大卫·霍茨( David Holz)却毫不留情地公开吐槽谷歌TPU,引发了硅谷AI圈的广泛讨论。

霍茨在X平台上表示,因为早年选择了谷歌TPU而非英伟达GPU作为核心训练基础设施,Midjourney的研究进度比本可以达到的水平落后了整整一年。“如果可以回到过去,我会一开始就完全采用英伟达芯片。”

这句话之所以具有巨大杀伤力,因为这是来自一家与谷歌有深度合作的知名AI企业,当初是谷歌云推广自家芯片的一张招牌,而且他们还靠谷歌TPU节省了三分之二的推理成本。这次吐槽相当于给英伟达做了最好的背书。

霍茨为什么如此不给谷歌面子,要在谷歌发布新芯片的时候砸场子?

一场真实代价的公开复盘

当然,霍茨不是随口抱怨,而是用真实代价做出的公开复盘。它触及了当前AI基础设施竞争最核心的矛盾:硬件性能的竞赛之外,软件生态的护城河才是真正决定胜负的战场。

要理解霍茨的懊悔,需要先厘清谷歌TPU和英伟达GPU在研究场景下的本质差异。

举个例子,GPU相当于通用并行计算的瑞士军刀。英伟达的CUDA平台从2007年就开始布局,今天已经积累了将近二十年的生态沉淀,成为AI行业通用的平台。

AI研究员最常用的框架PyTorch与CUDA深度绑定,Hugging Face上几乎所有开源模型权重默认GPU格式发布,Nsight性能分析器、NCCL通信库、TensorRT推理优化工具——这是一套完整的研究工具链。全球的AI研究员从学校开始就在CUDA上写代码,PyTorch是他们的母语。

而TPU则是另一种生态。它是专用集成电路,底层架构围绕脉动阵列设计,专门优化深度学习张量运算,在大规模稳定训练任务上效率极高。但它要求使用JAX或TensorFlow框架,对PyTorch的支持长期残缺不全。社区资源匮乏,调试工具不成熟,几乎所有的排错都要依赖谷歌自己的文档。

回到Midjourney的具体需求,他们做的是图像生成研究,需要大量自定义算子实验、快速原型迭代,以及随时调用Hugging Face生态里的扩散模型组件。这些工作在GPU+PyTorch的环境下如鱼得水,在TPU上却步履维艰。

举个简单例子,一个研究员想验证一个新想法,在GPU上可能只需要几小时;在TPU上,光是配置环境和适配框架就可能耗费几天。长期累积下来,就是霍茨所说的“落后了一年”。

当初为何选择谷歌TPU?

不过需要强调的是,霍茨的吐槽专门针对研究和训练阶段。在推理阶段,这个逻辑就完全不同。这也是他们当初为什么迁移到谷歌TPU的直接动力,因为用谷歌TPU可以实打实地省钱,而且不用和巨头们争抢英伟达显卡。

早在2023年,谷歌云就高调官宣,Midjourney 已经选择谷歌作为其核心基础设施供应商。Midjourney 利用谷歌的 TPU v4/v5(基于 JAX 框架)来训练其第四代和第五代的文生图大模型;同时,租用谷歌云上的 英伟达 GPU 集群,来处理全球用户数以亿计的日常生成推理。

Midjourney的选择很现实。当时英伟达的 H100 被抢疯了,Midjourney 作为一个没有巨头撑腰的独立AI公司,根本排不上号。而谷歌的 TPU 算力管够,且对图像这种大规模矩阵运算的性价比(可以省下六成的成本)在纸面上非常诱人。

2025年第二季度,Midjourney将主力推理集群也从英伟达A100/H100迁移到谷歌Cloud TPU v6e,月度推理支出从约210万美元骤降至70万美元以下,年化节省超过1680万美元,回本周期仅11天。

换句话说,TPU在规模化推理上的性价比优势是真实的。霍茨真正懊恼的是:自己应该在研究阶段用英伟达打磨模型,推理阶段再迁移到谷歌TPU降本;而不是从一开始就在TPU上做研究,为此付出一年的进度代价。

英伟达护城河是生态?

霍茨的公开吐槽,本质上是一份对英伟达生态护城河的证词。英伟达的护城河不在于H100比TPU快多少,而在于无数研究员的工作习惯、数以万计的开源代码库,以及整个学术界默认GPU作为实验平台的行业惯性。

2026年,PyTorch在研究论文中的占有率仍高达85%。几乎所有前沿研究的代码都基于英伟达硬件。这意味着,任何想要使用TPU做研究的团队,都必须承担一个隐性成本:将自己与主流社区隔离,放弃大量现成的工具和资源,在一个相对小众的技术栈里独自探索。

这就是为什么即便TPU在某些指标上已经与GPU相当甚至更优,业界大多数研究实验室仍然默认选择GPU。或许硬件性能可以追赶,生态积累无法速成。黄仁勋花了将近二十年时间建造的这条护城河,正是英伟达最值钱的资产。

谷歌显然意识到了问题所在。在今年的谷歌云Next大会上,谷歌发布了第八代TPU,并首次采用双芯片策略:TPU 8t(训练)和TPU 8i(推理)。这是TPU历史上第一次将训练和推理分拆成两颗架构完全不同的专用芯片,就是为了解决霍茨吐槽的问题。

TPU 8t代号Sunfish,由博通合作设计,面向大规模预训练。超级Pod规模达9600颗芯片、共享2PB HBM,训练性价比比上代Ironwood提升2.7倍。TPU 8i代号Zebrafish,由联发科设计,专攻推理和serving,将片上SRAM扩大至384MB,芯片互联带宽翻倍至19.2 Tb/s,并引入全新的Boardfly网络拓扑,将1024芯片配置的最大网络跳数从16跳降至7跳,在大型MoE模型低延迟推理上性价比比Ironwood提升80%。两款芯片采用台积电2纳米工艺,预计2027年量产。

谷歌这次双芯片战略本身就是一次重要的战略承认:训练和推理已经分化成两种完全不同形状的工作负载,一颗芯片无法再同时优化两端。这与英伟达“一块GPU通吃”的路线形成了鲜明对比,也是谷歌对英伟达Vera Rubin NVL72和亚马逊Trainium3的正面回击。

而且谷歌这次不只是发布了新硬件。针对霍茨对TPU生态的抱怨,谷歌同步推出了TorchTPU项目——一个让PyTorch原生运行在TPU上的工程计划,目前处于预览版状态。

按照谷歌的路线图,TorchTPU将支持PyTorch的Eager Mode、与vLLM和TorchTitan深度集成、并最终实现到完整Pod规模的线性扩展。如果TorchTPU真正成熟,那些坚守PyTorch的研究团队将第一次能够在不重写代码的前提下使用TPU。

然而,TorchTPU目前仍是预览版,不是正式发布版。霍茨那种“改个架构、调个算子、快速验证想法”的研究工作流,在TPU 8t上是否真的像在H100上一样顺滑,还需要大量实战验证。一扇门已经打开,但门后的路有多平坦,2027年正式量产之后才能见分晓。

Claude为什么横跨三平台?

如果Midjourney对TPU的训练生态有这么多不满的话,那么现在AI行业新领头羊Anthropic是怎么解决脚踏三条船的挑战的?要知道他们同时在英伟达GPU、谷歌TPU和亚马逊Trainium三套硬件上训练和运行Claude。

Anthropic原本是处于AI第一集团的追赶者角色,财力远远不能和谷歌和OpenAI相比,因此他们接受了谷歌和亚马逊的巨额投资,交换条件之一就是使用这两个巨头的TPU和Trainium芯片。

谷歌和亚马逊都是Anthropic的战略投资者,两家巨头先后给Anthropic投资了近100亿美元。再加上微软投资的50亿美元,相当于全球三大云计算巨头在合力供养着Anthropic。

巨头们可不是单纯的财务投资。这些投资有一大部分都折现成了谷歌和亚马逊的营收,因为Anthropic目前使用着超过百万张亚马逊Trainium芯片,专门用于训练和部署最新的Claude模型,同时使用着数十万张谷歌TPU,并计划在未来逐步拓展到百万TPU阵列。

与此同时,谷歌云、AWS以及微软Azure也是Claude在全球B端市场的主要分发平台。三大万亿级巨头都想用自己的销售网络帮Claude卖货,自己获得营收提成,更重要的是,把算力流量留在自家的服务器里,同时搭售自家的云服务。

这种全面通吃的局面,也让 Anthropic 成为硅谷历史上成长速度最快、底牌最足的独立AI巨头。最近他们还与SpaceX达成了算力租赁协议,每年要支付150亿美元使用马斯克在田纳西州超算中心囤积的英伟达GPU芯片带来的算力。

那么,Anthropic是怎么做到同时使用三大平台芯片的?

Anthropic官方表述是:不同工作负载匹配最适合的芯片。英伟达GPU承接研究实验和快速原型;谷歌TPU和亚马逊Trainium分别承接大规模训练和推理的主力工作负载,两家超级计算机供应商之间形成制衡,防止单一平台绑架定价权。

Anthropic与亚马逊的合作规模尤其引人注目。双方已签署协议,Anthropic将在未来十年向AWS投入超过1000亿美元,获得最多5吉瓦的算力容量,覆盖Trainium2到Trainium4。

有趣的是,在最新谷歌云Next大会宣布与Anthropic深入合作的时候,亚马逊站出来“公开邀赏”,声称Claude的训练完全在Trainium上完成,Project Rainier——这个目前运行超过100万颗Trainium2芯片的集群——是全球最大的AI训练集群之一。

与此同时,Anthropic在谷歌Cloud Next大会前不久宣布扩大与谷歌和博通的合作,获得多吉瓦的下一代TPU容量,预计2027年投入使用。

Anthropic靠什么脚踩三条船?

Anthropic能走出这条路,有一个关键的技术DNA:公司核心创始团队来自Google Brain,JAX是他们的母语。从一开始,Anthropic就将JAX作为核心训练框架——JAX的设计哲学是硬件无关,同一套代码通过XLA编译器可以在GPU、TPU乃至Trainium上运行。

这与Midjourney的路径恰好相反:Midjourney先在PyTorch+GPU的生态里建好研究工作流,再试图迁移到TPU,迁移成本才造成了一年的损失。

然而这种多平台策略也是有代价的,Anthropic每次模型更新都要在三套架构上分别测试,每个bug都有三个潜在成因,部署复杂度是单一平台方案的三倍。这是三平台策略必须承付的工程账单。

谷歌的 TPU 体系基于传统的 JAX 和 XLA 编译器。亚马逊的 Trainium 体系则基于 AWS 自研的 Neuron SDK。 这意味着,Anthropic 核心的分布式训练框架,不能直接平移。

因此,Anthropic的工程团队必须派驻顶尖的底层硬件优化专家,与谷歌和亚马逊的芯片团队闭门联合开发,将复杂的算子、混合精度训练代码,用三套完全不同的硬件底层汇编逻辑重写并优化。这种人力成本和时间沉淀,确实远超纯粹使用英伟达生态的 OpenAI。

相比之下,Midjourney 的团队规模极小,根本没有 Anthropic 那种可以跟巨头芯片团队闭门魔改底层的千人工程兵团。在面对 TPU小众的 JAX/XLA 编译环境时,一旦遇到诡异的硬件级 Bug,整个团队只能停工去死磕底层代码。

此外,2025年8至9月,Claude用户报告了明显的性能下降。Anthropic的事后复盘披露了三个独立的基础设施漏洞:上下文窗口路由错误影响了某一平台上16%的Sonnet 4请求;TPU服务器配置错误导致Opus 4和Sonnet 4输出损坏;XLA编译器漏洞困扰Haiku 3.5长达两周。

Anthropic在自己的研究论文中反复强调:不要使用复杂的框架,保持架构的极度简单与可组合性。模型层设计得越纯粹、越少花活,在面对多芯片平台交叉测试时,底层暴露出的硬件 Bug 就越少,从而用“设计上的克制”化解了“平台上的繁复”。

付出了这笔高昂的工程账单后,Anthropic 收获了全行业最羡慕的果实。根据最新的 TCO(总拥有成本)数据,谷歌 TPU 和亚马逊 Trainium 在大规模推理时的性价比,比英伟达平台整整高出 50% 以上。

相比较OpenAI 赌的是“英伟达纯血生态+ Stargate 级单点超大算力”;而 Anthropic 则是用三倍的工程成本,硬生生把自己逼成了一个“跨平台黏合体”。

这种底层基建的全面跑通,让 Claude 在如今多模态智能体大规模并发、大流量吞吐的工业落地战役中,拥有了全行业最便宜、最不被单一方卡脖子的无限算力大后方。这就是多平台策略牺牲短期人力、换取长期战略制高点的终极兑现。

未来格局:专用芯片时代的竞争逻辑

话题回到霍茨的那条推文,某种程度上是AI基础设施进入新阶段的一个缩影。接下来几年的竞争格局,已经开始清晰。

训练侧的格局是:英伟达仍然是研究实验和快速迭代的首选平台,但在超大规模稳定训练上,TPU和Trainium正在以性价比优势侵蚀份额。谷歌TPU 8t的2.7倍性价比提升、亚马逊Trainium3的持续进化,意味着前沿AI实验室将越来越倾向于“研究用GPU、训练用专用芯片”的混合策略。

推理侧的格局更加有利于挑战者。推理是AI基础设施中增速最快的部分——2026年初推理已占AI算力总支出的55%,预计到2030年将占75%。在这个场景下,TPU和Trainium的专用优化能带来Midjourney那样65%的成本削减,经济账算得通。谷歌TPU 8i正是针对这一趋势的定向武器。

生态侧的战局则更为长期。TorchTPU能否真正让PyTorch研究员无缝迁移到TPU,是谷歌2027年最重要的挑战。亚马逊的策略则更为务实:Trainium与PyTorch的兼容性一直是其主打卖点,通过Bedrock平台上十万家以上的企业客户积累,正在悄悄构建自己的应用层生态。

但英伟达绝不会坐视对手侵蚀自己的护城河,CUDA的持续进化和Blackwell架构的推出,是对“GPU不是研究唯一选择”论调的最直接反击。

供给侧的变量也同样值得关注,谷歌TPU的大规模量产受制于台积电的先进封装产能,原计划2026年达到400万颗的目标已推迟至2027年。台积电现有AP8工厂已满负荷,新的AP7平台首期产能已全部分配给苹果处理器,第二期年底才能投入。这意味着即便需求旺盛,TPU的供给在2026年仍将是制约因素,反而给英伟达留下了缓冲空间。

对大多数中小型AI公司而言,霍茨的懊恼仍然具有实际意义:研究阶段全用英伟达,生态摩擦最低,迭代速度最快。等到模型架构稳定、推理规模上来,再评估TPU迁移的经济账。这不是因为英伟达更好,而是因为生态成本在规模较小时会压倒硬件成本。

对Anthropic这个量级的前沿实验室,三平台策略的逻辑截然不同:它不只是为了省钱,而是为了确保在任何单一供应商出现问题时,Claude的训练和服务都不会中断;同时用多平台需求作为筹码,在与亚马逊和谷歌的谈判中保持议价能力。

硬件性能vs生态效率,性价比vs研究速度,专用优化vs通用灵活,这是当前AI芯片战争最核心的几大矛盾张力。谷歌用双TPU战略试图两端兼顾,亚马逊用Trainium的兼容性策略绕过生态壁垒,英伟达则用二十年积累的软件护城河抵御所有挑战者。

没有人能买到所有筹码,也没有哪家公司的选择是错的,都要付出不同的代价。在AI基础设施的棋盘上,芯片性能早已不是唯一的计分方式。

本文来自微信公众号“新浪科技”,作者:郑峻,36氪经授权发布。

+1
3

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

叮咚之后,阿里、美团、京东50亿美元竞逐最后一个前置仓独立玩家

47分钟前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业