百芯大战

锦缎·2026年02月02日 09:31
AI专用芯片迈过10亿美元经济生死线,英伟达算力霸权瓦解倒计时

一年前,我们在《DeepSeek掀起算力革命,英伟达挑战加剧,ASIC芯片悄然崛起》一文中,更多的是看好ASIC带来类似博通和晶圆代工的产业机会。

一年后的今天,ASIC 的发展速度远超预期。尤其近半年以来,ASIC甚至逐渐成为AI竞争的胜负手:国内外大厂开年以来股价表现最好的分别是百度、谷歌和阿里。

谷歌TPU+自研模型+云+内部应用的王炸,已经让其立于不败之地;国内互联网大厂,近期被重估的只有自研ASIC芯片拆分独立IPO的百度(计划拆分昆仑芯IPO)和阿里(计划拆分平头哥IPO)。

如今,ASIC 早已不只是单纯的产业趋势,更成为AI巨头必炼的内功。

01 ASIC趋势比预期还要猛

1.AI投资规划越大,ASIC优势就越明显

ASIC(Application Specific Integrated Circuit,专用集成电路)与 GPU 的核心差异,在于 ASIC 是针对特定算法和应用的 “定制化优化”,而 GPU 则是适配多场景的 “通用型选手”。

每个大厂都有自己独特的应用、模型、云和SaaS,ASIC 能精准匹配这些专属需求,同时具备更低的成本与功耗优势——这也是我们去年看好其在推理时代爆发的核心原因。

当前 AI 军备竞赛愈演愈烈,10 万美元/颗的 GPU 已让大厂不堪重负(英伟达 FY2025 年整体毛利率达 75.5%,净利率 57%,单颗 GPU 成本不足 3 万美元)。头部厂商的 AI 资本开支已逼近千亿美元,甚至需要通过融资、租赁外部算力等方式填补缺口。

性价比更高的ASIC因此变得更为重要性:在AI算力向推理端倾斜、数据中心成本控制诉求升级的背景下,ASIC芯片凭借显著经济性,正逐步打破GPU垄断格局。

谷歌自研芯片的成功,无疑更是行业的一针强心剂。所以近期,超大规模云服务商都开始尝试摆脱对英伟达的依赖,加速构建自己的芯片护城河,以追求极致的 TCO(总拥有成本)和供应链安全。

图:GPU与ASIC比较资料来源:西南证券

2.AI专用芯片迈过10亿美元经济生死线

理论上,所有领域的芯片都该走向专用化——专用芯片的适配性与效率最优,但能否落地,关键在于下游市场能否支撑高昂的自研成本。

当前 2nm 芯片流片成本已达 7 亿美元,加上团队搭建费用 3 亿美元,自研门槛高达 10 亿美元,这需要超 100 亿美元的下游市场规模才能覆盖成本。

●成功的代表是手机,每年全球近5000亿美元的市场,自研主控SoC做的最好的是苹果和华为,不仅降低了成本,更重要的是提升了手机性能,支撑溢价。

●但在比如汽车智驾领域,,由于市场空间并不够大,主机厂自研并不具备经济性,最终仍是英伟达、地平线这样的企业占据主流。

数据中心市场AI芯片单颗价值非常高,只需要有数百万颗出货量即可突破经济生死线;显然2025年开始,一个大厂内部采购的AI芯片数量就轻松超过100万颗,容量已经完全能满足流片和高昂的招聘费用。

仍以谷歌为例,Techinsight数据显示,其2023年自用TPU就超200万颗,按年20亿美金研发成本计算,单颗分摊成本仅几千美金。

经济性的释放,直接驱动数据中心 ASIC 出货量持续攀升。据芯智讯援引 DIGITIMES 数据,ASIC 出货量将进入加速通道,2027 年将突破 1000 万颗,接近同期 GPU 1200 万颗的水平。

出货量激增将同步带动市场规模扩容,AI 用 ASIC 有望快速成长为千亿美金赛道(对应单颗价值 1 万美元左右,仅为英伟达 GPU 的 1/5-1/10)。作为大厂 ASIC 核心合作方,博通给出更乐观预期:2027 年大客户 ASIC 可服务市场将达 600-900 亿美元;Marvell 也预测,2028 年定制芯片将占数据中心加速计算市场 25% 的份额。

图:可服务AISC市场规模估算资料来源:Marvell

02 GPU和ASIC之争继续,结论是英伟达难垄断

先说结论:在高速增长、供不应求的算力需求这一大背景下,英伟达GPU作为基石的作用仍不可替代,但其份额将逐渐被ASIC蚕食

我们将在长期看到长期二者共存态势:小型模型主导场景更利好 GPU 的灵活性,超大型模型持续增长则为 TPU 提供增长空间。

具体原因下面展开。

1.英伟达的领先,现在靠生态、产业链优先供应

英伟达GPU是当前最昂贵的计算加速器,适配各类 AI 场景,客户粘性强,因为有两大优势。

英伟达明面上最大的优势在于算法生态:CUDA 生态与开发者习惯形成强壁垒、同时英伟达 NVLink和InfiniBand长期主导 GPU 互联。

所以中小模型与研发场景长期仍将以 GPU 为主;在大模型训推中,CUDA 生态仍领先其他方案至少一年半的时间。

2.另外一个在暗处的优势是产业链优先支持英伟达

就像即使设计水平一样,苹果的芯片也至少领先其他手机厂商一年,因为台积电最先进的芯片产能,苹果是包圆的。

同样,英伟达由于出货量最大,是产业链优先支持的芯片厂,如:

● 代工产能优先:英伟达是台积电3nm 产能的优先合作伙伴,而谷歌等其他厂商在CoWoS 封装、3nm 芯片产能上面临竞争劣势。

●HBM优先锁定:全球仅 3 家 HBM 供应商(三星、海力士、美光),2026 年产能已售罄,2027 年仍可能供不应求,美光已明确表示不会因需求增加额外扩产,导致非英伟达客户产能得不到保障。

我们最新了解到谷歌TPU 在 2026 年上半年有超过50%的产能缺口导致难大规模交付、微软Maia 200也难产,都是由于产业链产能限制。

3.但以上问题,都可以靠时间得到解决

生态上:

●谷歌 TPU 在AI 计算年支出超10 亿美元超大型模型部署场景中已经有成本优势了,所以将持续渗透大厂内部市场;

●此外,UALink、Ultra Ethernet 等开放标准正在崛起,有望打破英伟达对互联的垄断。据测算,在10万节点集群中,Ethernet架构相较英伟达InfiniBand,总拥有成本TCO最高可节省20%。

另外随着扩产,预计上游产能在2027 年逐步放量,供应链瓶颈开始缓解。同时2027年训练与推理芯片资本开支占比将趋近 50:50,给ASIC更大施展自己的舞台。

图:未来互联技术选择变多资料来源:锦缎研究院总结

4.更大的变局是谷歌TPU撕开英伟达垄断的裂缝

如果说去年初我们对ASIC到底是否能分得一杯羹还存在犹豫的话,谷歌技术和商业闭环上的成功,已经彻底打消了我们的疑虑。

谷歌 TPU 的核心竞争力,首先源于技术层面的差异化优势。

自 2016 年首款 TPU V1 发布并用于数据中心推理以来持续进行迭代,其最新的 TPU v7 搭载 Inter-Chip Interconnect技术,可支持最多 9000 个节点的超大规模集群,信号损耗低。

硬件配置上,TPU 采用 HBM3E 内存,虽在容量和单系统算力上不及英伟达产品,但功耗与以太网成本更具优势,FP4 精度下每 PFLOPS 每小时成本仅 0.40 美元,性价比突出。

5.实战表现是最好的验证

谷歌Nano Banana 等模型 100% 基于 TPU 完成训练与推理,也支撑其内部语音搜索、图片搜索等核心功能,成本低于 GPU,谷歌内部性能表现优异,在部分场景优于 GPU。

同时成功走向外部市场,尤其是最新的V7版本:

●Meta,计划2026年租用 TPU,并从 2027 年开始购买超100万颗、价值数十亿美元的 TPU,用于 Llama 模型部署,通过以太网与功耗优化实现15%-20% TCO 节省;

●OpenAI 达成合作协议,将部分推理工作负载从英伟达芯片迁移至 TPU ;

●Anthropic 已承诺在 GCP 集群中使用 TPU 训练模型,2025年10月签署 100 万 TPU订单;

●Apple 2024年就采购TPU用其进行 LLM 训练;

●潜在客户:部分新兴云厂商(如 Fluidstack、TeraWulf)因 GCP 提供付款担保而尝试采用 TPU。

图:谷歌TPU有清晰的路线图资料来源:浙商证券

英伟达的真正挑战者,并非 AMD、英特尔等同行,而是谷歌这样的跨界玩家。

我们调研了解到,单颗 TPU 芯片售价预计1—1.5 万美元,定价瞄准 AMD,意图通过低价挤压竞争对手,倒逼英伟达降价。仅 Meta 一家就可能为谷歌带来 10 亿美元以上的收入。

乐观测算,到 2027 年,TPU 可能抢占英伟达15% 的训练市场份额:现有英伟达用户迁移虽需时间,但新增工作负载更易转向 TPU。Semianalysis更是预测2027年谷歌TPU(v6-v8)合计出货量达到600万颗。

这一预测并不激进 ——2027 年推理场景占比将达 50%,ASIC 将承担其中 50% 的工作负载,对应 ASIC 在算力芯片中的渗透率超 20%,而谷歌 TPU 拿下其中一半份额(当前份额 75%)难度不大。

6.来自EDA的产业链验证

上述趋势,得到了芯片行业最上游 EDA 领域的双重验证。

作为整个芯片行业最上游的EDA行业,Synopsys和Cadence最新的指引为:未来EDA 行业增长核心来自苹果、谷歌、特斯拉等 “系统公司”,而不是第三方芯片设计厂;具体来说,这类系统性客户占当前 EDA 营收的 45%左右,未来 2-3 年将超 50%。

这意味着,大厂自研芯片,并通过外售摊薄成本(如谷歌、百度、阿里)的模式,将从今年起加速推进。

03 谷歌示范效应下,大厂纷纷豪赌自研ASIC

1.成本集约、降低功耗符合第一性原理

在《马斯克说“中国将最终赢得AI竞争”,有什么深意?》一文中,我们提到,当前AI用电还只占美国用电的5%左右,到2030年AI耗电占到10%,到2035年占比接近20%,未来更加缺电。

除了增加发电容量外,降低单芯片功耗也同样关键。ASIC对于大厂而言,不仅仅是降低成本,还能降低宝贵的额功耗。

GPU 作为通用计算芯片存在 30-40% 功能冗余,必定导致功耗浪费,而 ASIC可针对特定工作负载优化,降低成本与功耗,成为大厂的必选。

主流ASIC在算力性能上已基本对齐英伟达H系列GPU,但能效比优势突出,同代际芯片具体指标对比:

●算力方面,英伟达H100 FP16算力为990 TFLOPS,谷歌TPU V6e为918 TFLOPS,AWS Trainium2为667 TFLOPS;

●功耗上,H100达700W,TPU V6e仅383W,Trainium2为500W;

●互联带宽上,H100以900GB/s领先,TPU V6e为448GB/s,Trainium2为512GB/s。

2.北美大厂近两年加速

为搭上ASIC这班高速列车,海外云厂CSP纷纷加码自研ASIC,并依托外部芯片设计合作伙伴简化落地难度,核心合作厂商包括Marvell、Broadcom、Alchip等。

这是由于大厂仅具备部分自研能力,例如谷歌、亚马逊可完成前端设计(代码编写、综合),但物理层技术(如SerDes、交换机、相干光模块)存在高壁垒,需依赖外部成熟产品与IP,后端验证、流片等体力活也需外部支持。

图:合作的ASIC厂商优劣势对比资料来源:锦缎研究院总结

谷歌已深耕 TPU 十年,前文已有详细讨论;其他北美大厂则是近两年加速跟上,动作开始变大。

亚马逊:Trainium2于2023年发布,由16颗Trainium2芯片支持的EC2 Trn2实例,性价比相较GPU-based实例高出30-40%,目前已服务超200位客户,覆盖运营商、航空、零售等领域,2024年出货量年增率突破200%,2025年预计增长70%以上,但项目有些延迟,未来将重点聚焦Trainium3芯片,投入公有云基础设施及电商平台AI应用。

Meta:MTIA系列专为推荐推理任务设计。2024年MTIA v2采用台积电5nm工艺,TDP仅90W显著降低功耗,可高效处理社交媒体内容推荐、广告优化等内部任务;2025年推出MTIA v3,将搭载HBM内存,2026年有望实现放量。

微软:2024年公布Maia 100,采用台积电5nm工艺与CoWoS-S技术,当前承载内部10%-20%工作载荷,聚焦大规模AI工作负载的成本与效率优化;随着 Maia 300 量产与 workload 适配深化,目标定制 ASIC 相较英伟达件成本节省80%,能耗成本降低 50%,长期 TCO 优化达 80%;

OpenAI:2024年曝光首颗芯片,将采用台积电A16工艺,专为Sora视频应用打造,且与博通达成100亿美元合作,联合开发专属推理芯片,目标12个月内交付。

特斯拉:计划2025年底推出下一代Dojo 2芯片,性能有望媲美英伟达B200,核心服务于Dojo训练计算机项目。xAI则是正式启动x1芯片自研,计划今年量产。

图:海外CSP巨头自研ASIC时间表资料来源:申万宏源

图:北美厂商ASIC芯片及合作伙伴梳理资料来源:东吴证券

3.国内大厂:芯片项目重要程度跳升

国内头部大厂自研 ASIC 的时间早于北美同行,但此前多为小打小闹。在谷歌 TPU 验证可行性、英伟达芯片受限的双重驱动下,ASIC 已上升为核心战略,并已取得阶段性成果。

百度昆仑芯:

昆仑芯拥有 15 年技术积累,一直锚定AI训练与推理加速的核心场景,兼容CUDA生态,目前已迭代至第三代。

昆仑芯2024年出货量6.9万片、营收20亿,2025年预计出货13万片、营收冲35亿。对外客户,实现万卡集群部署并中标中国移动10亿订单,实际上外部客户是2026年高增的主要来源,已进入中国移动、南方电网、比亚迪、招商银行、地方智算中心等供应链。

阿里平头哥:

核心产品线包括倚天、含光、PPU三类,其中PPU作为大算力芯片是市场焦点,又分为两款主力产品:高端款单颗算力超300T、显存96G,采用先进制程,仅以整机形式销售,2024-2025年合计出货估计30万张,低端款采用中芯国际12nm(N+1)工艺,由灿芯负责后道IP及接口设计,单价不超2-3万元,2026年Q1启动流片量产,预计出货50万颗。

销售模式以内部消化为主,对外销售需搭配阿里云方案,无独立适配场景,2026年PPU整体出货预计80万颗。

字节跳动:字节布局CPU与ASIC两类芯片,自研进程落后于平头哥、昆仑芯,当前采取“外采低端芯片+推进海外研发+国内先进制程排队”策略,2026年将完成海内外先进工艺设计,等待产能流片,计划2026年前实现量产。

腾讯:后发追赶,自研紧迫性较强,终止对燧原投资并重启“紫霄”自研项目,以数倍薪酬挖角顶尖人才,需求集中在游戏、AIGC、数字孪生等领域。

但相对海外巨头,国内大厂面临更大的挑战,体现在几个方面:

●主业挣钱不如海外大厂,股东对于内部芯片业务亏损不满,所以阿里百度都开始分拆上市平衡短期亏损与长期战略投入;

●先进产能资源更加稀缺,国内由于美国的封锁,中芯国际等先进制程产能供不应求;

●配套AI芯片服务厂类似博通、Marvell,由于制裁原因也很难为国内企业提供定制服务,国内相关的芯原股份、翱捷科技等在技术积累、IP沉淀、经验上都有比较明显的差距。

04 结语:AI竞争锚点之变

AI 产业的竞争,已从模型算法的比拼,延伸到算力底层的硬核博弈。ASIC 芯片凭借极致的能效比与成本优势,正在重塑全球 AI格局,成为巨头们构筑竞争壁垒的核心抓手。

没有自研 ASIC 芯片,在这场更烧钱、更考验综合实力的 AI 竞赛中,终将失去话语权。芯片已经内化成生态的一环了,我们将在此后的文章中进一步展开。

对于国内企业而言,这既是顺应产业趋势的必然选择,也是直面挑战的艰难征程。尽管在盈利能力、先进产能、产业链配套等方面面临着比海外企业更严峻的考验,但自研 ASIC 已是无法回避的战略方向。

百度昆仑芯的稳步起量到阿里平头哥的分拆提速,都宣告2026是国内大厂加速转向之年。对此我们是偏乐观的,在技术攻坚与生态构建的持续投入下,国内企业终将在全球 ASIC 赛道占据一席之地。

本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议。

本文来自微信公众号“锦缎”(ID:jinduan006),作者:海星,36氪经授权发布。

+1
2

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

狂欢的主角:到底是 AI 还是人类?

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业