替代英伟达,亚马逊AWS已部署超过100万枚自研AI芯片

半熟财经·2025年12月03日 17:59
在单卡性能不足的情况下,亚马逊AWS通过提升服务器集群算力、带宽的方式缩小了和英伟达的差距。

(亚马逊AWS CEO马特·加曼在re:Invent 2025发布Trainium 3)

作者按:re:Invent是全球最大云厂商亚马逊AWS一年一度的战略和技术大会。re:Invent 2025于12月1日-5日在美国拉斯维加斯召开。我们在现场,记录美国云计算行业这一年最新的变化。

以下是正文:

美国西部时间12月3日,全球最大云计算厂商亚马逊AWS在re:Invent 2025发布了新款AI芯片和新款自研模型。

亚马逊AWS CEO(首席执行官)马特·加曼(Matt Garman)宣布,亚马逊AWS自研的AI芯片Trainium 3已经上线,这是一款3nm(纳米)工艺制程的芯片。亚马逊AWS下一代AI芯片Trainium 4也在研发设计阶段。

亚马逊AWS还发布了Amazon Nova 2系列的自研模型。其中包括Lite(轻量化版)、Pro(专业版)、Sonic(声音模型)、Omni(多模态推理模型)这四款模型。目前Amazon Nova系列已有数万企业客户,包括海信、印孚瑟斯(印度第二大IT企业)等。

01

亚马逊AWS已部署百万枚自研AI芯片

马特·加曼提到,目前亚马逊已经部署了超过100万枚Trainium系列AI芯片。Trainium芯片每年为亚马逊AWS带来了数十亿美元的收入。

部署这些芯片需要庞大的电力资源。亚马逊AWS过去12个月新增了3.8GW(GW,即吉瓦是功率单位。1GW算力集群可容纳20万枚英伟达GB200芯片)算力。亚马逊AWS目前的算力电力容量是2022年的两倍,2027年还将再次翻倍。

Trainium 3每兆瓦电力能产生的Token(词元,大模型算力计量单位,一个Token可以是单词、标点、数字、符号等)数量是上一代芯片的五倍。亚马逊AWS公布的信息显示,Trainium 3与其他产品相比,训练成本最多可降低50%。

亚马逊发布的路线图显示,亚马逊AWS下一代AI芯片Trainium 4在FP4(一种数据精度,比FP8、FP16更节省算力)计算精度下的性能相比Trainium 3将提升6倍以上。

Trainium系列芯片不直接对外销售,而是通过云服务的方式提供给企业客户。目前使用Trainium系列芯片的企业包括大模型创业公司Anthropic、数据库公司databricks等企业。其中Anthropic 2025年底将使用超过100万个 Trainium 2的算力集群,来运行它的Claude系列模型。

亚马逊AWS表示,搭载Trainium 3的Trn3 UltraServer服务器,集成了144枚芯片,总算力高达362PFlops(每秒浮点运算次数)。它的整机性能甚至超过了英伟达的旗舰芯片服务器Blackwell GB200 NVL72。但按单卡性能计算,Trainium 3仅为GB200的56%。

但这是亚马逊用系统堆料弥补单卡差距。在单卡性能不足的情况下,亚马逊AWS通过提升服务器集群算力、带宽的方式缩小了和英伟达的差距。

(Trainium3 UltraServer服务器机柜)

一位亚马逊AWS人士曾对《财经》表示,从2021年自研AI芯片至今,亚马逊AWS已经坚持了五年。为了降低算力成本,减少对英伟达的替代,这个战略不可能动摇。

亚马逊AWS的自研芯片战略可以追溯到2018年。当时在英特尔、AMD的CPU(中央处理器)占主流的阶段,亚马逊AWS就开始自研Graviton系列CPU芯片。目前Graviton系列芯片历经7年,已发展至第四代。

近三年,Graviton系列芯片已经成功替代英特尔、AMD,在亚马逊AWS新增CPU算力中占比超过50%(详见《多自研少采购,亚马逊超50%新增算力来自自研芯片》)。Graviton系列芯片的客户甚至包括苹果、全球最大的ERP(企业资源管理)软件企业SAP等公司。

02

云厂自研芯片,替代英伟达

亚马逊AWS等云厂商自研AI芯片的一个重要目的是,降低芯片的TCO(总拥有成本)。

截至2025年,英伟达在全球AI芯片市场占据超过60%的市场份额。2025年英伟达的综合毛利率69%。这意味着,亚马逊AWS、微软Azure、谷歌GCP等云厂商每采购一枚英伟达的芯片,60%以上的成本都变成了英伟达的利润。

一位资深算法工程师今年10月曾对《财经》表示,英伟达在AI芯片市场赚取了超额利润。目前大部分科技公司都不想完全依赖英伟达的AI芯片。其中一些科技公司选择了ASIC(专用集成电路)技术路线,这可以根据自己的业务特点高度定制AI芯片。这为替代英伟达提供了可能性。

云厂商的自研芯片一旦实现量产,它的边际成本会逐渐降低,逐渐接近台积电的代工成本。在理想情况下,甚至可以只用英伟达同等规格芯片三分之一的价格获得自研芯片。这也是亚马逊、谷歌、阿里巴巴、百度都在自研AI芯片的重要原因。

今年11月28日,全球半导体分析和研究机构SemiAnalysis在一份有关谷歌TPU v7(张量处理单元,即谷歌自研的AI芯片)芯片的成本分析报告中详细计算了谷歌TPU v7的运行成本。

谷歌内部使用的TPU v7运行成本为1.28美元/小时,只有英伟达GB200(英伟达在销旗舰芯片)2.28美元/小时的56%。谷歌在云上对外服务客户时需要加上利润空间,届时TPU v7的运行成本仅为1.6美元/小时的成本,依旧只有英伟达GB200的51%。

目前,成功自研AI芯片并规模化替代英伟达的云厂商包括亚马逊、谷歌。谷歌的TPU的出货量甚至比亚马逊的Trainium系列还要高。

摩根士丹利2025年11月一份名为《全球AI供应链更新》的研报称,谷歌TPU系列芯片在2023年—2025年的出货量分别是50万枚、240万枚、175万枚。该报告预测,谷歌在2026年TPU出货量将达到300万枚。

亚马逊Trainium系列超过100万枚的部署量,谷歌TPU系列超过200万枚/年的部署量,意味着这两家云厂商已经在英伟达占据主导的市场中,撕开了一道口子。

2025年,英伟达AI芯片年出货量超过600万枚。今年10月29日,英伟达创始人黄仁勋曾在GTC华盛顿特区峰会披露英伟达的芯片销量情况。

上一代Hopper系列(H100、H200、H20系列),2023年-2025年整个生命周期(约为2023年初-2025年10月)共交付了400万枚GPU(图形处理器)。

英伟达目前主力旗舰芯片Blackwell系列(GB200、GB300)量产的三个半—四个季度(约为2024年10月中旬-2025年10月),共交付了600万枚。接下来的五个季度,英伟达还有2000万枚Blackwell和Rubin(英伟达下一代旗舰芯片)系列芯片需要交付。

2025年9月,高盛曾在研报中预估,2025年-2027年全球AI芯片需求量分别为1000万颗、1400万颗、1700万颗。其中,英伟达的GPU芯片市场占比将从62%降至55%。

本文来自微信公众号“半熟财经”(ID:Banshu-Caijing),作者:吴俊宇,编辑:刘以秦,36氪经授权发布。

+1
5

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业