谷歌推出第八代TPU,3倍性能、2倍带宽,搭配自研CPU
芯东西4月22日报道,谷歌推出全新自研AI芯片——第八代定制TPU,分别是面向训练的TPU 8t和面向推理的TPU 8i。
TPU 8t和TPU8i是与Google DeepMind合作设计的,旨在应对最苛刻的AI工作负载,大规模适应不断演进的模型架构,从训练大模型到协调智能体集群,再到管理最复杂的推理任务。
这是谷歌首次将训练芯片和推理芯片分开。
谷歌在博客文章中解释说,两款芯片都能运行各种工作负载,但专业化可以显著提高效率并获得收益。
TPU 8t擅长处理大规模、计算密集型的训练工作负载,以提供更大的计算吞吐量和更强的可扩展带宽,旨在将前沿模型开发周期从数月缩短至数周。
TPU 8i则拥有更高的内存带宽,专为对延迟最为敏感的推理工作负载而设计,旨在处理众多专业智能体复杂、协作、迭代的工作。
这两款芯片首次运行在谷歌自家基于Arm的Axion CPU主机上,这使谷歌能够优化整个系统,以提高性能和效率。
TPU 8t和TPU8i将于今年晚些时候正式上市,并可作为谷歌AI超级计算机的一部分使用。
谷歌打造出一个基于TPU 8t的系统,每个Pod的计算性能比上一代产品提升近3倍。
单个TPU 8t超级芯片组现已可扩展至9600张芯片和2PB共享高带宽内存,芯片间带宽是上一代的2倍。该架构可提供121ExaFlops的计算能力,并允许最复杂的模型利用单个海量内存池。
TPU 8t还集成了速度提升多达10倍的存储访问,并结合TPUDirect将数据直接拉入TPU,从而有助于确保端到端系统的最大利用率。
谷歌全新的Virgo网络,结合JAX和Pathways软件,意味着TPU 8t可以在单个逻辑集群中为多达100万张芯片提供近乎线性扩展。
此外,TPU 8t通过一套全面的可靠性、可用性和可维护性(RAS)功能,力求实现超过97%的有效吞吐量(衡量有效计算时间的指标)。
这些功能包括:对数万个芯片进行实时遥测,自动检测并绕过故障的 ICI 链路(无需中断作业),以及光路交换(OCS)技术,无需人工干预即可在故障发生时重新配置硬件。
每次硬件故障、网络停滞或检查点重启都会导致集群停止训练,而在前沿训练规模下,每一个百分点都可能转化为数天的活跃训练时间。
TPU 8i采用分层式Boardfly拓扑结构,从4张完全连接的芯片构建而成,逐步扩展为8个完全连接的电路板组,36个这样的电路板组可以完全连接成一个TPU 8i Pod。
谷歌通过4项关键创新重新设计了技术栈,以消除“等待室”效应:
(1)突破“内存墙”:为了防止处理器闲置,TPU 8i将288GB高带宽内存与384MB片上SRAM相结合, 多达上一代的3倍。
(2)得益于Axion架构,效率显著提升:每台服务器的物理CPU主机数量翻倍,并采用了其基于Axion Arm架构的定制CPU。通过使用非均匀内存架构(NUMA)进行隔离,谷歌优化了整个系统。
(3)扩展MoE模型:对于现代混合专家(MoE)模型,谷歌将互连(ICI)带宽提高了1倍,达到19.2Tb/s。其新的Boardfly架构将最大网络直径减少了超过50%,确保系统作为一个统一、低延迟的单元运行。
(4)消除延迟:全新片上集体加速引擎(CAE)可卸载全局操作,将片上延迟降低至多5倍,从而最大限度地减少延迟。
与上一代产品相比,这些创新技术每美元的性能提高了80%,使企业能够以相同成本服务近2倍的客户量。
第八代TPU也是谷歌共同设计理念的最新体现:
Boardfly拓扑结构是专门为满足当今最强大的推理模型的通信需求而设计的。
TPU 8i中的SRAM容量是根据生产规模推理模型的KV Cache占用空间来确定的。
Virgo Network架构的带宽目标源自万亿参数训练的并行性要求。
两个平台都原生支持JAX、MaxText、PyTorch、SGLang和vLLM等开发者常用的框架,并提供裸机访问,让客户无需虚拟化即可直接访问硬件。
MaxText参考实现、用于强化学习的Tunix等开源贡献,为从功能实现到生产部署提供了便捷的途径。
为了节省数据中心电力,谷歌优化了整个堆栈的效率,并集成了电源管理功能,可根据实时需求动态调整功耗。
TPU 8t和TPU 8i的每瓦性能可提升至上一代产品Ironwood的2倍。
谷歌在硬件和软件方面不断创新,使其数据中心单位电力下的计算能力提高到五年前的6倍。
TPU 8t和TPU 8i均采用谷歌第四代液冷技术,能够维持风冷无法实现的性能密度。
通过掌控从Axion主机到加速器的全栈设计,谷歌实现了系统级能效的优化。
本文来自微信公众号“芯东西”,作者:ZeR0,编辑:漠影,36氪经授权发布。















