SRAM停止微缩,怎么办?
内存延迟、带宽、容量和能耗日益成为性能提升的瓶颈。
在本文中,我们重新审视了由大量(从数太字节到拍字节规模)内存供众多CPU共享的系统架构。我们认为,扩展性(scaling)和信号传输(signaling)这两个实际的工程难题限制了此类设计。
为此,我们提出了一种相反的方法。
系统不是创建大型、共享、同质的内存,而是明确地将内存分割成更小的片,这些片与计算单元更紧密地耦合。利用单片/2.5D/3D集成技术的进步,这种“计算-内存节点”提供私有本地内存,通过微米级距离访问节点独占数据,并大幅降低访问成本。
封装内内存元件支持处理器内的共享状态,提供比封装外的DRAM更好的带宽和能效,而DRAM用于大型工作集和冷数据的主内存。通过硬件明确内存容量与访问距离,软件能够高效地构建这种内存层次结构,从而实现对数据布局和迁移的管理。
引言
一个大型分布式内存地址空间的想法颇具吸引力。它能让应用程序在单个主机之外无缝扩展,同时将缓存、一致性以及放置的复杂性留给底层系统处理。在 20 世纪 80 年代和 90 年代,这一想法以分布式共享内存(DSM)的形式得到了探索,为现代多核和多处理器系统的内存一致性模型提供了借鉴。
随着内存逐渐成为数据中心和云服务器的瓶颈,研究工作正在重新审视这些理念,以期打造新一代系统,这些系统拥有巨大的网络连接内存,且这些内存可在众多处理器间共享。本文认为,由于现代工程面临的两个障碍——扩展性和信号传输,这种做法是不可行的。这些障碍是基于物理原理的实际限制。
首先是缩放能力,指的是利用更精密的工具和复杂的制造工艺,使晶体管和电路变得更小、更便宜的能力。存储器技术的缩放已实质终结。静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM)的每字节成本均趋于平稳,且未来五年内无显著降本路径。随着逻辑器件持续缩小(尽管速度较以往放缓),存储器在系统成本中的占比日益攀升,导致配置大容量存储器在经济性与架构设计上均不具优势。我们应当着力提升存储器利用效率。
第二道障碍在于信号传输——在给定带宽下,组件间信号传输所需能量决定了内存能效与带宽必须通过与计算逻辑的深度集成来提升[1]。在芯片片内,访问远端SRAM缓存行的速度更慢且能耗更高,而跨芯片片访问成本则更为高昂。通过电路板走线访问DRAM的成本高出一个数量级;而通过CXL或RDMA访问远程内存则会增加更多开销。这些性能代价使得远程内存变得极其昂贵。
面对这些障碍,我们提出了一种不同的方法:物理可组合的分解架构。系统由计算内存节点构成,这些节点将计算能力与私有本地内存及封装内共享内存紧密集成,同时利用封装外DRAM提供大容量存储。软件通过显式组合内存系统来决定:哪些数据保留在本地,哪些在节点间共享,哪些移交至DRAM等。
2D缩放的终结:SRAM与DRAM
二维(2D)半导体缩放技术曾以更低成本实现更高存储密度与容量。然而图1显示,无论是SRAM还是DRAM,传统2D缩放都已走到尽头。DRAM的每字节成本十余年来始终停滞不前,这正是服务器规模扩大后DRAM成本占据系统成本主导地位的原因。[2] SRAM同样面临类似瓶颈:我们已无法制造更微小的SRAM单元。
对于SRAM而言,主要限制源于晶体管尺寸接近原子尺度:制造公差限制了交叉耦合反相器对的晶体管匹配度,从而降低信号裕度。计算逻辑不受此问题影响,因各级电路均可恢复数字信号。对于DRAM而言,主要制约因素在于高长宽比电容器的蚀刻成本以及确保低漏电流的复杂晶体管几何结构。更先进的制程节点虽能缩小DRAM单元的物理尺寸,却无法降低单存储单元成本。我们虽可继续制造更大容量的DRAM DIMM,但其每字节成本并不会下降。
从这些限制中得到的主要结论是:海量存储必然伴随天价成本。片上缓存的增长速度无法超越芯片面积的扩张,而现代服务器处理器已然庞大(AMD SP5达5,428mm²)。系统必须更高效地利用存储资源。
局部性=效率与带宽
更紧密的集成提升了数据在内存间传输的带宽与能效。缓存正是这一原理的典范:L1、L2和L3缓存均采用相同SRAM技术,但L1缓存通过更小的存储器银行尺寸、更精细的访问粒度以及更接近CPU核心的物理位置实现了卓越性能。
处理器插槽的DRAM带宽正缓慢提升:现代DDR5-5600内存条带宽达358Gbps,且每插槽内存条数量从8条增至12条,总带宽达4.3Tbps。然而同期,每插槽核心数量的增长已超越或匹配带宽提升幅度。图2展示了自2018年以来英特尔与AMD服务器处理器封装的单核带宽:该指标已陷入停滞。
DRAM的带宽限制和能耗问题源于其在印刷电路板(PCB)上的连接方式——该板载铜走线和凸点引脚数量有限(例如DDR5仅有288个引脚)。高带宽内存(HBM)通过改进集成技术,将DRAM芯片重新定位并紧密排列。通过在多个DRAM芯片下方嵌入封装内硅基逻辑芯片,并采用硅通孔技术连接,每组HBM3E堆栈可实现1024个引脚与更短的互连距离。这种引脚数量的显著差异直接转化为HBM的带宽优势。表1展示了更紧密的物理集成如何实现更高引脚密度、更宽带宽及更低能耗。较低的引脚密度则需要更高速度的信号电路,从而增加能耗。
这些集成限制意味着核心性能无法通过DRAM获得提升。电路板无法容纳更多DIMM模块,其引脚数量已达实际极限。铜线传输更高信号速率将带来高昂的能耗代价。
物理可组合的解耦方案
这些扩展挑战迫使我们对内存层次结构设计进行根本性重构——将关注点从原始容量转向局部性、带宽和能效。
我们提出颠覆传统内存“解耦”思路,强调更精细的计算与内存集成,并优先提升内存利用率——即使这可能导致计算利用率小幅下降。该方案的核心是计算内存节点,通过3D集成技术将计算单元与本地内存堆叠集成,典型代表是AMD的VCache设计和Milan-X处理器。
与普通缓存不同,这种私有本地内存能够采用显式管理机制,并且是专用于存储节点特有的数据(如执行栈及其他线程私有状态)。通过微凸点、混合键合、硅通孔或单片晶圆级互连实现的微米级距离访问,极大缓解了大地址空间带来的延迟、能耗和带宽瓶颈。借鉴现代多芯片处理器的实践,跨节点共享状态(如锁机制)被置于封装内共享内存(如HBM)中。尽管其速度低于私有局部片段,但仍远优于封装外DRAM的带宽与能效表现。
然而,集成度受限于物理约束(例如散热、模块尺寸等)³。大容量存储仍需依赖封装外DRAM。DRAM不再作为共享的扁平地址空间池,而是转变为面向大型工作集和冷数据的容量驱动型存储层,而性能关键型访问则通过更快的封装内分散存储器进行管理。软件需自行构建内存系统:通过抽象层将“近零距离本地内存”与“更高延迟共享层级”一并呈现,决定哪些数据保留在本地、哪些共享、哪些移至封装外DRAM,从而实现数据布局与迁移的高效管理。
本文来自微信公众号 “半导体行业观察”(ID:icbank),作者:斯坦福,36氪经授权发布。