存储猛拉,AI存力超级周期到底有多神?
在AI需求的带动下,存储行业从HBM领域延伸至传统存储领域开启了本轮全面上行周期。以美光为例,在存储产品持续涨价的带动之下,公司的毛利率已经到了相对高位。美光公司更是将下季度毛利率指引给到了66-68%,创出历史新高,这也意味着这轮存储周期的猛烈程度是高于以往的。
存储产品的涨价,其实本身也是存储市场供需关系的 反应 。本轮“供不应求”的现象,主要是由AI服务器等相关需求的带动。在当前对于本轮存储周期上行已是共识的情况下,海豚君将主要围绕以下问题展开:
1)AI服务器中各类存储都是什么角色,当前AI存储面临怎么样的问题?
2)三大原厂重视的HBM需求如何,是否存在供需缺口吗?
3)AI需求爆发的情况下,对传统存储市场的影响如何,供给能跟上吗?
AI 浪潮的爆发彻底重塑存储行业格局,带动HBM、DRAM、NAND、HDD等全品类存储产品进入全面上行周期。
从供需角度来看:①需求端,AI服务器从训练向推理的重心转移,催生了对“低延迟、大容量、高带宽”存储的差异化需求;②供给端,存储厂商资本开支向高附加值的HBM与DRAM倾斜,形成结构性供需失衡,推动产品价格大幅上涨。
本文主要先解答1和2这两个问题,至于传统市场的影响,海豚君将在下篇中继续展开。
当前AI数据中心领域的核心矛盾是“内存墙”瓶颈——算力增长速度远超数据传输速度,导致GPU等计算单元空置率高达99%。
短期来看,HBM向16-Hi堆叠升级(带宽提升至16-32TB/s)与3D堆叠SRAM的商用(延迟压缩至 2ns)形成互补解决方案;中长期则依赖存算一体架构的突破,彻底消除数据搬运的速度问题。
在当前AI存储旺盛需求的情况下,HBM依然是三大原厂最为重视的存储品类,HBM4也将在2026年开启量产。
由于三大原厂(三星、海力士、美光)的资本开支主要投向于HBM领域,2026年HBM的供应量有望增长60%以上。HBM需求量受AI芯片及CoWoS产能的影响,需求量有望提升至42亿GB左右,HBM市场将呈现出“供应紧平衡”的状态。
下文将深入拆解存储层级的核心角色定位、破解“内存墙”的技术演进路径,并对HBM这一细分市场的供需情况等方面展开全景解析,而在下篇文章中将围绕传统市场继续展开,更清晰看到本轮AI 需求点燃的存储行业超级周期。
以下是详细分析
01 AI服务器带来了怎样的存储大周期?
AI存储在服务器中的角色:
回归计算机存储最原始两大性能维度:a. 存储,作为数据仓库,解决是仓库到底有多大的问题;b. 延迟和带宽,解决的是数据存入和取出的速度问题。
按这两个维度,目前整个大存储行业产品大致可以分为四大类——HBM、DRAM、NAND和HDD。
其中,HBM完全基于AI GPU而生的全新需求,通过Cowos封装技术,是是一个放在GPU“脑壳”的产品,延迟极低;而DRAM(简单理解内存条)读取时间延迟也比较短,是更靠近但独立于算力端(GPU、CPU)的“热存储”,这两者其实都同属于大类DRAM;而HDD虽然延迟较高,但具有大容量的“冷存储”。
各类存储产品在AI服务器中都是什么角色呢,具体来看:
a)HBM:和GPU芯片3D堆叠在一起,是GPU的“专用显存”,具体高带宽、高功耗的特点,价格也相对较高。HBM是AI服务器的“性能天花板”,决定单GPU可承载的模型规模与响应速度。
b)DRAM(DDR5):是数据交换枢纽,由CPU和GPU共用,连接着HBM与NAND的“桥梁”。虽然DDR5的速度比HBM慢一些,但容量大了很多倍。DDR5是AI 服务器的“内存基石”,其容量决定单服务器可同时处理的任务数,是处理并发任务的核心。
c)NAND(SSD):是热数据仓库,高频访问数据的“快速持久层”,连接着DRAM 与 HDD。作为AI 数据中心的“性能-容量平衡者”,SSD是训练数据“快速补给站”,也是推理服务“快速响应核心”。
d)HDD:海量冷数据的低成本容器。HDD虽然带宽最低,但具有大容量、成本低的特点,适合低频使用、长期存放存放的“冷数据”。HDD是AI数据中心的“容量基石”,决定整体数据存储规模。
由此可见,一条很清晰的AI服务器数据流动路线:HDD的冷数据->SSD预热->DRAM中转->HBM配合计算,其中的各个部分在训练和推理服务器中都是所需要的。
当前AI存储呈现什么样的特点
本轮存储大周期完全是由AI需求带动,因而对AI存储的表现也应该主要从下游AI服务器的市场情况入手。
和上半年相比,AI服务器领域明显出现了一些变化:
a)AI从训练向推理迁移:
①训练像是“一次性投入”,而推理更是商业化落地的“刚需场景”;
②训练端对性能的要求更高,成本随着性能提升是增加的,而推理具有规模效应,可以通过批量处理来实现成本的摊薄。
在谷歌Gemini给出了不差于GPT的性能表现后,让市场重新思考英伟达GPU领先的性能优势在大模型实际应用中体现并不明显。尤其在当前AI向推理端侧重的趋势下,通过大规模化能获得规模优势,定制ASIC芯片在推理端也是完全可以胜任的。
相比于AI训练服务器,AI推理服务器相对更注重于DDR(并发任务)、SSD(快速响应)和HDD(大容量)。
b)算力转向存力:之前市场关注点主要在算力,认为算力越强大,模型的反应速度也会更快。但其实在算力之外,还是需要存力来“投喂数据”的。如果存储端“吐数据”的速度跟不上计算端,就会出现算力“冗余”的情况,这也是目前市场中所关心的“内存墙”问题。
“内存墙”瓶颈:大模型到推理阶段,需先从HBM加载模型权重(GB 级)与KV缓存(GB 级)到GPU缓存,再执行计算——计算本身仅需微秒级,但数据搬运则需要毫秒级。
以H100为例,HBM 带宽3.35TB/s,单Token的计算时间是10微秒,但生成这一个Token,需要加载整个模型权重,假如是10GB模型权重+20GB KV缓存,从HBM要把这些数据加载到GPU的搬运时间大约需要9毫秒,计算闲置时间将近99%,也就是9毫秒/(9毫秒+0.01毫秒)。【其中:空置率=等待时间(数据搬运+内核启动)÷全流程耗时×100%】
当前现状下,对AI存储需求的影响
从上文来看,AI服务器当前现状下,也延伸出了对AI存储在两个方面的需求变化,一方面是推理服务器对DDR、SSD和HDD的需求将会相对更多;另一方面是“内存墙”的瓶颈,需要压缩传输距离、提高传输速度,进而减少“等待时间”。
在英伟达收购Groq之后,市场中也有“SRAM替代HBM” 的声音(注:GPU芯片内部有L1/L2缓存和寄存器,SRAM就是L2缓存,是连接外部HBM的总枢纽。)。
而在CES 2026中,黄仁勋也给出了回应,“虽然SRAM的速度比HBM快很多,但SRAM的容量还是偏小的(相较于HBM)”。
由此推测,海豚君认为即使SRAM开启量产,仍将主要是以“SRAM+HBM”的形式,并不会在短期内实现对HBM的替代。
针对于“内存墙”,目前主要有三个方法来应对:
①HBM(提高传输速度):拉堆叠层数,从12-Hi往16-Hi升级,在存储容量提升的同时,传输速度有望从B300(8TB/s)提升至16-32TB/s,从而减少数据排队等待时间;
②SRAM(压缩传输距离):3D堆叠SRAM通过垂直堆叠多层 SRAM 芯粒,将KV缓存、模型轻量权重直接放在计算单元“随身口袋”(片上或近片存储)。等到SRAM量产后,将转为“SRAM+HBM”的形式(SRAM负责“快”,HBM负责“多”),这有望将延迟从100ns大幅缩短至2ns附近。
正如近期英伟达收购Groq,就是看重其3D SRAM方面的能力,当前该领域的核心厂商有台积电、Groq、三星等。按市场预期,在2026年下半年英伟达下一代的Rubin芯片中有望融入Groq技术,从而实现存力端的提速。
③存算一体:主要嵌入把部分算力嵌入存储内部,从而实现算力冗余的消除、存力效率和能效比的提升。目前尚未在数据中心场景实现落地,按预期在2027年及之后有望逐渐成为解决“内存墙”困扰的一个途径。
数据中心及AI当前阶段的重心已经从算力逐渐转向存力,而在遇到的“内存墙”问题中,HBM迭代升级和SRAM的应用,将是短期内减少“等待时间”的有效方式。中长期角度来看,打造“存算一体”的产品未来会成为解决“内存墙”问题更好的“答案”。
附:英伟达收购Groq,主要是对人才的收购,同时获得Groq全部核心IP(LPU架构、TSP微架构、编译器技术)与硬件资产使用权。Groq创始人Jonathan Ross(谷歌TPU创始成员)及90% 核心工程团队加入英伟达,由Simon Edwards接任Groq新CEO。
这一方面能通过融合SRAM技术,从而提升英伟达在AI推理方面的能力;另一方面也是一次防御性收购,避免Groq相关技术落入到了其他竞争对手之中。
02 HBM市场:升级至HBM4,供需紧平衡
AI进入推理落地阶段,“内存墙”困境难解的情况下,HBM依然是缓解“等待时间”的一个有效方式。因而,当前三大存储原厂(三星、海力士、美光)将资本开支的重心依然投向于HBM领域。
受益于AI需求的影响,HBM是其中最为直接的增量需求( “从无到有”的需求创造)。由于HBM基本都是搭载在AI芯片上配套出货,那么HBM的需求量也是与AI芯片的出货情况直接挂钩。
从当前主流的AI芯片(英伟达、谷歌、AMD)来看,基本都搭载了HBM3E。在三星的HBM3E通过英伟达认证之后,也已经跟了上来。目前三家厂商都开始对HBM4进行送样,当HBM4顺利量产,下一代AI旗舰芯片也将陆续配备新一代的HBM4产品。
虽然HBM是AI服务器率先带动的需求,但HBM的供需状况却不是最紧张的,而其中的一部分原因正是存储厂商近年来高增的资本开支主要都投向于DRAM,尤其是高端产线HBM的扩产。
这在核心厂商的表态中也能看出,①海力士:投入增加以应对M15x的HBM4产能扩张;②三星:投入将主要用于HBM的1c制程渗透及小幅增加P4L晶圆产能;③美光:专注于1gamma制程渗透和TSV设备建置。
HBM供给端:产能->产量
HBM的主要供应商来自于海力士、三星和美光这三家公司,HBM市场的供应量也将主要取决于三家公司的HBM产能情况。
从上文中能看到,存储厂商的资本开支主要集中在HBM领域,这也带来了HBM产能端的快速爬坡。根据公司情况及行业面信息,当前三家公司合计HBM的月产能约为39万片左右。其中海力士和三星的产能相对领先,而美光的产能规模相对较少。
随着三家核心厂商的资本投入继续增加,HBM的月产能至2026年末有望继续提升至51万片左右,年增12万片左右的产能。
值得注意的是,HBM的产能情况并不等于出货量表现。参考三星,它的HBM产能虽然相对较高,但由于公司在HBM3E工艺中良率偏低并迟迟未能实现对英伟达的供货,因而三星的HBM实际出货量的占比下滑至了3成以下。
当前HBM市场的份额中,海力士占据将近一半的份额,而美光和三星相对接近。而随着三星的HBM3E产品在四季度获得了英伟达的认证,三星公司的HBM产能利用率和出货份额也将有所回升,有望实现了对美光的反超。
对于HBM供应端的测算,主要结合产能和良率来估算。因为HBM基本由三大核心厂商(海力士、美光、三星)垄断,HBM的产能部分也将主要考虑这三家公司的情况。
从上文的三家公司合计产能来看,2025年四季度的HBM月产能约为39万片,至2026年四季度HBM的月产能有将达到51万片。考虑到产能爬坡因素,海豚君预估2026年HBM的合计总产能有望达到543万片。
由于单片12寸晶圆(直径300mm),大约能切割出514颗等效3GB的HBM颗粒(考虑切割及边角料损失)。
那么543万片的HBM产能大约能切出27.9亿颗的HBM颗粒(等效3GB),在50%综合良率的情况下,2026年三家核心厂商大致能提供41.9亿GB的HBM供应量。
HBM需求端:CoWoS->AI芯片->HBM
因为HBM基本都配备在AI芯片之上,而AI芯片又都需要CoWoS封装。因此在对HBM需求量的估算中,将具体通过“CoWoS->AI芯片->HBM”的方式进行。
结合行业及市场预期的情况看,在2026年的CoWoS分配中英伟达仍占据着最大的份额(占据总量的一半以上),谷歌、AMD和亚马逊也是CoWoS较大的下游客户。假定下图中所列的核心客户占据了90%的CoWoS需求,那么全球CoWoS在2026年的全年需求量大约在128万片左右。
在CoWoS量的基础上,再来测算AI芯片的出货量。以英伟达B300为例,由于单个CoWoS封装晶圆面积大约能得到14个左右B300芯片(28个裸芯),那么B300的35万片CoWoS产能分配大致对应490万个B300芯片。
单个B300芯片配备8个HBM3E,而每个HBM3E都为36GB的容量,因而单个B300需要288GB的HBM3E。那么490万个B300芯片,则需要14亿GB的HBM。
将谷歌、AMD等各家的AI芯片都以此方式来预估,可以得到2026年全年的128万片CoWoS产能大致对应了42亿GB的HBM需求量。
HBM的迭代升级是短期内缓解“内存墙”的方式之一,综合上述HBM的供应量(41.9亿GB)和需求量(42.1亿GB)来看,2026年的HBM市场是相对紧张的,这主要是在三大存储原厂大力扩产之下,呈现出了紧平衡的状态。
本文主要介绍了各类存储在AI服务器中的角度以及HBM的供需情况,而下篇文章中将继续围绕AI对传统存储领域的影响展开。
本文来自微信公众号“海豚研究”,作者:海豚君,36氪经授权发布。















