HBF要火,AI浪潮的下一个赢家浮出水面:闪存堆叠成新趋势
虽然三星的 HBM4 还没有通过英伟达的验证,但就在上周五(9 月 19 日),三星的 12 层 HBM3E 终于通过了英伟达的测试认证,也意味着即将成为英伟达 GPU 的 HBM 供应商之一。
一石激起千层浪。
AI 的火热不只是让人们争相讨论大模型和算力芯片,也彻底点燃了对内存的需求。过去几年,HBM(高带宽内存)成为了这场浪潮里最受追捧的「隐形明星」。没有它,就没有英伟达 A100、H200 以及其他 AI 芯片的爆火,也也不会有无数大模型在短时间内跑出来并且迅速迭代。
正因如此,HBM 供不应求,几乎成了半导体行业的「硬通货」,也让 HBM 主要厂商 SK 海力士一举超越三星,成为全球最大存储芯片制造商。
收入榜,图片来源:TrendForce
但问题随之而来,HBM 的速度没问题,带宽够快,延迟够低,可容量依然有限,成本居高不下。AI 模型越大,对内存的胃口越夸张,单靠 HBM 很难满足未来几年全球 AI 推理的庞大需求。尤其以 DeepSeek 为开端,MoE 模型(专家混合模型)减小了对算力的要求,内存墙的问题变得更加突出。
而在本月早些时候,被称为「HBM 之父」的韩国科学与技术研究院教授金正浩表示,未来决定内存行业胜负的将会是 HBF(High Bandwidth Flash,高带宽闪存)。
这并非空穴来风。作为 HBM 的最大玩家,SK 海力士已经和闪存领域的代表闪迪走到了一起,公开宣布联合开发 HBF 技术,并推动行业标准化。但 HBF 到底是什么?当 HBM 不再够用,HBF 能否成为下一个接力棒?
图片来源:闪迪
内存堆叠换闪存堆叠,HBF如何做到的?
在解释 HBF 之前,先得把 HBM 摆在桌面上。HBM,全称高带宽内存,可以理解为「GPU 专用的豪华内存」。它的特点是把多层 DRAM 芯片像「积木」一样堆叠在一起,然后通过超宽的接口直接连到 GPU 上。这样一来,数据进出的通道变宽了,传输速度自然暴涨。比如英伟达 H200 搭载的 HBM3e,单卡内存带宽达到 4.8 TB/s,比普通 DDR 内存快几十倍。
问题在于,HBM 像跑车一样速度惊人,但油箱太小。它的容量往往停留在几十 GB 级别,即便 SK 海力士即将量产的 HBM4 单壳最高也只能做到 36GB(未来可达 64GB),而大模型的参数动辄上千亿。更现实的问题是,HBM 的成本极高,良率低、产能有限,直接导致一块 GPU 动辄数万美元,成为 AI 行业的瓶颈。
HBF(高带宽闪存)正是在这种背景下备受关注。简单理解,HBF 就是把 NAND 闪存堆叠起来,用类似 HBM 的封装方式,让它既能像内存一样高速读数据,又能像硬盘一样存更多内容。它的目标并不是完全取代 HBM,而是作为「容量补位」:
HBM 继续承担最关键、延迟最敏感的工作,而 HBF 则用来装下超大模型的权重、KV Cache 等「吃容量」的部分。
HBF 结构图,图片来源:闪迪
换句话说,HBM 是短跑冠军,HBF 是长途卡车,两者搭配,才能既快又大。这也是「HBM 之父」看好 HBF 的核心理由。
韩国科学技术院(KAIST)教授金正浩,被誉为「HBM 之父」,他正是当年提出把内存芯片竖着堆叠的关键人物。在 9 月初的演讲中,他认为内存行业未来的胜负手将会是 HBF,逻辑并不复杂,AI 的趋势已经从算力中心转向内存为中心,算力的增长再快,如果数据塞不进去、模型放不下,都会卡住脖子。
而 HBF 刚好能补上 HBM 的容量短板,让系统既保持高带宽,又能拥有更大的可用空间和更低的成本。
这番话并不只是他的个人看法。在 8 月举行的 FMS 未来存储峰会上,闪迪透露了近两年开发的 HBF,并且宣布与 SK 海力士推动 HBF 的技术标准化。SK 海力士的优势在于封装和堆叠工艺——这正是 HBM 成功的关键;闪迪则是 NAND 闪存领域的长期玩家,拥有独特的直键合工艺。
更关键的是,HBF 在设计之初就针对 AI 推理的特点:读多写少、批量顺序访问。AI 模型在推理时,几乎不改动权重,主要是高速读取;这让 NAND 的「写入短板」不再是致命问题,而它的高密度、低成本、稳定性则被发挥到极致。
不断拉长的上下文长度,也在吞噬存储,图片来源:闪迪
因此,金正浩的判断、SK 海力士的布局、闪迪的押注,其实都在指向一个共同逻辑:AI 的未来需要的不仅仅是更快的存储,还需要更大的存储池。HBM 已经把速度推到极致,但如果没有 HBF,AI 的发展迟早会撞上天花板。
从这个角度看,HBF 不仅是一个新技术点,更可能是整个 AI 硬件架构变革的核心动力。
HBF彻底改变AI存储:从数据中心到消费终端
HBF 的落地并不是遥不可及的未来。按照闪迪和 SK 海力士的路线规划,2026 年下半年就会有首批 HBF 样品出现,2027 年初预计会有搭载 HBF 的 AI 推理设备面世。这意味着,它最快会在两年内走出实验室,成为真实的硬件产品。
那么,这些首批设备会是什么?最有可能的,是 GPU 厂商和服务器厂商率先尝鲜。以英伟达 H200 为例,是全球首款使用业内最先进 HBM3e 显存的 GPU,配备了 141 GB 的 HBM3e,成本极高。而 HBF 就像是为 GPU 接上了一个「外挂油箱」,不仅能让更多模型一次性装进来,还能大幅减少频繁从 SSD 调数据的延迟。
但 HBF 的意义并不止于数据中心。在边缘设备和个人计算领域,它同样可能带来巨大的改变。
今天我们看到 AI PC、AI 手机都在强调设备端运行大模型,可现实是,终端设备的内存远远不够支撑上百亿参数的模型。HBF 如果能以小型化模组、甚至与处理器一体封装的方式进入终端,就有机会让用户在本地调用更大的 AI 模型,带来更流畅的语音助手、更聪明的生产力工具,甚至真正可离线运行的 AI 应用。
图/微软
更重要的是,HBF 的成本和功耗优势,使它天然适合在终端场景扩展。HBM 成本高昂、功耗居高不下,而 HBF 基于 NAND 闪存,密度更高,单位容量价格更低。对于笔记本电脑、智能手机甚至 XR 设备来说,如何在有限的空间和电池里提供更强的 AI 能力?HBF 给出了一个现实的答案:
在云端,它缓解 GPU 内存瓶颈,让超大模型能够跑得更高效;在终端,它可能成为 AI 普及化的关键一步。
当然,短期内我们还很难看到 HBF 落地在边缘终端或者个人计算平台上,但通过 AI 数据中心的大规模更新,HBF 仍然会在未来几年改变 AI 的推理,进而改变我们的 AI 体验。
写在最后
从 HBM 的爆发,到 HBF 的登场,我们其实看到的是同一个趋势:AI 已经把内存和存储推到了舞台中央。没有 HBM,就没有今天的算力繁荣;而如果没有更大、更便宜、更低功耗的存储介质,AI 的未来也可能被「卡脖子」。
HBF 之所以值得期待,不是因为它要全面取代 HBM,而是它补上了一个关键缺口——容量。它让 GPU 不再像背着小油箱的跑车那样捉襟见肘,也给未来的 AI PC、边缘计算带来了想象空间。当速度与容量形成合力,AI 的运行方式很可能会被彻底改写。
但问题也随之而来:
- HBF 真能像 HBM 一样,从技术概念变成行业标配吗?
- 在数据中心率先落地之后,它能否顺利走向个人计算终端?
- 当存储不再是瓶颈时,下一个掣肘 AI 的环节,又会是什么?
这些问题的答案,或许要等到 2027 年 HBF 首批设备面世后才能揭晓。但可以肯定的是,定义 AI 的边界,不只是算力,还在于储存。而这场比赛,才刚刚开始。
本文来自“雷科技”,36氪经授权发布。