一文看懂“存算一体”

鲜枣课堂·2025年08月15日 15:18
一文看懂“存算一体”

今天这篇文章,我们来聊一个最近几年很火的概念——存算一体。

为什么会提出“存算一体”?

存算一体,英文叫Compute In Memory,简称CIM。顾名思义,就是将存储和计算放在一起。

大家都知道,存储和计算,是我们处理数据的两种基本方式。自从计算机诞生以来,我们采用的主流计算架构,是著名的冯·诺伊曼架构。在这个架构中,存储和计算是两个相对独立的模块。存储负责数据的存取,而计算则负责运算。

冯·诺依曼架构

我们可以把存储理解为配菜,计算理解为炒菜。两者配合到位,才能完成菜品的制作(完成计算任务)。

理论上来说,想要出菜的速度更快,一方面,要加快炒菜的速度(通过提升芯片的算力,例如采用更先进的工艺制程),另一方面,也要加快配菜的速度。

这个速度,简单来说,就是存储设备与计算芯片(CPU、GPU等)之间的数据传输能力。如果配菜太慢,炒菜师傅就要等待,从而影响整体效率。

以前小枣君给大家介绍存储的时候曾经说过,计算机的存储,是典型的分级策略——越靠近处理器(计算单元)的存储设备,速度越快,容量越小。有缓存(1级/2级/3级)、内存、磁盘(固态/机械)、外部存储器(本地磁阵、云存储)这样的不同类型存储设备(单元)。

这是由存储设备的成本决定的。速度越快的存储设备,成本越高。全部都用最快的存储,是不现实的,价格太高昂,所以才有了逐级存储机制。

冯·诺依曼架构,我们用了几十年,因为数据存储和计算是明显分开的,所以也叫做存算分离

进入互联网时代后,由于数据量呈现爆炸式增长,对数据计算效率的要求越来越高。这种传统的架构开始暴露出能力上的缺陷。

尤其是最近这些年,AI的崛起,让数据计算强度又跃升了好几个层级。计算芯片在疯狂提速,而存储传输速率的提升跟不上,由此产生了著名的两堵墙——“存储墙”“功耗墙”

所谓“存储墙”,是指存储设备和处理器之间的数据传输速度,远远跟不上处理器的计算速度。就像炒菜师傅手艺再好,配菜师傅跟不上节奏,也只能干着急。

业内曾提出,AI运算需要的存算通道速率是1PB/s。SRAM的10-100TB/s、DRAM的40GB-1TB/s,都远达不到要求。

而“功耗墙”则是指,在数据传输过程中,能耗巨大,导致整体系统的能效比不理想。这就像是为了快速配菜,不得不请很多帮手,结果人工成本大大增加。

例如,在7nm工艺下,数据搬运的功耗占比甚至达到了惊人的63.7%,远远大于数据计算的功耗。

大家应该都听说过HBM技术

HBM(High Bandwidth Memory,高带宽内存),就是一种尝试解决“存储墙”和“功耗墙”问题的新型存储技术。像英伟达这样的芯片厂商,采用3D封装等先进工艺,将存储单元和计算单元封装在一起,通过缩短两者之间的距离,提高数据传输速度,同时降低能耗。

HBM在一定程度上缓解了问题,但并没有从根本上改变存算分离的现状。于是,业界提出了一个新的解决思路,那就是——存算一体

既然存储和计算分离会导致带宽瓶颈,那么,把存储和计算直接结合在一起,让数据在存储的过程中就能进行计算,或者在计算的过程中就能直接访问存储,从而减少数据的搬运次数,不就行了吗?

这样一来,既可以提高整体计算效率,也可以降低功耗,彻底解决“两堵墙”的问题。

实际上,我们的大脑,就是典型的存算一体结构。神经元既负责存储信息(记忆),也负责处理信息(思考)。这种结构,使得大脑能够以极高的效率处理复杂的任务,而且能耗极低。

存算一体的发展历程

存算一体的研究,其实很早就已经开始了。

早在1969年,斯坦福研究所的Kautz等人,率先提出了存算一体计算机的概念。但是,受限于当时的技术和工艺,概念仅仅停留在理论研究阶段,并未得到实际应用。

后来,为了实现存算一体,科学家们进行了大量的研究和尝试,但仍然进展缓慢。

进入21世纪后,芯片与半导体技术日趋成熟,存算一体化实现的曙光亦逐渐显现。科学家们发现,某些特殊的材料或器件,能够在存储数据的同时,在存储单元内部执行简单的逻辑运算。这将大大减少数据的搬运次数和功耗。

2010年,惠普实验室的Williams教授团队提出并验证利用忆阻器实现简单布尔逻辑功能(联合、相交、相减等)。

2016年,美国加州大学圣塔芭芭拉分校(UCSB)的谢源教授团队,提出使用阻变存储器(RRAM)构建存算一体架构的深度学习神经网络(PRIME)。相较于传统冯·诺伊曼架构方案,PRIME可以实现功耗降低约20倍、速度提升约50倍。

2017年,在微处理器顶级年会(Micro 2017)上,包括英伟达、英特尔、微软、三星、苏黎世联邦理工学院与加州大学圣塔芭芭拉分校等都推出了他们的存算一体系统原型,掀起了学术界和产业界的一股“存算一体”热潮。

最近这几年,随着AI浪潮的到来,海量的大模型训练和推理计算需求爆发,引发了算力产业的新一轮增长。存算一体,更是进入了一个高速发展的快车道。

除了传统芯片巨头在加紧研究之外,也有很多创业企业“扎堆”入场。国内有苹芯科技、后摩智能、知存科技、亿铸科技、智芯科、千芯科技、九天睿芯等。国外有Mythic、Syntiant等公司。

2023年9月,清华大学团队宣布研发出全球首颗全系统集成的、支持高效片上学习的忆阻器存算一体芯片,再次将“存算一体”推上热搜。

如今,存算一体已经成为业界最热门的研究方向,正在加速从理论研究走向产业落地。

存算一体的技术路线

接下来,我们看看存算一体的具体技术分类。

目前,业界根据存储和计算的距离远近,将存算一体分为三类,分别是近存计算、存内处理和存内计算。

●近存计算(Processing Near Memory,PNM)

近存计算,通过芯片封装和板卡组装等方式,将存储单元和计算单元集成,增加访存带宽、减少数据搬移,提升整体计算效率。

前面提到的HBM共封装,就是近存计算。

近存计算又分为存储上移和计算下移。HBM那个,属于存储上移。计算下移是采用板卡集成技术,将数据处理能力卸载到存储器,典型方案是CSD可计算存储。

近存计算严格来说仍然是属于存算分离架构。这个路线比较容易实现,现在已经广泛应用于AI、大数据、边缘计算、物联网等场景。

● 存内处理(Processing In Memory,PlM)

存内处理,是在芯片制造的过程中,将“存”与“算”集成在同一个晶粒(Die)中,使存储器本身具备了一定的算力。

存内处理本质上仍是存算分离。相比于近存计算,“存”与“算”距离更近。

目前,业内的存内处理方案大多在内存(DRAM)芯片中加“算力”,比较典型的产品形态为HBM-PIM(三星)和PIM-DIMM。这类方案适合应用于语音识别、数据库索引搜索、基因匹配等场景。

● 存内计算(Computing in Memory,ClM)

存内计算,这是真正的存算一体了(也属于业界所说的狭义的存算一体)。

在芯片设计的过程中,不再区分存储单元和计算单元,直接消除“存”“算”界限,真正实现存算彻底融合。

这个方案的主要服务场景就是AI计算。

AI深度学习算法中包含了大量的矩阵乘法运算,其本质是乘累加(Multiply Accumulate, MAC)运算。

存算一体技术可以将这些运算直接映射到存储结构中,在存储单元的核心电路上做修改,从而在读取的同时进行数据输入和计算处理,在存储阵列中完成卷积运算。这带来了极高的能效比和极低的延迟。

存算一体芯片的大致架构

存算一体的存储介质

以前小枣君给大家介绍半导体存储的时候说过,存储器分为易失性存储器和非易失性存储器。

存内计算的电路,也可以基于这两种存储器。

易失性,就是内存那种,掉电了数据就没了,例如SRAM、DRAM。

非易失性,掉电时数据不会丢失,如传统的闪存NOR Flash和NAND Flash,以及一些新型存储器:阻变存储器RRAM(ReRAM)、磁性存储器MRAM、铁变存储器FRAM(FeRAM)、相变存储器PCRAM(PCM)等。

SRAM、DRAM、Flash等都是成熟的技术,基于电荷的移动完成数据存储。

DRAM成本低,容量大,但是可用的eDRAM IP核工艺节点不先进,读取延迟(Latency)也大,且需要定期刷新数据。Flash则属于非易失性存储器件,具有低成本优势,一般适合小算力场景。SRAM在速度方面具有极大优势,有几乎最高的能效比,容量密度略小,在精度增强后可以保证较高精度,一般适用于云计算等大算力场景。

目前,针对新型存储器的研究非常热门。例如RRAM、MRAM等,基于电阻大小的变化完成数据存储功能。

新型存储器中,忆阻器(RRAM)的研究热度最高。

RRAM使用电阻调制来实现数据存储,读出电流信号而非传统的电荷信号,可以获得较好的线性电阻特性。但目前RRAM工艺良率爬坡还在进行中,而且依然需要面对非易失存储器固有的可靠性问题。

需要说明的是,存内计算主要包含模拟和数字两种实现方式。

模拟存内计算能效高,但误差较大,实现低功耗低位宽的整数乘加计算,适用于低精度、低功耗计算场景,例如端侧可穿戴设备等。模拟存内计算通常使用FLASH、RRAM、PRAM等非易失性介质作为存储器件,存储密度大,并行度高,但是对环境噪声和温度非常敏感。

数字存内计算误差低,但单位面积功耗较大,适用于高精度、功耗不敏感的计算场景,例如云端AI场景。数字存算一体主要以SRAM和RRAM作为存储器件,具有高性能、高精度的优势,且具备很好的抗噪声能力和可靠性,

存算一体的应用场景

前面已经说过,存算一体天然适合AI相关的计算场景。

自然语言处理、信息检索、图神经网络、智能决策、具身智能等人工智能应用,对算力效率以及系统能耗有极高的要求。传统的“存算分离”难以应对,存算一体则非常适合。

除了AI之外,就是AIoT智能物联网产品。碎片化的AIoT市场对先进工艺芯片的需求并不强烈,反而更关注芯片的成本、功耗、开发难度。

存算一体芯片在这些方面都有优势,非常适合采用。

在一些大算力场景,例如云端AI计算,也是存算一体的用武之地。

目前的AI计算,基本上都是GPU为主。GPU在算力和能效上都无法同时与专用加速芯片(ASIC)竞争。在云计算算力市场,GPU的单一架构也已经不能适应不同AI计算场景的算法离散化特点。例如在图像、推荐、NLP领域,都有各自的主流算法架构。

新型的存算一体芯片,具有能效优势,也适合固定场景的计算任务,应用潜力巨大。

此外,存算一体芯片还有一些其他延伸应用,比如感存算一体、类脑计算等。这些也是非常具有潜力的市场领域。

存算一体面临的挑战

存算一体的技术前景非常广阔,但是我们也必须认识到,这项技术的实现和普及还面临着诸多挑战。

首先,是来自技术上的挑战。

存算一体采用新型存储技术,对半导体工艺有更高的要求。在芯片架构、电路设计和材料选择等方面,都仍有待进一步研究和创新。

其次,是来自生态上的挑战。

存算一体技术作为一个新兴领域,其生态系统尚未完全建立。

例如,在芯片设计阶段,由于存算一体芯片区别于常规的芯片设计方案,所以目前市面上没有成熟的专用EDA工具辅助设计和仿真验证。芯片流片之后,也没有成熟的工具协助测试。在芯片落地应用阶段,没有专用的软件与之匹配。

为此,需要产业界协作,进一步提高设计工具链的成熟度,实现自动化EDA工具与跨平台编译器的支持,加强代工厂标准IP库的建设与优化多场景下的制造成本,以便提高产业链的整体协同能力。

最后,是来自市场上的挑战。

虽然存算一体技术具有广阔的市场前景,但目前市场上仍存在诸多不确定因素。存算一体芯片的架构场景通用性及规模扩展能力较差。传统存算分离架构仍占据主导地位,存算一体技术需要与传统架构进行竞争。

存内计算仅适合原本就对存储需求较大的场景,而对于本身存储需求并不高的场景,为了引入内存计算而加上一块大内存反倒会增加成本适得其反。

用户对性价比非常关注,需要考虑用户的需求和场景是否能够接受存算一体。存算一体,也要在AI的发展过程中寻找自己的落地场景。

总之,挑战还是很多的。但是,随着技术的不断进步以及业界的不懈努力,相信这些问题都会得到逐步解决。

最后的话

根据QYResearch调研团队报告《全球存算一体技术市场报告2023-2029》显示,预计2029年全球存算一体技术市场规模将达到306.3亿美元,未来几年年复合增长率CAGR为154.7%。

这是一个非常具有潜力的市场。未来几年,存算一体领域还会有更多的技术创新出现,涌现出更多优秀的企业。让我们拭目以待!

参考文献:

1、《存算一体:内核架构创新,打破算力能效极限》,势乘资本和光锥智能;

2、《存算一体白皮书(2022年)》,中国移动研究院;

3、《ChatGPT:存算一体,算力的下一极》,华西证券;

4、《消除冯·诺依曼计算架构瓶颈,存算一体未来几何?》,松禾资本。

本文来自微信公众号 “鲜枣课堂”(ID:xzclasscom),作者:小枣君,36氪经授权发布。

+1
1

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
特邀作者

鲜枣课堂小枣君

下一篇

亚马逊发布跨境电商白皮书及五十强榜单,推动产品创新,中国出口增长。

7小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业