LPDDR6，大战已打响

半导体行业观察·2026年06月17日 12:35

三星SK海力士推不同优化方向LPDDR6芯片

三星和SK海力士在ISSCC 2026上发表的论文表明，尽管LPDDR6标准几个月前才获得JEDEC的批准，但两家公司都已拥有可用的LPDDR6芯片。随着技术的进步，近期机器学习工作负载的需求不断增长，对高容量、高速内存的需求日益迫切，而各种设备的吞吐量都面临着瓶颈。对于智能手机和笔记本电脑等小型设备而言，这意味着内存子系统是限制设备运行功能强大且最新的片上模型的最大因素之一。

两家公司在 ISSCC 2026 上展示的内容远比表面看起来更有意思。虽然三星和 SK 海力士都带来了可用的芯片，但它们在各自的设计和优化方向上却做出了截然不同的选择。三星采取了一种更为稳健的速度和带宽策略，通过多种方式牺牲纯粹的性能来换取功耗优化。

而 SK 海力士则利用其最新的 1 纳米工艺节点，直接冲击JESD209-6 规范中规定的 14.4 Gbps 带宽上限。这两篇论文共同为我们提供了首个详细且经过独立验证的 LPDDR6 在实际芯片而非纸面上的性能表现。

当前LPDDR家族简介

LPDDR5 最初于 2019 年发布，其峰值数据速率为每引脚 6,400 Mb/s，约为 LPDDR4X 的两倍。LPDDR5X 于 2021 年紧随其后，峰值数据速率达到 8,533 Mb/s。随后，SK 海力士将数据速率提升至 9,600 Mb/s，推出了后来被称为 LPDDR5T 的产品。三星最终更进一步，在 12nm 工艺下验证了 LPDDR5X 在 Dimensity 9400 平台上的 10,700 Mb/s 速率。下表展示了从 LPDDR4X 到目前的 LPDDR6 内存，其峰值数据速率和单芯片带宽的代际提升情况。

上述所有世代（LPDDR4X 至 LPDDR5X）均采用 16 位通道，这意味着无论数据速率如何提升，内存和处理器之间的连接宽度始终保持不变。LPDDR6 则将其改为更宽的 24 位通道，这或许比单纯的速度提升更为重要，因为它意味着构建一个能够同时支持 LP5 和 LP6 模式的统一控制器将变得十分困难。

LPDDR6 将其 24 位通道组织成每个芯片两个 12 位子通道，这会对内存的实际运行方式产生影响。每个 12 位子通道独立处理自身的数据，使内存控制器在处理请求时拥有更大的灵活性，并允许更小的访问粒度，每个子通道 32 字节（LPDDR5 为 64 字节）。对于生成大量较小且通常不规则的内存请求（而非大型顺序请求）的 AI 工作负载而言，这意味着随机内存访问应该会更加高效，因此理论上可以减少因获取超出工作负载实际需求的数据而花费的时间。

对于计划用于移动设备的新型AI工作负载而言，LPDDR5X的带宽已显得捉襟见肘，而更高数据速率和更宽总线宽度的结合则直接解决了这个问题。设备级AI模型需要内存子系统能够快速且稳定地传输大量数据，而LPDDR5X的传输速率为8,533 Mb/s（16位），每个芯片的峰值带宽约为17 GB/s。根据SK海力士在ISSCC 2026上的披露，LPDDR6在更宽的24位通道上，峰值传输速率可达14,400 Mb/s，每个芯片的带宽最高可达38.4 GB/s。这比LPDDR5X提升了约2.25倍，比LPDDR5提升了3倍以上。

在继续之前，让我们先熟悉一下 JEDEC 去年发布的 JESD209-6 规范中规定了什么。

官方的JEDEC JESD209-6规范定义了每引脚14,400 Mb/s的峰值数据速率，入门级产品起步速率为10,667 Mb/s。但实际情况远不止峰值数据速率这么简单。正如SK海力士所披露的，实际峰值带宽仅为每芯片38.4 GB/s，而非数据速率乘以总线宽度所得到的理论最大值43.2 GB/s。

除了带宽之外，与 LPDDR5X 不同，LPDDR6 将片上纠错功能 (ECC) 强制化，而非可选。这意味着纠错操作现在在数据到达处理器之前就在内存阵列内部完成。LPDDR6 还引入了每行激活计数 (Per Row Activation Counting) 技术，用于防御 Rowhammer 漏洞。Rowhammer 是一种众所周知的内存漏洞，重复访问同一内存行会导致相邻行的数据损坏。此外，新的动态效率模式在低带宽运行时会将接口限制在子通道上，从而显著提高能效，这对移动设备至关重要。

SK海力士基于1cnm工艺打造的16Gb LPDDR6

SK海力士在ISSCC展会上展示了其16Gb LPDDR6内存，采用1cnm工艺，是其10nm级DRAM系列的最新一代产品。图15.7.7中的芯片显微照片汇总表直接证实了其主要性能参数：单引脚传输速率高达14.4 Gbps，总带宽达38.4 GB/s。该芯片采用两条独立的电压轨：一条较高电压轨用于传输对速度要求极高的数据，另一条较低电压轨用于传输其他所有数据。这是SK海力士在不同工作条件下有效管理功耗的关键所在。

更确切地说，该芯片本身工作在两种不同的电压水平下。高压轨 VDD2C 的工作电压为 1.025V，而低压轨 VDD2D 的工作电压为 0.875V。VDD2C 是关键部分，它需要更多功率才能实现每个引脚 14.4 Gbps 的最大带宽，而 VDD2D 则用于处理其他所有数据传输。

SK海力士声称，与LPDDR5相比，其产品能效提升超过20%，单通道带宽更高。通过对内存芯片的不同部分施加不同的电压来提高能效，SK海力士还声称其带宽比LPDDR5提升了3倍。

上图更清晰地展示了双子通道设计的日常运行方式。SC0 是主子通道（sub-channel），运行着所有有源逻辑，SC1 与之镜像对称。然而，在节能模式下，整个辅助模块断电，SC0 完全控制所有 32 个存储体。在这种特定状态下，单子通道以 12.8Gbps 的速率运行，待机电流降至正常模式的 87.3%，运行电流降至正常模式的 81.1%。实际上，器件绝大部分时间都处于这种状态，这意味着这些数值比峰值数值更为重要。

SK海力士在这份报告中重点关注的是如何管理速度范围两端的功耗，而不仅仅是峰值功耗。LPDDR6中的CA（命令和地址）总线负责告知内存执行什么操作以及在何处执行，其工作频率在1.6 GHz到3.6 GHz之间，大约是LPDDR5的三倍（SK海力士指出），这给多级配置（即多个芯片共享CA引脚）带来了真正的挑战。

为了解决这个问题，SK海力士将工作频率范围划分为三个频段，每个频段都配备独立的缓冲器，并根据工作条件选择性地激活这些缓冲器。结合快速的CS控制方案（该方案在低速运行时能更高效地控制CA信号路径），低频待机电流降低了42%，中频待机电流降低了19%。对于一款大部分时间都处于空闲状态的设备而言，这才是真正节能的关键所在。

上图中的 Shmoo 图显示了 SK 海力士针对该数据速率设定的功耗和电压目标。对于不熟悉 Shmoo 图的人来说，它是一种可视化表示芯片在不同电压和时钟频率下性能合格和不合格情况的图表。这让我们能够更清晰地了解芯片的实际工作范围，以及它是否已经达到性能极限。在 VDD2C 为 1.025V 时，SK 海力士的器件能够达到 14.4 Gbps 的合格标准，这也是 JEDEC 的上限。

将电压降至 0.950V 会导致带宽回落至 10.9 Gbps。这表明 SK 海力士的 1cnm 工艺需要额外的电压余量才能在不降低性能的情况下以峰值速度可靠运行。如果没有这个余量，性能会急剧下降。这是 SK 海力士的第一代 LPDDR6 内存，对于新的工艺节点来说，这种情况并不罕见，但这与三星的做法截然不同，三星选择以牺牲带宽为代价来换取更高的能效。

当我们把这个电压与速度的关系与三星在其论文中展示的内容直接放在一起比较时，这种关系就显得尤为重要，因为这两家公司在优化方面做出了非常明确的区别，他们各自的 shmoo 图也反映了这一点。

三星16Gb LPDDR6，速度达 12.8 Gbps

三星在 ISSCC 2026 上发布了其最新产品，一款基于 10nm 级 DRAM 工艺制造的 16Gb LPDDR6 设备。图 15.8.7 中的汇总表和下表直接证实了其关键规格。

三星公布的12.8 Gbps带宽并非像SK海力士那样追求14.4 Gbps的峰值带宽。该论文将12.8 Gbps描述为JEDEC规定的最低电压工作点，这表明三星最终选择将第一代产品的工程重点放在能效上。

上图所示的电源域划分是三星实现其效率目标的关键。三星并没有将所有电路都置于单一电压下运行，而是根据电路对速度的要求，将其分配到两个不同的电源轨上。速度要求高的电路连接到 VDD2C，而外围电路和非关键电路则连接到 VDD2D，它们的运行电压分别为 1.0 V 和 0.875 V。

图中的柱状图清晰地显示了结果：读取功耗降至 LPDDR5X 的 73%，写入功耗降至 LPDDR5X 的 78%。DQ 引脚是内存芯片上的物理连接，负责在内存和处理器之间传输数据。在高速度下，这些引脚状态快速切换，每次引脚状态从 0 变为 1 或从 1 变为 0 时都会消耗功耗。三星还将电源门控技术扩展到了高频 DQ（数据 I/O）引脚，并声称这可以额外降低 10% 的待机功耗。

三星还实现了逐行激活计数（Per Row Activation Counting，简称 PRAC），这是三星针对 Rowhammer 漏洞的确定性解决方案。PRAC 并非简单地依赖概率刷新机制，而是将计数器直接嵌入到内存阵列中，逐字行地跟踪每一行的激活情况，并在实际达到攻击阈值之前触发缓解措施。上图中的柱状图显示了结果：与 LPDDR5X 相比，采用 PRAC 的 LPDDR6 需要大约五倍的攻击次数才会触发缓解措施。对于一个正日益扩展到汽车和边缘人工智能领域的标准而言，这种确定性保护的重要性远超以往在纯粹的智能手机应用场景。

上图中三星的 Shmoo 图表突显了电压选择所暗示的信息：它主要针对能效而非原始带宽进行了优化。仔细观察 Shmoo 图表，三星的 LPDDR6 在 0.97V 电压下即可达到 12.8Gbps 的带宽，这表明芯片的性能并未达到极限。

SK 海力士和三星方案对比

三星和SK海力士各自的LPDDR6设计方案，其能效无法直接比较。SK海力士宣称其整体能效比LPDDR5提升了20%，而三星则表示其读取性能比LPDDR5X提升了27%，写入性能提升了22%。两家公司采用的指标和基准不同，因此难以进行直接比较。

下表数据直接取自两份主要报告。对于两家公司均未明确提供的数据，我们未从其他来源获取数据，而是留空。

两家公司都在LPDDR6标准获批后的短短七个月内就推出了可用的LPDDR6芯片。此外，据TrendForce报道，三星和SK海力士正与JEDEC合作开发LPDDR6-PIM标准，该标准预计将于2024年12月发布，届时计算能力将直接集成到内存中，而无需依赖主机处理器。

三星和SK海力士在2026年国际半导体产业链半导体大会（ISSCC 2026）上公布的内容，让我们得以首次真正了解各自的LPDDR6设计以及它们目前的研究重点：SK海力士致力于提升带宽，而三星则专注于提高能效。SK海力士的Shmoo图表显示了其第一代1nm芯片的电压敏感性。随着工艺的成熟，这些性能指标有望得到改善。

在工艺节点成熟度方面，三星的16Gb芯片面积为44.5平方毫米，密度为0.360Gb/mm²。三星并未具体说明其LPDDR6芯片采用的是10纳米级DRAM工艺，而没有明确指出是哪一节点。这可能是1a（第一代）、1b（第二代）或1c（第三代），其中1c相当于SK海力士的1cnm工艺。SemiAnalysis在其ISSCC 2026总结报告中指出，三星的LPDDR6芯片更可能采用1b节点工艺，而非最新一代工艺。双子通道架构确实增加了芯片面积，这在一定程度上解释了其密度较低的原因，因此直接将其与单通道设计进行密度比较较为复杂。

每篇论文都值得通读全文，但我预计SK海力士和三星都会在各自的制造工艺上进一步提升速度。它们目前都采用的是第一代LPDDR6芯片，因此第二代产品可能会截然不同。

知名分析师Ian Cutress对此评论道，在与厂商交流DDR6 和 LP6 时，他们表示这两种标准之间的差异不会像 DDR5 和 LP5 变体那样大，这或许会导致 DDR6 和 LP6 在芯片设计上实现统一。虽然这对本来就会使用 LP6 的设备影响不大，但这意味着通常使用 DDR 的硬件或许能够根据市场需求轻松过渡到 LP6。一位厂商直言，这实际上取决于 DDR6 和 LPDDR6 哪一种率先上市，以及市场需求是否存在不平衡。

此外，随着对CPU（尤其是采用低功耗内存的Arm CPU）需求的增长，我们或许会看到x86厂商也大规模转向低功耗设计。在GPU方面，AMD已经展示了其下一代AI芯片的渲染图，该芯片采用了HBM4和LP5X两种内存架构，构成分层式内存结构，这无疑为市场增添了更多选择。英特尔新款Crescent Island AI推理PCIe卡，每个GPU最高可使用480GB的LP5X内存。

就时间表而言，DDR6 标准应该会在今年获得批准，首批消费级产品将于 2027 年面世，随后在 2028/2029 年实现量产。LP6 的量产速度应该会略快一些。通常，内存标准的过渡阶段我们会讨论从一个标准过渡到另一个标准的临界点，这通常是由价格因素驱动的。但在当前的宏观经济环境下，一切都变得难以预料，每个内存厂商都只是在努力做到两点：(a) 尽可能多地盈利；(b) 提供比竞争对手在 100% 良率下性能/密度更高的现货产品。推动新标准发展的根本原因在于，计算需求需要更高的性能、密度和功耗。

Ian Cutress同时透露，与内存厂商交流后得知，2026 年和 2027 年的订单已经售罄，这并不令人意外，而且 2028 年的订单似乎也很快会售罄。这将对新一代技术产生怎样的影响，是助力还是阻碍，值得我们拭目以待。

SK海力士的论文

本文介绍了一种采用 1cnm工艺的 16Gb LPDDR6 DRAM，符合 JEDEC LPDDR6 规范。在实现 LPDDR6 功能时，采取了多项措施来限制功耗的增加，包括：动态 WR NT-ODT、基于 LDO 稳压器的 WCK 分配、采用电源门控技术的效率模式、快速 CS 控制以及系统元模式。这些技术使单通道带宽提升超过 50%，在 1.025V 电压下实现了 14.4Gb/s 的传输速率，并且与 LPDDR5 相比，电源效率提高了 20% 以上。

LPDDR DRAM 主要用于智能手机和边缘设备等节能型设备；近年来，其应用范围已扩展到汽车和人工智能计算领域。这些应用需要更高的性能、更低的功耗和更高的可靠性，而今年最终确定的下一代 LPDDR6 规范 [1] 正是为了满足这些需求。本文介绍了一款采用 1 纳米 DRAM 工艺制造的 16Gb LPDDR6 DRAM，该 DRAM 完全符合 LPDDR6 JEDEC 规范。

在实现新的 LPDDR6 功能时，我们采取了多种措施来限制功耗的增加。具体而言，动态 WR NT-ODT 功能增强了 DQ 通道的信号完整性 (SI)，并集成了命令和地址 (CA) 缓冲器以及专用控制逻辑以降低功耗。为了解决 WCK 抖动问题，我们采用了基于低压差 (LDO) 稳压器的 WCK 分配网络。

在高效模式下，除次级子通道中的关键电路外，大多数电路模块都采用了电源门控技术。此外，通过基于工作频率选择性地启用 CA 缓冲区并利用芯片选择 (CS) 信号抑制 CA 信号切换，可以最大限度地降低 IDD2N 功耗。

此外，LPDDR6中还实现了基于分区的系统元模式，该模式通过将元数据寄存器放置在 DQ 发送/接收电路附近来实现。这种优化可以最大限度地降低元数据读写操作期间的电流消耗。

通过这些技术，与现有的 LPDDR5相比，每个通道的带宽提高了 50%，在 1.025V (VDD2C) 电压下实现了 14.4Gb/s 的数据传输速率，同时电源效率提高了 20% 以上。

图 15.7.1 显示，LPDDR6 采用双子通道/芯片配置，支持两种工作模式：正常模式，其中每个子通道独立工作；以及高效模式，其中两个子通道组通过主子通道 (SC0) 进行管理。在高效模式下，两个子通道的存储体以伪秩形式运行，配置为一个统一的32个DRAM存储体集合，从而提供更灵活的存储体访问。为了优化高效模式下的能效，本研究采用了两个关键特性。

(1) 为了降低两个子通道交错访问期间的功耗开销，包括命令译码器、时钟控制和延迟控制在内的时钟驱动电路集中在SC0中；从而消除了辅助子通道(SC1)中的重复逻辑。

(2) 如图15.7.1中灰色区域所示的非活动SC1控制电路被关闭，以最大限度地降低待机电流。因此，在高效模式下，使用3.2GHz时钟频率和12.8Gb/s数据带宽，待机电流(IDD2N)和工作电流(IDD4R)分别达到正常模式(1.6GHz)的87.3%和81.1%。所提出的架构提供了一种在正常模式下进行频率缩放的节能替代方案，使系统能够在高效模式下通过减少 I/O 数量而非降低时钟频率，将 DRAM 和控制器之间的数据带宽减半。

图 15.7.2 显示了 LPDDR6 的 WCK 树架构以及用于全局 WCK 分配模块的 LDO 稳压器。在 DRAM 操作中，读取命令的 WCK 树延迟比写入命令的延迟大约长 0.4 - 1ns；这导致在相似的压降下出现显著的延迟漂移，并对读取 DQ 信号的有效窗口产生不利影响。为了缓解这个问题，全局 WCK 分配模块中集成了一个 LDO，旨在消除读取 WCK 树延迟的主要来源。该 LDO 具有三个主要特性：

(1) 通过降低放大器增益并增加其带宽来缩短 DET_OUT 的响应时间，从而在 WCK 开/关周期内实现快速响应特性。

(2) 实现与内部振荡器输出同步的时钟多位控制方案，可确保 PASS TR 驱动器强度的调节。此调节根据 WCK 树的当前负载进行，通过与振荡器输出时钟同步更新寄存器代码来实现。

(3) VWCK LDO 中的内部振荡器和移位寄存器以事件驱动的方式开启和关闭。在 WCK 切换期间，放大器快速检测 WCK 树中的电压下降，使 DET_OUT 被拉高，进而激活内部振荡器和移位寄存器。

在 WCK 非翻转（non-toggling）期间，一旦 DET_OUT 变为低电平，所有 PASS TR 控制位都会立即关闭，从而防止过冲，且不会对后续的 WCK 操作产生不利影响。与 LPDDR5 的 WCK 分配方案相比，所提出的 LDO 可将 WCK 抖动降低 30%。

与 LPDDR5 相比，LPDDR6 中 CA 总线的最大工作频率提高了约三倍，范围从 1.6 GHz 到 3.6 GHz。使用工作频率范围较宽的 CA 输入缓冲器会导致低频运行时的功率效率降低。如图 15.7.3 所示，CA 输入缓冲器的工作频率范围被分为三组，从而缩小了工作范围。在每个工作范围内，CA 输入缓冲器都经过精心设计，以在兼顾功率效率的同时实现最佳性能。CA 输入缓冲器根据模式寄存器中设置的速度值进行选择性激活，该速度值会根据 CLK 频率的变化进行调整。

在多级结构中，CA引脚在不同级之间共享，导致在非目标操作期间产生待机电流消耗。随着对高容量DRAM需求的不断增长，多级配置变得越来越普遍，因此降低CA输入待机功耗变得至关重要。当内存控制器向目标芯片发出指令时，CS和CA的驱动方式如图15.7.3所示。由于CS工作在SDR模式，而CA工作在DDR模式，因此CS的有效窗口比CA的有效窗口提前0.25×tCK。

此外，DRAM内部存在一个用于调整每个输入CA信号的建立/保持时间的延迟。快速CS控制方案利用最早接收到的CS信号来判断有效的CA输入是否能够通过输入缓冲器和锁存器之间的建立/保持延迟。由于CS和CA输入之间的0.25×tCK时序差取决于工作频率，因此有效CA输入的控制位置会通过模式寄存器的设置来改变。

在较低的工作频率下，通过将控制点移近输入缓冲器，可以更有效地降低 CA 输入待机电流。通过实现三个针对窄频率范围优化的 CA 输入缓冲器以及快速 CS 控制方案，正常模式下的 IDD2N 在低频工作时降低了 42%，在中频工作时降低了 19%。

在之前的 LPDDR5 实现中，非目标芯片端接 (NT-ODT：non-target on die termination) 有效地抑制了多列配置中共享 DQ 结构引起的信号反射噪声。然而，如图 15.7.4 所示，对于 12.8Gb/s 及以上的数据速率，写入和读取的最佳 NT-ODT 电阻值不同，这限制了传统固定电阻 NT-ODT 的使用。为了解决这个问题，LPDDR6 支持动态写入 NT-ODT (DWNT-ODT)，用于控制非目标芯片，并在写入操作期间实现最佳的 NT-ODT 抗干扰能力。在多级 DRAM 封装中，CA 输入引脚在所有级之间共享。因此，当向目标芯片发出写入指令，并且非目标芯片上的 CS 输入连续阶段同时被置为高电平和低电平时，非目标芯片可以通过 CA 输入引脚识别写入命令和突发长度，从而控制 DWNT-ODT 操作的时序和持续时间。

虽然 DWNT-ODT 特性有助于提高信号完整性 (SI) 性能，但 DRAM 必须在待机状态和掉电状态下保持 DWNT-ODT 操作，这不可避免地会导致功耗增加。为了降低掉电状态下启用 DWNT-ODT 时的功耗，我们设计了一个专用的 ODT 控制模块，该模块仅使用 CA[0] 和 CS 信号进行操作。因此，无需使用命令解码器，该解码器通常需要占用所有 CA 引脚来区分各种命令。通过 DWNT-ODT 控制，我们在 12.8Gb/s 的速率下实现了 21% 的数据眼图改进。

图 15.7.5 展示了基于数据分割的系统元模式下两种类型的存储体架构和控制电路的框图。每个存储体都包含一个 256 位元数据寄存器 (MDR)，在读写操作期间会选择性地访问其中的 16 位。在基于数据分割的系统元模式下，需要先执行元读取操作，从单元阵列读取元数据并将其存储在元数据寄存器中，然后再执行读写操作。此外，在写入操作完成后，还需要执行元写入操作，将元数据寄存器中的元数据写回单元阵列。在图 15.7.5 中，

左图展示了 MDR 位于每个存储体旁边的情况；而右图则展示了 MDR 更靠近 DQ 发送/接收电路的情况。MDR 的位置对于最大限度地降低元数据访问期间的功耗至关重要。将 MDR 放置在每个存储体旁边会导致功耗增加，因为 DQ 发送/接收电路和 MDR 之间的数据传输距离（包括元数据位）会增加。

因此，将 MDR 放置在更靠近 DQ 收发电路的位置可以降低读写操作期间的功耗。然而，在元读写操作期间则会产生相反的效果。鉴于读写操作的频率远高于元读写操作，MDR 的位置是根据这种使用频率来确定的。MDR 的选定位置可能会导致数据访问和元数据访问之间的时序偏差；为了缓解这个问题，我们实现了一个专用的元数据地址 FIFO。

图 15.7.6 显示了不同电压和时钟周期下读写操作的 tWCK Shmoo 图。所实现的设计在 1.025V VDD2C 和 0.875V VDD2D 下实现了 14.4Gb/s 的传输速率。图 15.7.7 显示了采用 1nm 工艺制造的 DRAM 的芯片显微照片。

三星的论文

本文介绍了一种采用 10 纳米工艺实现的 12.8Gb/s/pin LPDDR6 SDRAM。通过采用宽 NRZ 信号（每个子通道 12 个 DQ，共两个子通道）以及在功能模块间优化分配两个电源轨（1.0V 和 0.875V），该 SDRAM 的带宽比 LPDDR5x 提高了 33.3%，能效提高了 21.0%。动态和静态效率模式分别通过动态或静态地关闭子通道的 I/O 电路来提高能效和容量。

在边缘人工智能、超大规模数据中心平台和高级驾驶辅助系统 (ADAS) 等各种应用中，对高带宽低功耗 DRAM 的需求正在加速增长，这些应用的工作负载需要持续的吞吐量和严格的功耗/散热限制。

本文提出了一种第一代 10nm 工艺 LPDDR6 SDRAM，其带宽比 LPDDR5X 提高了 33.3%（高达 12.8Gb/s），每比特能耗降低了 21.0%，并集成了宽 NRZ 方案和高效模式，可灵活扩展功耗/密度。

此外，本文还通过采用紧凑的 DQ/CA 单元布局、CK 占空比校正 (DCC：duty-cycle correction) 和 CA 伪 DFE 方案，解决了 DQ 引脚数量增加和 CA/CK 频率提高的问题。通过使用 VDD2D 为大多数外围电路供电，并对 I/O 模块采用动态电压频率调节 (DVFS：dynamic voltage-frequency scaling) 技术，同时在 DQ 发送/接收端采用选择性 VDD2C/VDD2D 切换方案，并结合低频 DQ/CA 信号使用额外的低功耗路径，从而降低了功耗。每行激活计数 (PRAC：Per-row activation counting) 采用两种提出的写入补偿技术实现：弹性 CSL 选择和增强型 ECC。通过对系统级 ECC 的元数据支持，提高了可靠性、可用性和可维护性 (RAS)。

图 15.8.1 显示了本工作的顶层框图。LPDDR6 SDRAM 由两个独立的子通道组成，每个子通道包含 16 个存储体。为了确保低电压摆幅终端逻辑 (LVSTL) 驱动器拥有足够的数据眼图裕量，LPDDR6 采用宽 NRZ 方案，而非 GDDR7 中使用的 PAM3 信号。CA 引脚数减少到四个，并移除了 DMI 引脚，以补偿宽 NRZ 方案导致的 DQ 引脚数增加。CK 输入信号被二分频，以降低 DRAM 内部的时序裕量。每个子通道有 12 个 DQ 和一个 24 突发长度 (BL24) 的预取结构，每次 DRAM 访问产生 288 字节的数据：256 字节的普通数据、16 字节的元数据和 16 字节的 DBI。LPDDR6 支持动态效率模式以降低待机功耗，以及静态效率模式以扩展容量。在高效模式下，子通道 0 成为主通道，控制子通道 1，并通过命令中的子通道标志位启用数据访问。来自子通道 1 的数据在到达子通道 0 的数据请求 (DQ) 之前会经过总线中继器，从而产生额外的延迟。

由于高频运行和低功耗之间存在固有的权衡关系，因此同时实现这两者极具挑战性。LPDDR6 采用了两个恒功率域：VDD2D (0.875V) 和 VDD2C (1.0V)，而 LPDDR5/5X 可选地支持两个电源轨：VDD2L (0.9V) 和 VDD2H (1.05V) ，这限制了两个电源轨的使用。本文利用 VDD2D 和 VDD2C 来克服速度和功耗之间的权衡，如图 15.8.2 所示。LPDDR6 将 VDD2C 应用于 DQ/WCK、CA/CK I/O 和部分延迟逻辑，并将 VDD2D 用于所有其他核心和外围电路，以最大限度地降低功耗。高性能晶体管有助于在 VDD2D 域中实现高频运行，而在快速运行区则采用反向体偏置 (RBB) 和增强型电源门控来抑制漏电。 LPDDR6进一步将电源门控扩展到高频DQ区和数据总线，从而实现了IDD2P降低10%。

此外，引入了低于VDD2D的内部数据电源（VINTDATA），以最大限度地降低读写操作期间的翻转功耗。LPDDR6采用WCK时钟来确保稳定的高速I/O时序和采样裕量，与LPDDR5X相同；因此，WCK之间的同步至关重要。为了确保电压变化不影响同步，需要在WCK和CK之间构建延迟匹配路径，以确保在电压和温度变化范围内保持时序一致。WCK被限制在VDD2C域，而CK延迟路径的一部分在VDD2D域工作。为了使电压变化跟踪与WCK保持一致，CK路径包含一个VDD2D到VDD2C的电平转换器，后接一个额外的触发器，从而在保持VDD2D功耗优势的同时参考VDD2C的变化。由于这些实现方式，与 LPDDR5X 相比，读取功耗和写入功耗分别降低了 27% 和 22%。DQ Tx/Rx 利用 VDD2C 和 VDD2D 之间的内部电源切换来保证高频性能，同时最大限度地降低低频功耗。在掉电模式下，它们还用于为 DQ Tx/Rx 供电。电源切换使 3.2Gb/s 速率下的读取功耗 (IDD4R) 和写入功耗 (IDD4W) 分别降低了 9% 和 5%。

为了进一步降低低频功耗，DQ Tx 和 CA Rx 采用了独立的低频 (LF) 路径。DQ Tx 的 LF 路径位于串行器之后，以防止 WCK 负载增加，并且该路径经过优化，可在抖动注入和功耗之间取得平衡。CA Rx 的 LF 路径包含一个额外的接收缓冲器，该缓冲器比普通路径消耗的静态电流更低，并且该缓冲器显著降低了待机电流。启用 LF 路径时，IDD4R 和待机电流 (IDD2N) 在 3.2Gb/s 时分别降低 3% 和 12%。

为了支持LPDDR6中更宽的数据总线NRZ，DQ引脚的数量有所增加；这导致WCK负载增加，DQ Tx/Rx的裕量降低。如图15.8.3所示，采用重分布层（RDL）将DQ Tx/Rx单元尽可能靠近WCK放置，同时考虑其插入损耗和串扰。这种放置方式降低了WCK到DQ的延迟及其电压和温度波动；因此，提高了写入和读取眼图裕量，同时节省了WCK和DQ电路的功耗。LPDDR6中WCK与CK的比例固定为2:1，以提高命令/地址的效率；因此，CA频率的提升速度是LPDDR5X的两倍以上。这增加了多级配置中CA系统预算的挑战，因为部分芯片间的CA偏差无法通过训练来消除。为了降低 CA 到 CA 之间的时序偏差，需要将 CA/CK 单元通过 RDL（如图 15.8.3 所示）更紧密地排列，从而移除用于匹配 CK 和每个 CA 引脚之间延迟的 CK 时钟树。采用 RDL 的排列方式可以最大限度地减少 CA/CK 级数，并降低电压和温度变化引起的 CA/CK 延迟变化。

此外，还采用了多种特性来支持更高的 CA/CK 频率。图 15.8.3 显示了 CK 和 CA 路径的整体配置，包括一个分频器、DCC、CK 和 CA 信号的时序偏差调节器以及一个伪 DFE。通过最小化占空比误差来提高 CA 时序裕量：CK 缓冲器中的 DCC 校正输入 CK 信号的占空比误差，而剩余的占空比误差（包括内部 4 相时序偏差）则由 CK 正交时序偏差调节器进行调整。为了使CA缓冲器不受码间干扰(ISI)的影响，CA采用了一种伪单抽头DFE。该单抽头DFE使用电流导引DAC实现，并采用交叉耦合晶体管。交叉耦合晶体管的栅极连接到第一级缓冲器的输出端，从而无需使用选通时钟即可补偿主光标和反馈决策之间的时序失配。

在DRAM中，相邻行的重复激活会扰乱相邻单元的电荷，导致数据保持失败：这被称为行锤击现象；人们提出了各种概率刷新方案来降低其影响。由于这些方案依赖于统计覆盖率，因此新的漏洞会不断以恶意攻击的形式暴露出来。本文提出的PRAC方案在DRAM阵列中以WL为单位嵌入计数器，从而能够确定性地跟踪所有行的激活情况，进而提高系统抵抗恶意锤击的鲁棒性。PRAC的实现需要在每个ACT-PRE间隔内执行读-修改-写（RMW）操作，其中读取已激活行的PRAC计数器值，将其递增，然后再写回。较长的RMW序列可能会降低系统性能；因此，缩短写入时间（RMW持续时间的主要部分）至关重要。如图15.8.4所示，本文提出了一种弹性WL选择方法，该方法选择写入时间最短的CSL，从而最大限度地减少时间开销。

此外，由写入周期缩短引起的错误可通过 ECC 进行恢复，该 ECC 能够纠正 PRAC 单元阵列中的小多位错误。如图 15.8.4 所示，PRAC 机制在每次行操作时都会递增激活计数器 (AC)。当计数器超过可编程阈值时，当前行地址将被存储在行地址日志寄存器中。由于日志寄存器的数量有限，PRAC 会替换其中激活计数最小的条目，并将新的行地址写入该寄存器。在缓解阶段，该寄存器会检索计数最高的地址，重置其计数器值，并根据配置的算法刷新其相邻的受影响行。

与 LPDDR5X 不同，LPDDR6 中的 PRE 命令不会立即触发内部预充电，而是从内部读取操作开始，这改变了 READ-to-PRE 和 WRITE-to-PRE 的时序关系。详细的时序调整将在下一节中描述。仿真结果证实，与传统的缓解方案相比，PRAC 将行锤抗灾能力提高了约 4-5 倍。

图 15.8.5 展示了元数据方案框图。LPDDR6 支持在单次 DRAM 读/写操作中访问 32 字节的常规数据和 2 字节的元数据。为了降低 DRAM 开销，采用了列分离方案，其中列地址 C[5:0]≥ 0x3C 被保留用于存储元数据。当元数据模式被禁用时，这些列地址将用于存储常规数据。每个存储体包含一个 32 字节的元数据寄存器，该寄存器位于 DINPAR 块（存储体写入数据路径）和 DOUTPAR 块（存储体读取数据路径）之间。这种布局使得可以通过分离的列地址直接访问元数据，而无需激活主单元阵列，从而降低元数据操作的访问延迟和能耗。

在写入操作期间，2 字节的元数据通过元数据总线传输并存储在元数据寄存器中。写入操作完成后，元数据寄存器中的 32 字节数据通过元数据写入操作写入 0x3C–0x3F 区域。对于读取操作，0x3C–0x3F 区域中的 32 字节元数据首先通过元数据读取操作加载到元数据寄存器中，后续的读取命令会输出相应的 2 字节元数据以及 32 字节的常规数据。通过提供列式元数据，LPDDR6 支持系统级 RAS 功能增强。

图 15.8.6 显示了测量得到的 tCK 与 VDD2C 的关系图，以及 12.8Gb/s 读/写操作的 Shmoo 眼图。最大数据速率为 12.8Gb/s，对应的 VDD2C 为 0.97V，即 JEDEC 规定的最小电压。有效的读/写窗口分别为 0.69 和 0.72UI。图 15.8.7 显示了采用 10nm 级 DRAM 工艺制造的 16Gb DRAM 的显微照片，其面积为 44.5mm²。