寻找下一个“英伟达”：AI 产业链革命进入新阶段，谁能登上Context内存战争的王座？

PM熊叔·2026年05月11日 21:28

为什么Tokens 消耗到数万级别之后，响应时间会急剧上升

【导语】

最近在做 Multi-Agent（多智能体）投研系统时，我遇到了一个极其抓狂的问题：

一份真正复杂的研报，经常要跑几个小时，甚至整整一晚上。当 Tokens 消耗到数万级别之后，响应时间会急剧上升，复杂任务甚至可能卡到一小时以上。

尤其是在以下场景同时发生时，延迟会变得格外明显：

多 Agent 协同
工具链调用
长上下文推理
结构化对抗分析

一开始，我以为问题只是单纯的“算力不够”，准备咬牙升级LLM的套餐，但是我的套餐的请求符合并没有打满，也没有链接的报错。问题可能AI面对超长Context导致的系统级别的阻塞，而且可能已经不是 GPU 本身了。

而是：“内存”，更准确地说，是大模型卡在了“数据搬运（Data Movement）”。

而最近资本市场和 AI 基础设施的变化，其实已经开始提前反映这一点。

一、AI 产业正在进入一个诡异的新阶段

过去两年，整个市场都在疯狂购买 GPU。但现在，一线工程师发现了一个非常微妙的变化：在很多 AI 系统里，GPU 的算力还没跑满，内存已经先崩了，于是Context管理成为了Harness Engineering的重要组成。

这背后其实意味着，AI 的核心瓶颈，正在发生历史性转移：从Compute-centric（以计算为中心）转向Memory-centric（以内存与数据移动为中心）

如果说 2023-2025 的主线是“GPU 算力革命”；那么 2026-2028 很可能进入“内存架构革命（Memory Architecture Revolution）”。

而这场革命最重要的关键词，就是：CXL（Compute Express Link）。

二、为什么 AI 突然开始“极度缺内存”？

2026年5月，整个华尔街都被"存储芯片"的疯狂暴涨彻底打蒙了。

美光科技（MU）：过去12个月股价狂飙 700%，市值一举突破8400亿美元；西部数据（WDC）：一年内暴涨 900%；闪迪（SNDK）：更是上演了上市以来狂涨 3300% 的终极造富神话，单日暴涨16%直接突破1560美元。

无数踏空的投资者在深夜懊悔：曾经错过了英伟达，为什么错过了这波利润更丰厚的内存狂欢？

答案很简单，思维依然停留在 "AI = 算力 = GPU" 的旧共识里。

这波存储股的彻底爆发，只是向市场揭开了一个残酷真相的冰山一角： AI 系统真正面临的致命瓶颈，早已经不是算力了，而是 Memory Wall（内存墙）。

很多人看到 NVIDIA 新一代 GPU 时，会有一种错觉： “192GB 的 HBM 已经非常庞大了，为什么还不够用？”

问题在于：AI 推理阶段真正像黑洞一样吞噬内存的，往往并不是模型本体，而是 KV Cache。

这是现在二级市场最容易忽略的核心问题。

什么是 KV Cache？简单说：大模型在推理时，每生成一个 Token，都会保存对应的 Key 和 Value，用于后续的 Attention 计算。

上下文越长，缓存越大。

而现在 AI 行业正在同时发生的趋势：长上下文、Multi-Agent、持续会话、实时推理、多用户并发……这些全部都会导致 KV Cache爆炸式增长。

一个 70B 级别的模型，如果跑百万 Token 上下文，再叠加高并发，KV Cache 很容易瞬间膨胀到数百 GB，甚至 TB 级别。

问题来了：你不可能把所有数据都塞进 HBM 里。

三、HBM 的致命短板：太快，也太贵

最近内存股涨价的核心动力是HBM（高带宽内存），

HBM确实很强，但它更像是城市里的“顶级学区房”。

它有几个致命问题：

成本极高
功耗极高
容量扩展极其困难
严重受制于 CoWoS 这种先进封装的产能

顶级学区房非常好，但不可能让所有数据都住进去，否则 AI 公司的推理成本会直接失控。

于是，AI 系统被迫进入“分层内存时代”。

未来的 AI 内存架构，大概率会变成这样：

Tier 0（HBM）：超快、超贵（存放最核心即时计算数据）
Tier 1（DDR5 / CXL Memory）：大容量、高性价比
Tier 2（NVMe / SSD）：更大、更慢

这意味着，未来 AI 系统的核心大考，不再是单纯的“你有没有买到 GPU”，而是：“哪些数据必须放在最快内存里？”以及“如何降低数据在各层之间的搬运成本？”

四、NVIDIA：从 FLOPS 转向 Data Movement

过去几年，整个 AI 行业都在拼 FLOPS（每秒浮点运算次数）、拼 GPU 数量。

但现在，如果你仔细观察英伟达最近的动作，你会发现他们开始越来越频繁地强调：

Context Memory
Shared Memory
Rack-scale Architecture（机架级架构）

在 GTC 2026 上，NVIDIA 已经明确提出了POD-wide context memory（即整个 Rack/POD 级别的共享上下文内存）。

英伟达的Grace-Blackwell (GB200)架构，本质上就是把 CPU 和 GPU 通过超高带宽的 NVLink-C2C 焊在一起。它的 Grace CPU 天生就是为了管理 HBM 和共享内存池设计的。它不卖单颗 CPU，它卖的是一整套“CPU+GPU+内存织物”的全栈解决方案。

这意味着，AI 基础设施已经开始从GPU-centric转向Context-centric。大家终于意识到：算力再强，数据搬不动也是白搭。

五、CXL 到底改变了什么？解决“搁浅内存”与“NVLink垄断”

过去几十年的服务器架构是高度绑定的： CPU 绑定自己的 DRAM，GPU 绑定自己的 HBM。各自为战，彼此之间很难灵活借用。

这会导致一个极度浪费的现象： GPU-A 的 HBM 已经被 KV Cache 撑爆了，而旁边 GPU-B 的内存却在闲置。因为无法动态共享，这些闲置的内存就变成了极其昂贵的“Stranded Memory（搁浅内存）”。

上面提到的英伟达NVLink-C2C不是已经解决了吗？为什么还需要 CXL？”

这是一个极佳的问题。答案是：它们根本不在一个生态位。

NVLink 是英伟达为自己修的“私家高铁”。极快，但你必须买它的全套车票，把所有的计算都死死锁定在英伟达的封闭黑盒里。它解决的是大模型暴力计算的“算力上限”。

而 CXL（Compute Express Link），是 AI 时代的“通用货运网络”。它是由 Intel、AMD、Google、Meta 等全行业“复仇者联盟”共同推行的开放标准。它的核心使命不是帮某一家公司跑赢算力，而是解决全行业共同的噩梦——内存墙。它解决的是 AI 商业化落地的“成本下限”。

CXL 带来了一个极其关键的概念：Memory Pooling（内存池化）。

过去，每台服务器像一栋独立别墅，自带水塔；未来，通过 CXL，整个数据中心将变成一个共享水网系统。不管你是谁家的 CPU，谁家的 GPU，大家都可以动态共享一个巨大的外部内存池。谁渴了，水（内存资源）就流向谁。

最终，云端算力的内存可以灵活支取，按需按量分配。

六、有了 DeepSeek v4 这种算法压缩，还需要 CXL 吗？

看到这里，很多懂点技术的朋友可能会抛出一个尖锐的问题：

“前阵子 DeepSeek v4 出来，不是通过首创的 MLA（多头潜在注意力机制）架构，硬生生把 KV Cache 的显存占用砍掉了 80% 到 90% 吗？”

既然算法能在物理级别把内存压缩得这么小，为什么还需要搞极其复杂的 CXL 硬件池化？

这是一个极好的问题。但真相是：DeepSeek 的算法压缩，与 CXL 的硬件池化，绝非互斥关系。而是拯救 AI“内存墙”的两条完美交叉线。

第一，DeepSeek 本质上是“用极致的计算和带宽，换取内存空间”。MLA 架构把庞大的 KV 矩阵压缩成极小的潜在向量（Latent Vector）。但在计算时，模型必须极高频地“解压缩”还原。这依然要求极其恐怖的显存带宽（Bandwidth）和互联速度。算法压缩到了极限，是对数据传输宽带的极度压榨。

第二，物理极限与系统级死锁。即使 DeepSeek 砍掉了 90% 的 KV Cache。当你在跑数百万 Token 的逆天长文本、且应对数万并发时，剩下的那 10% 依然会撑爆单机 HBM 的天花板。更致命的是： GPU-A 压缩得再小，它省下来的闲置内存，依然无法给旁边的 GPU-B 使用。

所以，未来的终局形态是：算法（向内压缩）负责“节流”；CXL（向外池化）负责“开源”。

这两者的“双剑合璧”，才是彻底跨越“Context Memory 战争”的终极解法。

七、反直觉：CPU 正在迎来“结构性复兴”

看到这里，你可能会产生一个错觉：AI 时代，传统的 CPU 是不是彻底沦为打杂的了？

恰恰相反。在 CXL 硬件池化和 DeepSeek v4高效算法的双重催化下，CPU 的重要性正在被史诗级重估。

如果说 GPU 是 AI 时代的“暴力肌肉”。那么在这个庞大的 CXL 共享内存网络里，CPU 正在重新找回它“神经中枢”的王座。

原因很简单：

第一，谁来当海量内存池的“超级交警”？在 CXL 时代，所有的 GPU 和海量的外部内存连成了一片网。 GPU A 的闲置内存怎么动态借给 GPU B？热数据什么时候切入 HBM？这种极其复杂的Memory Orchestration（内存编排调度）和多租户一致性管理，GPU 根本做不来。它必须依靠拥有极高 I/O 带宽和复杂调度逻辑的“重型 CPU”来执行。

第二，算法压缩倒逼 KV Cache 下放。既然 DeepSeek 把 KV Cache 的体积压缩了，我们为什么非要把它们全挤在昂贵的 GPU HBM 里？我们完全可以把这些海量的上下文记忆，存放在由 CPU 掌控的庞大 DDR5/CXL 内存池中。GPU 只管埋头计算，CPU 负责极速调取和维护这些上下文。

AI 的下半场，对 CPU 的要求并没有降低，而是发生了极其深刻的“职能升级”。那些拥有强大调度架构的高级 CPU，价值将面临重构。

目前的趋势是：ARM 正在全面压倒 x86。

功耗是死穴：AI 机柜的功耗已经逼近物理极限（单柜 120kW+）。x86 的复杂指令集在能效比上天生吃亏，而 ARM 架构在处理高频、并行的 I/O 调度时，能省下巨额电费。

定制化是绝杀：云巨头（AWS, Google, Microsoft）现在都在自研 CPU。基于 ARM 的 IP 授权，他们可以像搭积木一样，定制出最适合 CXL 链路和 DeepSeek 算法的私有 CPU（如 Graviton 系列）。

未来的王者，不再是那个“算力最强”的，而是那个“最懂得调度内存”的。

八、寻找真正的 Alpha：产业链里的“四大关键节点”

当 AI 基础设施的重心发生偏移，真正的利润池，将开始向“Memory Movement（数据搬运）”疯狂迁移。

不要再死死盯着 GPU 和 CUDA。在即将到来的 CXL 内存池化时代，这四个环节，才是未来 3 年最硬核的“卖水人”：

1. Retimer（高速信号修复芯片）：最先爆发的物理刚需

随着 PCIe 5.0/6.0 和 CXL 传输速度的翻倍，高速信号在物理主板上极易衰减失真。 Retimer 就像是内存长途运输线上的“加油站与放大器”。在未来的机架级（Rack-scale）AI 服务器中，它是根本绕不开的物理标配。

核心标的：Astera Labs (ALAB)、Credo Technology (CRDO)

2. CXL Switch（价值咽喉）：AI 时代的“内存交换机”

未来，GPU 不再固定“焊死”在某块内存上。而是通过 CXL Switch 动态连接整个内存织物（Memory Fabric）。谁能实现超低延迟、高一致性的内存交换，谁就扼住了 AI 数据网络的咽喉。这是整个硬件链条中溢价最高、壁垒最深的环节。

核心标的：博通 (AVGO)、Marvell (MRVL)。

3. 被重估的 CPU 层：统筹全局的“总指挥部”

在传统认知里，CPU 在 AI 时代边缘化了。错！在 CXL 时代，CPU 成了统御庞大内存池的“总调度交警”。现在的 Alpha，不再看 CPU 的单核算力，而是看它的I/O 通道数、低功耗，以及内存调度效率。

蓝图统治者：Arm Holdings (ARM)。云巨头抛弃 x86 自研芯片（如 AWS Graviton），统统要给 ARM 交底座授权费。

定制化推手：世芯电子 (3661.TW)、Marvell、博通。他们是帮巨头们代工设计 AI 芯片的幕后刀客。

x86 的最后尊严：AMD (AMD)。凭借极高的 I/O 通道数和激进的 CXL 拥抱策略，EPYC 依然是公有云上的硬通货。

反直觉的赢家：Intel (INTC)。哪怕输掉核心，凭借独家的 EMIB 先进封装（IFS 代工），依然是云巨头造芯绕不开的代工厂。

4. Memory Controller & Orchestration：真正的软件护城河

把海量内存连起来只是第一步。真正困难的，是“如何高效调度这些共享内存”。这涉及到极度复杂的 OS 支持、工作负载迁移和多租户隔离。这不仅是硬件的事，更是软件生态的事。

核心标的：Rambus (RMBS)。

生态玩家：能够研发出类似于 Meta TMO（透明内存卸载）底层软件栈的科技巨头，谁能做好 Memory Orchestration，谁就能建立起媲美英伟达 CUDA 级别的“内存软件护城河”。

当 AI 基础设施的重心发生偏移，真正的利润池，将开始向“Memory Movement（数据搬运）”疯狂迁移。

不要再死死盯着 GPU 和 CUDA。在即将到来的 CXL 内存池化时代，这四个环节，才是未来 3 年最硬核的“卖水人”：

1. Retimer（高速信号修复芯片）：最先爆发的物理刚需

核心标的：

2. CXL Switch（价值咽喉）：AI 时代的“内存交换机”

未来，GPU 不再固定“焊死”在某块内存上。而是通过 CXL Switch 动态连接整个内存织物（Memory Fabric）。谁能实现超低延迟、高一致性的内存交换，谁就扼住了 AI 数据网络的咽喉。这是整个硬件链条中溢价最高、壁垒最深的环节。我们可以关注博通 (AVGO)、Marvell (MRVL)。

3. 被重估的 CPU 层：统御全局的“总指挥部”

蓝图统治者：Arm Holdings (ARM)。云巨头抛弃 x86 自研芯片（如 AWS Graviton），统统要给 ARM 交底座授权费。

定制化推手：世芯电子、Marvell、博通。他们是帮巨头们代工设计 AI 芯片的幕后刀客。

x86 的最后尊严：AMD (AMD)。凭借极高的 I/O 通道数和激进的 CXL 拥抱策略，EPYC 依然是公有云上的硬通货。

反直觉的赢家：Intel (INTC)。哪怕输掉核心，凭借独家的 EMIB 先进封装（IFS 代工），依然是云巨头造芯绕不开的代工厂。

4. Memory Controller & Orchestration：真正的软件护城河

把海量内存连起来只是第一步。真正困难的，是“如何高效调度这些共享内存”。这涉及到极度复杂的 OS 支持、工作负载迁移和多租户隔离。这不仅是硬件的事，更是软件生态的事。关注Rambus (RMBS)。 生态玩家：能够研发出类似于 Meta TMO（透明内存卸载）底层软件栈的科技巨头，谁能做好 Memory Orchestration，谁就能建立起媲美英伟达 CUDA 级别的“内存软件护城河”。

结语

30年前，互联网解决的是：“计算机之间的数据共享”；

20年前，云计算解决的是：“计算资源的弹性分配”；

5年前，大模型解决的是：“大尺度参数的注意力分配”；

1年前，智算中心解决的是：“万卡集群的算力洪流分配”；

而今天，我们正在攻克 AI 皇冠上的最后一颗钉子：“AI 芯片之间的全域内存共享”。

当你还在为今天某个 AI Agent 运行缓慢而抱怨算力不足时，当你还在盯着英伟达的 K 线图猜测天花板在哪里时；

另一场更底层、利润更丰厚的系统级架构变革，可能已经开始了。

AI 的下一阶段，也许不再只是“算力战争”，而是“Context Memory 战争”。

你认为谁会成为 CXL 内存池化时代的下一个“英伟达”？欢迎在评论区留下你的硬核观点，我们一起探讨 AI 基础设施的下一个十年。

本文内容不构成任何投资建议。

本文来自微信公众号“PM熊叔”，作者：熊叔，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

寻找下一个“英伟达”：AI 产业链革命进入新阶段，谁能登上Context内存战争的王座？

一、AI 产业正在进入一个诡异的新阶段

二、为什么 AI 突然开始“极度缺内存”？

三、HBM 的致命短板：太快，也太贵

四、NVIDIA：从 FLOPS 转向 Data Movement

五、CXL 到底改变了什么？解决“搁浅内存”与“NVLink垄断”

六、有了 DeepSeek v4 这种算法压缩，还需要 CXL 吗？

七、反直觉：CPU 正在迎来“结构性复兴”

八、寻找真正的 Alpha：产业链里的“四大关键节点”

结语

最近内容

下一篇

寻找下一个“英伟达”：AI 产业链革命进入新阶段，谁能登上Context内存战争的王座？

一、AI 产业正在进入一个诡异的新阶段

二、为什么 AI 突然开始“极度缺内存”？

三、HBM 的致命短板：太快，也太贵

四、NVIDIA：从 FLOPS 转向 Data Movement

五、CXL 到底改变了什么？解决“搁浅内存”与“NVLink垄断”

六、有了 DeepSeek v4 这种算法压缩，还需要 CXL 吗？

七、反直觉：CPU 正在迎来“结构性复兴”

八、 寻找真正的 Alpha：产业链里的“四大关键节点”

结语

最近内容

下一篇

八、寻找真正的 Alpha：产业链里的“四大关键节点”