寻找下一个“英伟达”:AI 产业链革命进入新阶段,谁能登上Context内存战争的王座?
【导语】
最近在做 Multi-Agent(多智能体)投研系统时,我遇到了一个极其抓狂的问题:
一份真正复杂的研报,经常要跑几个小时,甚至整整一晚上。 当 Tokens 消耗到数万级别之后,响应时间会急剧上升,复杂任务甚至可能卡到一小时以上。
尤其是在以下场景同时发生时,延迟会变得格外明显:
- 多 Agent 协同
- 工具链调用
- 长上下文推理
- 结构化对抗分析
一开始,我以为问题只是单纯的“算力不够”,准备咬牙升级LLM的套餐,但是我的套餐的请求符合并没有打满,也没有链接的报错。问题可能AI面对超长Context导致的系统级别的阻塞,而且可能已经不是 GPU 本身了。
而是:“内存”,更准确地说,是大模型卡在了“数据搬运(Data Movement)”。
而最近资本市场和 AI 基础设施的变化,其实已经开始提前反映这一点。
一、AI 产业正在进入一个诡异的新阶段
过去两年,整个市场都在疯狂购买 GPU。 但现在,一线工程师发现了一个非常微妙的变化:在很多 AI 系统里,GPU 的算力还没跑满,内存已经先崩了,于是Context管理成为了Harness Engineering的重要组成。
这背后其实意味着,AI 的核心瓶颈,正在发生历史性转移: 从Compute-centric(以计算为中心)转向Memory-centric(以内存与数据移动为中心)
如果说 2023-2025 的主线是“GPU 算力革命”; 那么 2026-2028 很可能进入“内存架构革命(Memory Architecture Revolution)”。
而这场革命最重要的关键词,就是:CXL(Compute Express Link)。
二、为什么 AI 突然开始“极度缺内存”?
2026年5月,整个华尔街都被"存储芯片"的疯狂暴涨彻底打蒙了。
美光科技(MU):过去12个月股价狂飙 700%,市值一举突破8400亿美元;西部数据(WDC):一年内暴涨 900%;闪迪(SNDK):更是上演了上市以来狂涨 3300% 的终极造富神话,单日暴涨16%直接突破1560美元。
无数踏空的投资者在深夜懊悔:曾经错过了英伟达,为什么错过了这波利润更丰厚的内存狂欢?
答案很简单,思维依然停留在 "AI = 算力 = GPU" 的旧共识里。
这波存储股的彻底爆发,只是向市场揭开了一个残酷真相的冰山一角: AI 系统真正面临的致命瓶颈,早已经不是算力了,而是 Memory Wall(内存墙)。
很多人看到 NVIDIA 新一代 GPU 时,会有一种错觉: “192GB 的 HBM 已经非常庞大了,为什么还不够用?”
问题在于:AI 推理阶段真正像黑洞一样吞噬内存的,往往并不是模型本体,而是 KV Cache。
这是现在二级市场最容易忽略的核心问题。
什么是 KV Cache?简单说: 大模型在推理时,每生成一个 Token,都会保存对应的 Key 和 Value,用于后续的 Attention 计算。
上下文越长,缓存越大。
而现在 AI 行业正在同时发生的趋势: 长上下文、Multi-Agent、持续会话、实时推理、多用户并发……这些全部都会导致 KV Cache爆炸式增长。
一个 70B 级别的模型,如果跑百万 Token 上下文,再叠加高并发,KV Cache 很容易瞬间膨胀到数百 GB,甚至 TB 级别。
问题来了:你不可能把所有数据都塞进 HBM 里。
三、HBM 的致命短板:太快,也太贵
最近内存股涨价的核心动力是HBM(高带宽内存),
HBM确实很强,但它更像是城市里的“顶级学区房”。
它有几个致命问题:
- 成本极高
- 功耗极高
- 容量扩展极其困难
- 严重受制于 CoWoS 这种先进封装的产能
顶级学区房非常好,但不可能让所有数据都住进去,否则 AI 公司的推理成本会直接失控。
于是,AI 系统被迫进入“分层内存时代”。
未来的 AI 内存架构,大概率会变成这样:
- Tier 0(HBM):超快、超贵(存放最核心即时计算数据)
- Tier 1(DDR5 / CXL Memory):大容量、高性价比
- Tier 2(NVMe / SSD):更大、更慢
这意味着,未来 AI 系统的核心大考,不再是单纯的“你有没有买到 GPU”,而是:“哪些数据必须放在最快内存里?”以及“如何降低数据在各层之间的搬运成本?”
四、NVIDIA:从 FLOPS 转向 Data Movement
过去几年,整个 AI 行业都在拼 FLOPS(每秒浮点运算次数)、拼 GPU 数量。
但现在,如果你仔细观察英伟达最近的动作,你会发现他们开始越来越频繁地强调:
- Context Memory
- Shared Memory
- Rack-scale Architecture(机架级架构)
在 GTC 2026 上,NVIDIA 已经明确提出了POD-wide context memory(即整个 Rack/POD 级别的共享上下文内存)。
英伟达的Grace-Blackwell (GB200)架构,本质上就是把 CPU 和 GPU 通过超高带宽的 NVLink-C2C 焊在一起。它的 Grace CPU 天生就是为了管理 HBM 和共享内存池设计的。它不卖单颗 CPU,它卖的是一整套“CPU+GPU+内存织物”的全栈解决方案。
这意味着,AI 基础设施已经开始从GPU-centric转向Context-centric。大家终于意识到:算力再强,数据搬不动也是白搭。
五、CXL 到底改变了什么?解决“搁浅内存”与“NVLink垄断”
过去几十年的服务器架构是高度绑定的: CPU 绑定自己的 DRAM,GPU 绑定自己的 HBM。各自为战,彼此之间很难灵活借用。
这会导致一个极度浪费的现象: GPU-A 的 HBM 已经被 KV Cache 撑爆了,而旁边 GPU-B 的内存却在闲置。 因为无法动态共享,这些闲置的内存就变成了极其昂贵的“Stranded Memory(搁浅内存)”。
上面提到的英伟达NVLink-C2C不是已经解决了吗?为什么还需要 CXL?”
这是一个极佳的问题。答案是:它们根本不在一个生态位。
NVLink 是英伟达为自己修的“私家高铁”。极快,但你必须买它的全套车票,把所有的计算都死死锁定在英伟达的封闭黑盒里。它解决的是大模型暴力计算的“算力上限”。
而 CXL(Compute Express Link),是 AI 时代的“通用货运网络”。它是由 Intel、AMD、Google、Meta 等全行业“复仇者联盟”共同推行的开放标准。 它的核心使命不是帮某一家公司跑赢算力,而是解决全行业共同的噩梦——内存墙。它解决的是 AI 商业化落地的“成本下限”。
CXL 带来了一个极其关键的概念:Memory Pooling(内存池化)。
过去,每台服务器像一栋独立别墅,自带水塔; 未来,通过 CXL,整个数据中心将变成一个共享水网系统。 不管你是谁家的 CPU,谁家的 GPU,大家都可以动态共享一个巨大的外部内存池。谁渴了,水(内存资源)就流向谁。
最终,云端算力的内存可以灵活支取,按需按量分配。
六、有了 DeepSeek v4 这种算法压缩,还需要 CXL 吗?
看到这里,很多懂点技术的朋友可能会抛出一个尖锐的问题:
“前阵子 DeepSeek v4 出来,不是通过首创的 MLA(多头潜在注意力机制)架构, 硬生生把 KV Cache 的显存占用砍掉了 80% 到 90% 吗?”
既然算法能在物理级别把内存压缩得这么小, 为什么还需要搞极其复杂的 CXL 硬件池化?
这是一个极好的问题。 但真相是:DeepSeek 的算法压缩,与 CXL 的硬件池化,绝非互斥关系。而是拯救 AI“内存墙”的两条完美交叉线。
第一,DeepSeek 本质上是“用极致的计算和带宽,换取内存空间”。MLA 架构把庞大的 KV 矩阵压缩成极小的潜在向量(Latent Vector)。 但在计算时,模型必须极高频地“解压缩”还原。 这依然要求极其恐怖的显存带宽(Bandwidth)和互联速度。 算法压缩到了极限,是对数据传输宽带的极度压榨。
第二,物理极限与系统级死锁。即使 DeepSeek 砍掉了 90% 的 KV Cache。 当你在跑数百万 Token 的逆天长文本、且应对数万并发时, 剩下的那 10% 依然会撑爆单机 HBM 的天花板。 更致命的是: GPU-A 压缩得再小,它省下来的闲置内存,依然无法给旁边的 GPU-B 使用。
所以,未来的终局形态是:算法(向内压缩)负责“节流”;CXL(向外池化)负责“开源”。
这两者的“双剑合璧”,才是彻底跨越“Context Memory 战争”的终极解法。
七、反直觉:CPU 正在迎来“结构性复兴”
看到这里,你可能会产生一个错觉:AI 时代,传统的 CPU 是不是彻底沦为打杂的了?
恰恰相反。在 CXL 硬件池化和 DeepSeek v4高效算法的双重催化下,CPU 的重要性正在被史诗级重估。
如果说 GPU 是 AI 时代的“暴力肌肉”。 那么在这个庞大的 CXL 共享内存网络里,CPU 正在重新找回它“神经中枢”的王座。
原因很简单:
第一,谁来当海量内存池的“超级交警”?在 CXL 时代,所有的 GPU 和海量的外部内存连成了一片网。 GPU A 的闲置内存怎么动态借给 GPU B?热数据什么时候切入 HBM? 这种极其复杂的Memory Orchestration(内存编排调度)和多租户一致性管理,GPU 根本做不来。它必须依靠拥有极高 I/O 带宽和复杂调度逻辑的“重型 CPU”来执行。
第二,算法压缩倒逼 KV Cache 下放。既然 DeepSeek 把 KV Cache 的体积压缩了,我们为什么非要把它们全挤在昂贵的 GPU HBM 里? 我们完全可以把这些海量的上下文记忆,存放在由 CPU 掌控的庞大 DDR5/CXL 内存池中。GPU 只管埋头计算,CPU 负责极速调取和维护这些上下文。
AI 的下半场,对 CPU 的要求并没有降低,而是发生了极其深刻的“职能升级”。那些拥有强大调度架构的高级 CPU,价值将面临重构。
目前的趋势是:ARM 正在全面压倒 x86。
功耗是死穴:AI 机柜的功耗已经逼近物理极限(单柜 120kW+)。x86 的复杂指令集在能效比上天生吃亏,而 ARM 架构在处理高频、并行的 I/O 调度时,能省下巨额电费。
定制化是绝杀:云巨头(AWS, Google, Microsoft)现在都在自研 CPU。基于 ARM 的 IP 授权,他们可以像搭积木一样,定制出最适合 CXL 链路和 DeepSeek 算法的私有 CPU(如 Graviton 系列)。
未来的王者,不再是那个“算力最强”的,而是那个“最懂得调度内存”的。
八、 寻找真正的 Alpha:产业链里的“四大关键节点”
当 AI 基础设施的重心发生偏移, 真正的利润池, 将开始向“Memory Movement(数据搬运)”疯狂迁移。
不要再死死盯着 GPU 和 CUDA。 在即将到来的 CXL 内存池化时代, 这四个环节,才是未来 3 年最硬核的“卖水人”:
1. Retimer(高速信号修复芯片):最先爆发的物理刚需
随着 PCIe 5.0/6.0 和 CXL 传输速度的翻倍, 高速信号在物理主板上极易衰减失真。 Retimer 就像是内存长途运输线上的“加油站与放大器”。 在未来的机架级(Rack-scale)AI 服务器中, 它是根本绕不开的物理标配。
核心标的:Astera Labs (ALAB)、Credo Technology (CRDO)
2. CXL Switch(价值咽喉):AI 时代的“内存交换机”
未来,GPU 不再固定“焊死”在某块内存上。 而是通过 CXL Switch 动态连接整个内存织物(Memory Fabric)。 谁能实现超低延迟、高一致性的内存交换, 谁就扼住了 AI 数据网络的咽喉。 这是整个硬件链条中溢价最高、壁垒最深的环节。
核心标的:博通 (AVGO)、Marvell (MRVL)。
3. 被重估的 CPU 层:统筹全局的“总指挥部”
在传统认知里,CPU 在 AI 时代边缘化了。 错!在 CXL 时代,CPU 成了统御庞大内存池的“总调度交警”。 现在的 Alpha,不再看 CPU 的单核算力, 而是看它的I/O 通道数、低功耗,以及内存调度效率。
蓝图统治者:Arm Holdings (ARM)。云巨头抛弃 x86 自研芯片(如 AWS Graviton),统统要给 ARM 交底座授权费。
定制化推手:世芯电子 (3661.TW)、Marvell、博通。他们是帮巨头们代工设计 AI 芯片的幕后刀客。
x86 的最后尊严:AMD (AMD)。凭借极高的 I/O 通道数和激进的 CXL 拥抱策略,EPYC 依然是公有云上的硬通货。
反直觉的赢家:Intel (INTC)。哪怕输掉核心,凭借独家的 EMIB 先进封装(IFS 代工),依然是云巨头造芯绕不开的代工厂。
4. Memory Controller & Orchestration:真正的软件护城河
把海量内存连起来只是第一步。 真正困难的,是“如何高效调度这些共享内存”。 这涉及到极度复杂的 OS 支持、工作负载迁移和多租户隔离。 这不仅是硬件的事,更是软件生态的事。
核心标的:Rambus (RMBS)。
生态玩家:能够研发出类似于 Meta TMO(透明内存卸载)底层软件栈的科技巨头,谁能做好 Memory Orchestration,谁就能建立起媲美英伟达 CUDA 级别的“内存软件护城河”。
当 AI 基础设施的重心发生偏移, 真正的利润池, 将开始向“Memory Movement(数据搬运)”疯狂迁移。
不要再死死盯着 GPU 和 CUDA。 在即将到来的 CXL 内存池化时代, 这四个环节,才是未来 3 年最硬核的“卖水人”:
1. Retimer(高速信号修复芯片):最先爆发的物理刚需
随着 PCIe 5.0/6.0 和 CXL 传输速度的翻倍, 高速信号在物理主板上极易衰减失真。 Retimer 就像是内存长途运输线上的“加油站与放大器”。 在未来的机架级(Rack-scale)AI 服务器中, 它是根本绕不开的物理标配。
核心标的:
2. CXL Switch(价值咽喉):AI 时代的“内存交换机”
未来,GPU 不再固定“焊死”在某块内存上。 而是通过 CXL Switch 动态连接整个内存织物(Memory Fabric)。 谁能实现超低延迟、高一致性的内存交换, 谁就扼住了 AI 数据网络的咽喉。 这是整个硬件链条中溢价最高、壁垒最深的环节。 我们可以关注博通 (AVGO)、Marvell (MRVL)。
3. 被重估的 CPU 层:统御全局的“总指挥部”
在传统认知里,CPU 在 AI 时代边缘化了。 错!在 CXL 时代,CPU 成了统御庞大内存池的“总调度交警”。 现在的 Alpha,不再看 CPU 的单核算力, 而是看它的I/O 通道数、低功耗,以及内存调度效率。
蓝图统治者:Arm Holdings (ARM)。云巨头抛弃 x86 自研芯片(如 AWS Graviton),统统要给 ARM 交底座授权费。
定制化推手:世芯电子 、Marvell、博通。他们是帮巨头们代工设计 AI 芯片的幕后刀客。
x86 的最后尊严:AMD (AMD)。凭借极高的 I/O 通道数和激进的 CXL 拥抱策略,EPYC 依然是公有云上的硬通货。
反直觉的赢家:Intel (INTC)。哪怕输掉核心,凭借独家的 EMIB 先进封装(IFS 代工),依然是云巨头造芯绕不开的代工厂。
4. Memory Controller & Orchestration:真正的软件护城河
把海量内存连起来只是第一步。 真正困难的,是“如何高效调度这些共享内存”。 这涉及到极度复杂的 OS 支持、工作负载迁移和多租户隔离。 这不仅是硬件的事,更是软件生态的事。 关注Rambus (RMBS)。 生态玩家:能够研发出类似于 Meta TMO(透明内存卸载)底层软件栈的科技巨头,谁能做好 Memory Orchestration,谁就能建立起媲美英伟达 CUDA 级别的“内存软件护城河”。
结语
30年前,互联网解决的是:“计算机之间的数据共享”;
20年前,云计算解决的是:“计算资源的弹性分配”;
5年前,大模型解决的是:“大尺度参数的注意力分配”;
1年前,智算中心解决的是:“万卡集群的算力洪流分配”;
而今天,我们正在攻克 AI 皇冠上的最后一颗钉子:“AI 芯片之间的全域内存共享”。
当你还在为今天某个 AI Agent 运行缓慢而抱怨算力不足时, 当你还在盯着英伟达的 K 线图猜测天花板在哪里时;
另一场更底层、利润更丰厚的系统级架构变革,可能已经开始了。
AI 的下一阶段,也许不再只是“算力战争”,而是“Context Memory 战争”。
你认为谁会成为 CXL 内存池化时代的下一个“英伟达”?欢迎在评论区留下你的硬核观点,我们一起探讨 AI 基础设施的下一个十年。
本文内容不构成任何投资建议。
本文来自微信公众号“PM熊叔”,作者:熊叔,36氪经授权发布。















