大摩眼中的DeepSeek:以存代算、以少胜多
DeepSeek正在改写AI的扩展法则:下一代AI的决胜点不再是单纯堆砌更大的GPU集群,而是通过更聪明的混合架构,用性价比更高的DRAM置换稀缺的HBM资源。
据追风交易台消息,摩根士丹利1月21日发布的最新研报显示,DeepSeek正在通过一种名为“Engram”的创新模块,改变大语言模型的构建方式。其核心突破在于将存储与计算分离,通过引入“条件记忆”(Conditional Memory)机制,大幅减少了对昂贵且紧缺的高带宽内存(HBM)的需求,转而利用成本更低的普通系统内存(DRAM)来处理复杂的推理任务。
大摩分析师Shawn Kim及其团队认为,DeepSeek展示了如何“少花钱多办事”(Doing More With Less)的哲学。这种将存储与计算分离的技术路径,不仅缓解了中国面临的AI算力约束,更向市场证明了高效的混合架构才是AI的下一个前沿。
这一被大摩重点关注的架构,源自DeepSeek创始人梁文锋团队与北大合作者在1月13日发布的重磅论文《Conditional Memory via Scalable Lookup》。在这篇论文中,团队首次提出了“Engram”(印迹)模块。
01 告别暴力计算:Engram模块与“条件记忆”
摩根士丹利在报告中指出,当前的Transformer模型在记忆和调用简单静态事实时效率极低。例如,处理“伦敦在英国”这样一个简单查询,在传统模型中需要经过多层注意力机制和前馈网络的昂贵计算才能重构。这种方式浪费了宝贵的GPU计算资源。
DeepSeek的解决方案是引入“条件记忆”(Conditional Memory)原则,即Engram模块。
这一架构的核心在于将静态模式存储与动态推理分离。DeepSeek不再将所有信息一次性加载到昂贵的HBM中,而是将模型的“图书馆”或“字典”(静态知识)卸载到CPU或系统内存(DRAM)中,仅在需要时进行检索。
大摩分析师在报告中强调:“DeepSeek将‘条件记忆’与计算分离,为大语言模型(LLM)解锁了新的效率水平。Engram是一种在不通过重载HBM的情况下,高效‘查找’基本信息的方法,从而释放容量用于更复杂的推理任务。”
这种设计直接解决了当前AI基础设施中最昂贵的瓶颈——HBM。通过减少对HBM的占用,DeepSeek证明了在现有GPU和系统内存架构下提升效率,可以有效减少昂贵的硬件升级需求。
02 基础设施经济学:降低HBM依赖,放大DRAM价值
这一技术变革最直接的影响在于硬件成本结构的重塑。摩根士丹利指出,Engram架构通过将静态模式存储与动态计算分离,最大限度地减少了对高速内存(HBM)的需求。这意味着,基础设施的成本可能会从昂贵的GPU向更具性价比的内存(DRAM)转移。
报告详细拆解了这一数据影响:“虽然论文没有明确说明,但一个1000亿参数(100B)的Engram(假设FP16/BF16下每个参数2字节)意味着最低需要约200GB的系统DRAM。”
相比之下,英伟达的Vera Rubin系统每个CPU已经配备了1.5TB的DRAM。分析师计算得出,DeepSeek的架构意味着“每台系统对商品化DRAM的使用量将增加约13%”。
这一转变的投资逻辑非常清晰:
成本结构转移: 基础设施成本可能从GPU向内存转移。
性价比为王: 计算适中但内存巨大的配置,可能比单纯的GPU扩展提供更高的“每美元性能”。
内存价值重估: 推理能力的提升超过了知识获取的增益,表明内存的价值已延伸至计算之外。
03 “受限诱发的创新”:中国AI的突围之路
摩根士丹利的数据显示,尽管在先进算力、硬件获取和训练规模上受到限制,中国领先的AI模型在过去两年中迅速缩窄了与全球前沿模型(如ChatGPT 5.2)的性能差距。DeepSeek V3.2在标准化基准测试中表现优异,其MMLU得分约为88.5%,编码能力(SWE-Bench)约为72%,在推理和效率方面展现出强大竞争力。
报告将这种现象归结为“约束诱导的创新”(constraint-induced innovation)。中国AI的发展不再单纯依赖参数的暴力增长,而是转向算法效率、系统设计和部署实用主义。摩根士丹利指出:“DeepSeek正在证明,AI能力的下一次飞跃可能不是来自更多的GPU,而是来自学会如何在约束条件下思考。”
大摩分析师指出:“从战略上讲,这表明中国AI的进步可能越来越不取决于直接缩小硬件差距,而是取决于绕过硬件瓶颈的算法和系统级创新。”
04 展望未来:消费级显卡也能跑大模型?
报告对DeepSeek的下一代模型V4给出了极具吸引力的预测。大摩预计,利用Engram内存架构,V4在发布时将实现重大飞跃,特别是在编码和推理方面。
更令市场关注的是其对硬件门槛的降低。大摩在报告中写道:“与其前身一样,该模型极有可能在消费级硬件上运行,消费级硬件(如RTX 5090)可能就足够了。”
这意味着高水平AI推理的边际成本将进一步降低,使得AI应用能够更广泛地部署,而无需完全依赖昂贵的数据中心级GPU集群。
基于上述技术趋势,摩根士丹利重申了对中国内存和半导体设备本土化主题的看好。
报告明确指出:“通过将内存与计算解耦,中国正在构建不仅更聪明而且结构更高效的LLM。”尽管中国AI市场的规模仍只是美国的一小部分,但其支出和采用势头表明上行空间可能被低估。
本文来自微信公众号“硬AI”,作者:专注科技产研的,36氪经授权发布。















