DeepSeek V4发布：为何黄仁勋担心的灾难正在发生？AI的新旧格局正在重塑

36氪的朋友们·2026年04月30日 18:11

DeepSeek V4发布，成本大降，华为昇腾适配，AI产业格局生变。

导语: 2026年4月24日，AI产业迎来一个注定载入史册的时刻。中国AI公司DeepSeek在沉寂15个月后，正式发布旗舰模型V4预览版——总参数1.6万亿、百万token上下文全系标配、推理成本低至GPT-5.5 Pro的1.55‰。更重要的是，V4首次在官方技术报告中，将华为昇腾与英伟达GPU并列写进硬件验证清单。华为随即宣布昇腾超节点全系列产品全面支持V4系列模型，公告中出现了六个字：“芯模技术协同”。

这不是一次常规的模型迭代，这是全球AI产业底层叙事的转折点。正如英伟达CEO黄仁勋在4月15日彭博社播客中所警告的：“如果顶尖的AI模型被优化在华为芯片上运行，对美国而言将是‘可怕的后果’。”如今，距离这番言论仅过去9天，他所担心的事正在变成现实。

一、“这不是一场公平的比赛”

先看几组对比数据。

定价方面，DeepSeek V4-Flash每百万Token输出价仅0.279美元，而OpenAI同期发布的GPT-5.5 Pro输出价为180美元——整差645倍。V4-Pro版输入1.74美元/百万Token，输出3.48美元/百万Token，GPT-5.5 Pro则为30美元输入、180美元输出，输出端成本差距达98%。同期Claude Opus 4.6和谷歌Gemini 3.1 Pro的输出价均在12—25美元区间，是DeepSeek V4的数十倍。GPT-5.4和Claude Opus 4.6的API调用成本，大约是V4的50倍。

成本方面，DeepSeek画出了一条陡峭的下降曲线：V2训练成本降至GPT-4 Turbo的1/70，V3降至GPT-4的1/14，R1降至GPT-4o的1/20。三代产品，每代往下打一个数量级。这不是一次促销，这是一条曲线，一条将所有竞争对手拉入价格雪崩的曲线。其中当然有统计口径方面的争议——谷歌DeepMind负责人哈萨比斯曾指出DeepSeek的成本数据“被报小了”，分析机构SemiAnalysis估算其硬件投入可能远超5亿美元。但即便将所有基础设施投入纳入考量，DeepSeek在单次训练成本上的优势依然是数量级的。争议的焦点恰恰证明了结论：即便成本被低估了，它依然便宜得离谱。

性能方面，V4-Pro在Agentic Coding评测中达到开源模型最佳水平，交付质量接近Claude Opus 4.6非思考模式；在世界知识测评中大幅领先其他开源模型，仅稍逊于顶尖闭源模型Gemini-Pro-3.1；数学、STEM、竞赛型代码等推理任务中超越所有已公开评测的开源模型。在Codeforces编程任务中，模型评分达到3206分，位列活跃用户第23名。

更为“反常”的是性能提升定律的逆转：通常模型参数量扩张意味着算力消耗同步增长，但V4在1M上下文下单Token推理FLOPs仅为前代V3.2的27%，KV Cache压缩到仅占10%。这背后是一套组合拳：新的稀疏注意力机制（DSA）在Token维度进行动态压缩，混合注意力架构降低计算和访存开销，MoE架构以1.6万亿总参数仅激活490亿参数。

简单来说，DeepSeek V4重塑了整个AI行业的价格基准。

二、CUDA城墙上的第一道裂缝

这场发布带来廉价API只是冰山一角，真正让黄仁勋感到危机的，是这个等式的一个关键变量的改变：算力从哪来？

在DeepSeek V4的技术报告中，结尾处的硬件验证清单里，华为昇腾被并列标注在NVIDIA GPU的旁边。这是DeepSeek首次在官方文档中做出这样的并列。此举意味着全球第一个不依赖英伟达生态的前沿AI模型诞生了。华为方面介绍，昇腾950通过融合Kernel和多流并行技术降低Attention计算和访存开销，大幅提升推理性能，结合多种量化算法实现了高吞吐、低时延的DeepSeek V4模型推理部署。

更具体的技术细节随之流出：DeepSeek V4的细粒度专家并行（EP）方案同时在英伟达GPU和华为昇腾NPU上完成验证，在通用推理场景中实现1.50—1.73倍加速，在延迟敏感的强化学习推演和高速Agent服务场景中加速比最高达1.96倍。华为昇腾950PR推理芯片于2026年3月量产，单卡算力较英伟达对华特供版H20提升2.87倍。

生态适配的速度同样惊人。截至发布次日，已有华为昇腾、寒武纪、海光信息、摩尔线程、沐曦股份、昆仑芯、平头哥真武、天数智芯等8家国产AI芯片品牌及英伟达宣布适配DeepSeek V4；华为云、腾讯云、天翼云、PPIO等云服务商也第一时间宣布上架V4模型服务。更值得注意的是，寒武纪实现了Day 0适配——“大模型上线的当天，算力已完成全链路兼容、性能优化、稳定性验证。开发者开箱即用，零等待、零额外适配即可直接推理该模型”。过去，这一能力是英伟达独享的生态壁垒。

从经济学上看，这完全是一次理性的商业选择。昇腾950PR的采购价格约为英伟达H200的三分之一到四分之一，绝对算力约为H200的一半。在低精度推理场景下，华为芯片的SIMD/SIMT新同构设计、低精度数据格式支持和自研HBM等特性，能展现出超越通用GPU的效率。硬件更便宜，能效更高，且实现了与英伟达持平的生态响应速度——当供应链安全性成为企业级考量因素时，这笔账的答案已经不言自明。

华为与DeepSeek的联手，本质上重塑了全球算力市场的供需关系。阿里巴巴、字节跳动等国内科技巨头已向华为下单数十万颗昇腾芯片。当“中国AI不能没有英伟达”的认知被打破，被两大美国科技巨头垄断硬件平台几十年的局面，正在发生根本性的松动。对此，黄仁勋的评价是——“这对美国来说是灾难”。

三、“芯片+模型”，为什么是护城河的终结？

黄仁勋真正担心的不只是失去中国市场。当一个最先进的AI模型不再依赖特定芯片时，其过去十年构建的竞争壁垒——基于CUDA的软硬件生态垄断——将从根本上被瓦解。

要理解这一点，需要回溯一个经济学概念：技术锁定效应。历史上，技术平台的护城河并非来自某项硬件的绝对算力优势，而是来自其生态系统构建的用户粘性和迁移成本。几十年来，Wintel联盟用Windows操作系统捆绑英特尔芯片的模式统治了PC时代；过去十年，英伟达用CUDA编程框架加上GPU硬件构筑了AI时代的同款闭环。

CUDA生态的核心逻辑是：全球数百万AI开发者习惯在CUDA平台上进行编程和模型训练，几乎所有的AI框架都对英伟达GPU进行了优先适配，这种生态惯性一旦形成便极难迁移。资本市场的定价逻辑也建立在此之上——给英伟达数万亿美元市值的定价，本质上是对CUDA软件生态持续垄断的溢价。

但DeepSeek V4的出现，正在改变这个预期。这不仅仅是中国有了一个能打的模型，而是全球AI产业首次展示了一条可行的“去CUDA”路径：通过算法层面的工程优化，在算力受限的条件下实现顶级模型性能。

这正是国产AI算力生态近年加速演进的缩影。赛迪顾问预计，到2026年中国算力总规模将突破1200 EFLOPS，其中智能算力贡献率接近90%，“云端集中训练、边缘灵活推理”的协同模式将广泛应用，超节点架构将突破传统算力集群瓶颈。从技术底盘来看，这条路的基础设施已经铺好，DeepSeek V4不过是在其上面跑出了第一辆车。

同时，整个大模型行业正处于从“训练为王”向“推理决胜”的历史性转折。大模型训练曾是AI算力消耗的主体，而到了2025年下半年，AI推理的支出正式超过了训练，行业迎来所谓“推理翻转”。当重心从训练转向推理和规模化落地，算力的评判标准也随之改变——不再是谁的GPU更强，而是整个系统能不能跑起来。AI推理市场将从2025年的1060亿美元增长到2030年的2550亿美元，推理工作负载将在2026年占据约三分之二的AI计算资源。

在这一新范式下，对顶级训练芯片的依赖程度将大幅降低，而推理效率、部署成本和供应链安全将成为竞争新维度——这些恰恰是DeepSeek与华为昇腾组合的主场优势。

英伟达的“算力”叙事正在经历深刻的动摇。一篇分析文章指出：综合多家媒体信息，DeepSeek V4在设计之初便优先围绕华为昇腾AI体系进行适配。一旦成功绕过英伟达CUDA体系，DeepSeek将不再只是英伟达生态里的“租户”，被迫接受高昂的“算力租金”和随时可能断供的供应链风险，而是成为能自主定义算力效率、掌握技术栈主导权的“规则制定者”。

当规则制定者的角色开始转移，整个产业的利益分配格局也将随之重构。

四、“便宜50倍”——经济模型正在撕裂

从更长的时间线来看，DeepSeek带来的冲击早已超出单款产品层面。2025年1月，当DeepSeek R1发布时，英伟达单日市值蒸发近6000亿美元，被媒体标记为“DeepSeek时刻”。一年后V4发布，英伟达股价单日再跌约10%。而此刻，此前遭遇大跌的英伟达股价虽已重返5万亿美元上方，半导体板块走出18连涨，但有分析指出，这波反弹中美国科技股表现并不亮眼，七大科技公司无一创出新高，暗示投资者对AI算力开支可持续性的深层次担忧并未消散。

这些波动背后，反映出市场对AI芯片未来需求的判断正在发生根本性分歧。长期看，算法效率的快速提升与推理需求的结构性转变，正在重塑英伟达的增长叙事。

论据一：算法效率正在超过硬件迭代速度。斯坦福大学2025年发布的《大模型规模定律》指出，当参数超过5000亿后，模型在推理能力、常识理解等核心指标上的提升幅度从早期的30%以上降至不足5%，而训练成本和能耗却呈指数级增长。换言之，单纯堆砌算力的回报递减效应已经明显出现。与此同时，OpenAI CEO奥尔特曼本人也承认——使用特定水平AI的成本每12个月下降约10倍，比摩尔定律更加强劲。这种成本衰减速度远超芯片工艺进步速度，说明真正推动降本的力量主要来自算法创新而非硬件迭代。

论据二：模型之争正在让位于Agent之争。在DeepSeek V4仅约1000字的产品介绍文章中，“Agent（智能体）”一词出现了11次。V4的定价策略——低价Flash版搭配高价Pro版的“高低组合”——明确的商业意图是打通Agent规模化落地的成本账。这标志着大模型竞争正从“聊天便宜”进入“Agent便宜”时代。Agent作为AI应用落地的核心形态，其大规模部署所需的算力需求结构与传统模型训练截然不同，更强调低延迟、高吞吐和成本可控，而非单点算力峰值。

论据三：算力的需求正在从训练端全面迁移至推理端。 2026年GTC大会上黄仁勋亲自宣布推理的拐点已经到来，过去两年AI计算需求激增了1万倍。这个市场与训练市场截然不同，它不仅规模在迅速扩大，且其需求特征——低延迟接口、定制化部署、混合精度推理——对于传统高门槛的顶级GPU形成了需求替代。这种推理成本数量级的下降将释放天文数字级的增量应用场景，而不仅仅是在现有存量市场中争夺份额。

五、梁文峰理想主义者的现实一步：DeepSeek的瓶颈与抉择

然而，一片欢呼之下，DeepSeek V4的发布也暴露出这家明星公司正在经历阵痛。

在V4价格说明中有一行几乎被忽略的灰色小字：“受限于高端算力，目前V4-Pro的服务吞吐能力十分有限，预计下半年昇腾950超节点批量上市后，Pro的价格会大幅下调。”这行字明白地揭示了国产算力适配的现实骨感：尽管跑通了，但规模化商用仍需时间。

算力紧缺在DeepSeek的产品端早有征兆。2026年初至今，DeepSeek曾突发多次服务中断，最受关注的便是3月30日至31日的连续宕机事件。一位从事大模型研究的高校学者坦言：“国产算力支持下的DeepSeek V4大规模商用仍需时间。”

除了算力瓶颈，DeepSeek还面临来自大洋彼岸的合规压力。2026年2月，特朗普政府高级官员透露，DeepSeek即将发布的最新AI模型是用英伟达最先进的Blackwell芯片训练的，可能已违反美国出口管制规定。虽然DeepSeek在V4中展示了华为昇腾适配成果，但训练阶段是否使用了受管制芯片的问题，仍笼罩着一层迷雾。一位DeepSeek合作供应商人士坦言，V4之所以姗姗来迟，深层原因在于算力架构的重构。

更大的变数来自DeepSeek自身。2026年4月，DeepSeek几乎同时公布了两条大新闻：V4发布，以及启动首次外部融资，目标估值从100亿美元迅速抬升至200亿到300亿美元，腾讯、阿里正洽谈入局。一内一外两种变化，意味着这家长期靠创始人梁文锋和背后量化基金幻方量化纯自研之路的“技术理想主义者”，正在完成自己的“成人礼”。

融资的压力并非空穴来风。随着郭达雅（R1核心作者）、王炳宣（LLM核心作者）等核心人才被字节、腾讯等大厂挖走，DeepSeek需要一笔大额融资稳定军心、招兵买马。多名知情者透露，DeepSeek的资金压力始于2025年训练更大规模模型的需求。当理想主义遇上规模化的铁血法则，从“靠自有资金输血”转向“拥抱资本”，这或许是DeepSeek必须迈出的一步。

梁文锋直接和间接持有DeepSeek 84.29%的股份，拥有几乎100%的表决权，这在中国AI创业公司中显得格外另类。融资完成后，这一结构很可能发生重大变化，DeepSeek的未来走向将更加复杂——既要维持技术普惠的开源理想，又要回应资本对商业化的诉求；既要推进国产芯片适配，又要在算力短缺的现实下保持竞争力。

六、双向脱钩：全球AI产业链的重构

将视野进一步拉远，DeepSeek V4的发布本质上是一个地缘技术变迁的标志性事件，它昭示着一场双向脱钩正在发生。

一方面，美国通过持续的芯片出口管制试图遏制中国算力能力，但刺激出的反而是更独立的生态闭环。科技史上屡见不鲜的规律是，外部封锁往往成为内部创新的最大催化剂。黄仁勋本人也曾在播w客中激烈反驳“芯片是浓缩铀，不该出口给中国”的说法，警告过度限制无法阻止中国进步，反而会逼中国建立完整的自主生态。英伟达最担心的不是失去一笔订单，而是在封锁倒逼之下，出现一个完全绕开其CUDA生态的全新AI基础设施体系。

另一方面，中国AI产业正在迅速补完“模型+芯片+系统”的完整拼图。华为与DeepSeek的芯模技术协同，在工程层面实现了从“能用”到“好用”的跃迁，为中国企业在全球科技供应链中争取更多主动权和话语权。当人工智能领域的算法创新不再绑定单一硬件生态，供应链安全的红利将从美国的几个科技巨头手中扩散到更广阔的市场参与者之间。

然而，产业链的解耦绝非坦途。根据SemiAnalysis的测算，OpenAI的10万台GB200算力平台上一年的计算量，DeepSeek可能需要15个月来完成——算力仍然是一个无法回避的物理规律。此外，CANN生态的成熟度、第三方库支持、调试工具链仍不及CUDA，中小团队迁移存在门槛。从“能跑”到“大规模商用好用”，差距依然存在。

但更重要的是方向。竞争格局正在从“英伟达+美国大模型”的单极世界，演变为“双轨道并行”的多极世界。一条轨道以英伟达CUDA生态和OpenAI/Anthropic闭源模型为代表，延续高投入、高算力消耗、高定价的商业路径；另一条轨道以DeepSeek开源模型和华为昇腾算力为代表，追求工程效率极致、低成本普惠化的开放路径。两条轨道的并存和竞争，将深刻塑造未来十年全球AI的分配格局和话语格局。