DeepSeek-V4发布，黄仁勋的担忧成真了

镜相工作室·2026年04月24日 20:35

DeepSeek的野心——想当规则制定者。

“如果顶尖的AI模型被优化在华为芯片上运行，对美国而言将是‘可怕的后果’。”

这是英伟达CEO黄仁勋近期在一档播客节目中发出的警告。让他发出警告的对象，是即将发布新模型的中国AI公司DeepSeek。

让黄仁勋警惕的，并不是某个具体的模型能力，而是另一件事——综合多家权威媒体报道： DeepSeek-V4 模型在设计之初便优先围绕华为昇腾AI体系进行适配。

一旦成功绕过英伟达的CUDA体系，DeepSeek将不再只是英伟达生态里的一个“租户”，被迫接受高昂的“算力租金”和随时可能断供的供应链风险，而是成为能自主定义算力效率、掌握技术栈主导权的“规则制定者”。

黄仁勋的这种担忧在今天（4月24日）成为了半个现实。

沉寂近五个月后，DeepSeek带着V4重新回到市场中心，在其定价说明中，有一行几乎被忽略的灰色小字：受限于高端算力，目前Pro的服务吞吐十分有限，预计下半年昇腾950超节点批量上市后，Pro的价格会大幅下调。

这一细节至少说明，国产算力已经在DeepSeek的整体体系中占据了重要位置，甚至在关键路径上开始影响其成本结构与定价逻辑。

这并不意味着既有格局被打破。从技术报告来看，DeepSeek当前最成熟、最稳定的实现仍然建立在CUDA体系之上，核心算子与工程优化依旧集中在英伟达生态内。这也意味着，在短期内，CUDA仍然是行业默认的“最优路径”。

只是，DeepSeek-V4也证明了，CUDA构建的城墙，已经不再坚不可摧。

DeepSeek-V4都做了什么

DeepSeek-V4实际上就干了一件事：用极致的工程效率，把“顶级大模型”的门槛打了下来。它没有单纯堆砌参数，而是通过一套组合拳，让高性能AI变得既好用又便宜。

具体来看，首先是参数规模：旗舰版本DeepSeek-v4-pro总参数达1.6万亿，但每次推理仅激活490亿参数；轻量版本DeepSeek-v4-flash则控制在2840亿参数、130亿激活规模。

● 同一时期国内主流大模型参数对比。制图：镜相工作室

两个版本背后的逻辑一致：通过MoE（混合专家）架构，在不显著增加实际算力负担的前提下扩展模型容量。通过工程优化，让模型在推理时只调用最相关的部分，从而实现低成本下的顶级性能。这种结构换算力的思路在V2时期已初见成效，在V4中被进一步放大。

在上下文能力上，DeepSeek直接将100万tokens作为“所有官方服务的标配”。相当于你用它的App、网站或API，默认就能一次性上传一整本《红楼梦》、整个项目的代码库或一份完整的年度报告，让AI从头到尾读完并处理。

在行业中，长期存在上下文越长，成本越高的矛盾。传统的AI模型为了理解长文本，它需要记住每个字，并且计算每个字和全文中其他所有字的关联。相当于为了一句话，就需要翻阅并重读整本字典，效率极低，成本也高。

而V4没有硬扛这个数学难题，而是用DSA稀疏注意力（DeepSeek Sparse Attention）的新机制，通过“打包摘要”和“只抓重点”，大幅降低了处理和记忆长文的计算量与成本。百万字的长文在AI的“工作内存”（显存）里，就变成了几百个高度浓缩的要点，体积和负担骤减。

如果这一机制能够在真实场景中稳定运行，那么长上下文能力将从高端模型的附加项，逐渐转向应用层的基础配置。

再来看能力层面的变化：

Agent能力方面，V4-Pro已进入开源模型的第一梯队。在Agentic Coding评测中，其表现达到当前开源最优水平，并在内部直接作为工程团队的编码工具使用。评测反馈中一个颇具参考价值的细节是，其输出质量已经接近美国AI企业Anthropic高端模型的常规非思考模式，但在更复杂的思考模式上仍有差距。

推理能力方面，在数学、STEM以及竞赛级代码任务中，V4-Pro的表现超过现有公开评测中的开源模型，并逐步逼近顶级闭源产品。

世界知识方面，V4-Pro大幅领先其他开源模型，和谷歌的顶尖闭源模型Gemini-Pro-3.1存在差距。

这些能力并非孤立存在，而是围绕具体应用场景展开。V4针对Claude Code、OpenClaw、CodeBuddy等主流Agent工具进行了适配，在代码生成与文档处理等任务中优化表现。可以看出，它的目标并不是成为最全面的模型，而是更直接地嵌入开发流程，承担实际生产任务。

系统层面则藏着DeepSeek能够便宜下来的“秘密”。

技术报告显示，DeepSeek在系统底层做了一套“细粒度专家并行（EP） ”方案，简单理解，就是优化了AI模型在芯片上的“调度算法”，让计算和通信能像流水线一样重叠进行。

这套方案已在英伟达GPU与华为昇腾NPU两套体系上完成验证，推理速度提升了约1.5到2倍。这意味着同样的芯片，能处理更多的用户请求，单位成本自然就降了。

不过，从开源实现来看，当前最成熟的版本仍基于CUDA。也就是说，核心优化具备跨平台能力，但工程上的最优路径依然集中在既有的英伟达体系之中，这种状态为后续的迁移与扩展保留了空间。

定价依旧是DeepSeek最让同行牙痒痒的地方。在缓存命中条件下，Pro版本输入价格为1元/百万token，Flash版本低至0.2元；Pro版本输出价格24元/百万tokens，Flash版本输出价格2元/百万tokens，都显著低于其他模型水平。

在DeepSeek-V4定价表格下方，一行小字值得关注：受限于高端算力，目前Pro的服务吞吐十分有限，预计下半年昇腾950超节点批量上市后，Pro的价格会大幅下调。

当价格调整开始“锚定”某一类算力集群的部署进度时，背后往往意味着该类算力已经在整体体系中占据了相当权重，至少在关键路径上具备决定性影响。

对于DeepSeek而言，这更像是一种间接披露——其推理或服务体系，正在越来越多地建立在国产算力之上，而算力供给的变化，已经能够直接传导到定价层。

同时，这一逻辑还隐含着另一层变化——模型价格不再只是取决于算法效率，而是开始由算力结构决定。随着昇腾超节点进入规模化阶段，单位算力成本下降所带来的，不只是利润空间的释放，更是价格体系的重塑能力。也正是在这一意义上，DeepSeek的低价策略，正在从工程优化驱动，逐步过渡到算力体系驱动。

沉默下的野心和无奈

从内外部环境看，让新模型优先适配国产芯片，是DeepSeek有意推进的事。它想做的不只是多找几家可用的AI芯片供应商，更是在尝试触碰更底层的东西——通过摆脱英伟达的束缚，走出由上游芯片厂商定义规则、模型公司被动适配的关系，进而反过来重塑上游。这是DeepSeek真正的野心。

理解这一点，要先理解梁文锋。从更早的时间点来看，DeepSeek对算力的重视带有一种近乎偏执的前瞻性。2015年，甚至更早的2012年，他们就关注到算力储备，至生成式AI爆发前夜，已囤积了大量英伟达A100芯片，后来成为了“大厂外唯一一家储备万张A100芯片的公司”。

梁文锋在接受暗涌采访时说：“对研究员来说，对算力的渴求是永无止境的。做了小规模实验后，总想做更大规模的实验。”这种渴求背后对应着一个现实的问题，大模型公司的核心生产资料不仅是代码，更是算力本身；谁能够掌控算力，谁才有资格稳定地研发、生产模型。

所以DeepSeek后来做的，不只是争取更多算力，而是在试图降低对单一算力体系的依赖。其选择国产AI芯片，本质上是在建立一套可控的、可持续的生产体系。

而这种抉择，几乎贯穿了其过去多年模型研发的始终。简单说，它在做两件事：一是绕开英伟达设定好的部分“规则”，二是在尝试给自己造一个跨不同芯片都能工作的“万能转换头”。

第一步发生在模型架构层。2024年5月发布的V2，用MoE架构大幅降低了模型对算力的消耗。它像是把一个庞大的专家团队拆分成许多小组，每次只调动最合适的一小部分人干活，而不是让所有人同时上阵。结果是，总参数规模虽然很大，但每次真正参与计算的只是一小部分。

到了R1和V3阶段，DeepSeek向底层“施工现场”下探。我们可以把CUDA理解成英伟达给开发者制定的一套通用施工规范，绝大多数模型都按照这套规范搭房子。而DeepSeek开始尝试绕开其中部分标准流程，直接接触更接近硬件的PTX（英伟达为编程其GPU而引入的一种并行线程执行架构的中间语言）指令，自己调配钢筋、水泥和施工顺序。

这样做很难，因为越靠近底层，越需要对硬件细节有极深理解。但好处也明显，同样一块GPU能榨出更多性能，甚至在硬件条件不占优时，用工程优化弥补部分差距，从而降低对高端GPU的依赖程度。

前两步还是在英伟达体系内做更高难度的优化，去年9月V3.2-Exp的尝试，开始有了另一层意味。他们对主流算子库做了调整，引入了TileLang——一个“万能转换头”。

过去开发算子（模型运转最底层的计算单元），很像给不同国家的电器配插头，每换一种GPU，都要重新改写一遍代码，成本高、周期长，而且高度依赖CUDA。DeepSeek的方案是，先用一种更高层、更通用的语言把计算逻辑写出来，再把它翻译成适配不同GPU的代码。

TileLang就是这样一种尝试。开发者可以先用更接近Python（AI研发的世界语）的方式快速写出算子原型，再通过编译器映射到底层执行，并结合具体硬件做优化。这样一来，过去一块GPU写一套代码的方式，就开始变成先写通用逻辑，再做局部适配。华为部分芯片也在推进对TileLang的适配，意义正在这里。

从架构创新，到规则绕行，再到算子库改写、国产芯片大规模适配，DeepSeek的野心越来越大，走的路也越来越崎岖。

从V2到V4，中间横跨15个月，期间经历长时间沉寂。外界看到的是发布频率偏低，看不见的是大量系统工程投入。这类软硬件协同创新，本来就比单纯做模型参数迭代难得多，因为动的不只是模型，还有底层技术栈。这也解释了，为什么R1之后DeepSeek人才会成为大厂争夺目标——行业意识到了这种工程路线的价值。

但技术理想主义之外，DeepSeek还有现实考虑。作为一家坚持开源路线的模型公司，DeepSeek天然缺乏类似OpenAI那样的闭环商业能力，也没有谷歌或亚马逊那样可以内部消化模型成本的云计算体系，更没有腾讯、阿里、字节等大厂那样完备的商业生态，开源意味着更强的影响力和更快的扩散速度，但也意味着更薄的利润空间和更高的成本敏感度。

这也是为什么DeepSeek在V2模型阶段就选择用极致的成本打穿市场，直接掀起一场“价格战”，本质还是通过工程能力换取商业空间。但这种优势建立在一个前提上，那就是算力成本必须可控。一旦GPU价格上涨或供给收紧，成本优势就会迅速被侵蚀。因此，对于一家开源公司来说，摆脱对单一算力生态的依赖，不只是技术选择，更是商业生存的要求。

与此同时，同业竞争进一步放大了这种压力。过去一年，大模型高频迭代，主流厂商几乎以周为单位发布新模型，再加上多位核心人才流入其他模型厂商或大厂，DeepSeek不得不承认，如果继续在既有路径上与同业竞争，很可能陷入节奏与资源的双重劣势。

在这样的背景下，DeepSeek选择将万亿级参数的自研模型优先适配国产芯片，甚至有意延后向英伟达、AMD提供访问权限，给国产芯片留足软硬件适配、调优的时间，是一种改变游戏规则的尝试。相比在英伟达CUDA体系内与同业正面竞争，DeepSeek更有可能通过软硬件协同的方式，重新定义自身优势边界。这也是DeepSeek最擅长的，通过工程与架构创新，重写竞争边界。

这意味着，它不再只是一个使用算力的公司，而是在尝试参与定义算力，乃至反过来、自下而上重塑这套生态。

● DeepSeek正通过实现国产芯片软硬件协同挑战英伟达的封锁地位。图源：AI生成。

撕裂英伟达CUDA生态

这是黄仁勋第二次因为DeepSeek而感到紧张。

第一次发生在R1模型发布之时。DeepSeek直接冲击了行业对算力堆叠的路径依赖，也在短期内引发了市场对英伟达需求预期的波动。据报道，去年1月R1模型发布后，经过几天市场情绪的发酵，英伟达迎来了股价大跌，在短短三天内蒸发了6000亿美元。

彼时，黄仁勋“挽尊”说，DeepSeek及其开源推理模型所带来的能量“令人无比兴奋”，但投资人“判断错误”，误以为这对英伟达及人工智能（AI）产业是不利的。它不仅不会终结AI计算需求，反而会扩大并加速市场对更高效AI模型的追求，从而推动整个行业的发展。

但现在，黄仁勋不再避讳对DeepSeek使用华为芯片的焦虑。

要理解这一点，必须回到英伟达真正的护城河——CUDA所构建的软件生态。

CUDA不仅是一个编程工具，更像是AI时代的“操作系统”；全球数百万开发者围绕它构建了加速库、框架与模型代码，一整套开发范式由此形成。正因为如此，迁移成本极高，一旦离开CUDA，大量底层代码需要重写，工程与测试成本动辄达到千万级别。这才是英伟达长期占据主导地位的核心原因。

目前，国内芯片厂商在试图填补这一生态空白。例如华为推出的CANN体系，在设计上直接对标CUDA，通过兼容部分CUDA API和自动转换算子，降低开发者迁移门槛。同时支持主流框架，并推动自研框架的落地。这种路径先通过兼容降低切换成本，再逐步建立自身生态。

虽然当前性能损耗与工程复杂度仍然存在，但大模型厂商也在努力。几乎所有主流模型厂商，在发布新模型后，都会同步适配多种国产AI芯片，包括昇腾、昆仑芯、寒武纪等。

不过，在相当长一段时间里，这种适配更多停留在兼容层，大多数模型仍然围绕CUDA体系开发，并没有摆脱英伟达生态的引力。

DeepSeek的不同之处在于，它并没有完全依赖这种兼容路径，不是简单地迁移，而是在一定程度上重新搭建一套体系，剑指最庞杂的生态层。

虽然短期内DeepSeek很难对英伟达形成实质性冲击，但真正值得关注的是中长期的边际变化。DeepSeek的特殊性在于，它不仅是一个模型厂商，还是一个拥有广泛开发者基础的开源项目。

根据OpenRouter统计，截至4月13日的一周，全球大语言模型token（词元）消耗量榜单中，DeepSeek-V3.2模型消耗量1.28万亿，排名全球第二，仅次于Anthropic旗下的Claude Sonnet 4.6模型，但前者的输出价格只有后者的约1/12、输入价格只有1/40。

这意味着，一旦其模型在非CUDA体系上运行成熟，其所带来的不仅是技术验证，更可能是开发者行为的改变。对于开发者而言，是否迁移，并不完全取决于底层架构使用习惯，还取决于模型是否足够好、成本是否足够低。

这也正是开源路径的魅力所在。与闭源模型不同，DeepSeek的技术路线、算子实现以及工程经验，都可以被其他模型厂商和硬件厂商复用。一旦这种路径被证明可行，其扩散速度可能远快于单一公司的技术突破。

因此，与其说DeepSeek正在冲击英伟达，不如说它正在打开一道裂缝。这道裂缝短期内不会动摇英伟达的主导地位，但如果越来越多的模型厂商开始在训练阶段尝试非CUDA、非英伟达路径、如果越来越多的开发者开始适应新的工具链，那么英伟达长期建立的软件壁垒，可能会慢慢垮塌。

当然，这一过程仍然充满不确定性。但可以确定的是，随着国产模型和芯片的探索，AI时代的竞争，正在从谁的A100更多、更高端，逐步转向谁能构建更完整的软硬件体系。

参考资料

暗涌：《疯狂的幻方：一家隐形AI巨头的大模型之路》《DeepSeek 创始人专访：中国的 AI 不可能永远在跟随，技术创新永远是第一优先级》

晚点Latepost：《V4 发布前的 DeepSeek：特质、组织和梁文锋的独特目标》

APPSO：《DeepSeek，该卸下扫地僧的枷锁了》

财经AI湃：《沉默了五个月的DeepSeek，在被期待什么？》

21世纪经济报道：《黄仁勋首度回应DeepSeek冲击！英伟达暴跌系投资者误解》

Thenextweb: <Nvidia’s Huang warns DeepSeek running on Huawei chips would be ‘horrible’ for the US>

The Information: <DeepSeek’s New AI Model Will Be a Victory for Huawei>

Tomshardware: <DeepSeek's AI breakthrough bypasses industry-standard CUDA for some functions, uses Nvidia's assembly-like PTX programming instead>

Reuters:<DeepSeek withholds latest AI model from US chipmakers including Nvidia, sources say >

本文来自微信公众号“镜相工作室”，作者：彭杰克，编辑：程述白，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

DeepSeek-V4发布，黄仁勋的担忧成真了

DeepSeek-V4都做了什么

沉默下的野心和无奈

撕裂英伟达CUDA生态

参考资料

最近内容

下一篇