DeepSeek不需要永远强，它只需证明这条路走得通

最话FunTalk·2026年04月27日 20:29

它的使命是开启一个AI大航海时代

才发布没两天，DeepSeek就大降价。

4月25日晚，DeepSeek宣布对V4-Pro模型API开启限时2.5折价格优惠。26日晚，DeepSeek又宣布V4全系列API服务的输入缓存命中价格降至原有价格的1/10。其中，Pro模型在今年5月5日前叠加2.5折限时优惠。最新调价后，DeepSeek-V4-Flash每百万tokens输入缓存命中价格为0.02元，DeepSeek-V4-Pro为0.025元。

这一价格不但比国外大模型，就是比国内其他大模型都有很大价格优势。在DeepSeek首次官宣降价的第二天，DeepSeek-V4-Flash的调用量为814亿Token，较前日环比增长62.2%；DeepSeek-V4-Pro的调用量为96亿Token。

虽然，完成整个任务还涉及到任务类型、模型效率、推理长度、模型输出Token数等因素，最终账单不仅取决于输入价格，但大降价后，开发者们仍有望用V4跑通商业模式。

难怪有人说，“DeepSeek归来，梁文锋杀疯了。”

在V4发布前的一年多里，这家曾让硅谷侧目的公司，在绝大多数时间里是自我隐匿的，外界只能通过它发布的论文来推测其进度。期间，DeepSeek团队成员的不断流失，至少5名核心研发成员确认离职：第一代大模型核心作者王炳宣去了腾讯，V3核心贡献者罗福莉被雷军以千万年薪挖走，R1核心作者郭达雅转投字节跳动，多模态核心研究员阮翀加盟了自动驾驶公司元戎启行。

同时，从2025年1月R1爆红到2026年4月V4发布，DeepSeek整整15个月没有发布大模型新版本。同期，OpenAI连推GPT-4.5、GPT-5和多个推理变体，Anthropic迭代了三代Claude，字节豆包月活冲至3.31亿，智谱和MiniMax也陆续发布了GLM-5和MniMax-2.7等新一代模型。

这“空白”的15个月，相当于DeepSeek在全球大模型竞赛中隐匿了一个代际。而今，DeepSeek V4从地平线的远方归来，最终掀开了面纱。

从性能上看，在世界知识、推理以及Agent能力方面，DeepSeek-V4均实现国内与开源领域的领先，甚至接近了Claude-0pus-4.6等顶尖大模型。

在 Agentic Coding 评测中，V4-Pro 已达到当前开源模型最佳水平，并在其他 Agent 相关评测中同样表现优异。

在架构层面，V4完成了三重关键突破：一是首创CSA+HCA混合注意力机制，通过双重压缩将长上下文计算量降低73%、显存占用减少90%，让百万上下文不再是昂贵的附加功能，而是默认基础设施；二是引入mHC流形约束超连接，以不到7%的微小开销解决了超深网络的信号衰减难题；三是全面切换至Muon优化器，在训练效率和收敛稳定性上实现了代际跃升。

这样的突破，让DeepSeek终究不负众望，但此次V4最让人期待的重要突破是对国产算力的适配，将底层代码全面迁移至华为的CANN生态，让V4的推理能运行在昇腾950PR芯片。

这需要经历一次艰难的适配过程，可以看作是国产AI的“探月工程”，需要从DeepSeek到华为再到半导体设备厂商等整个链条的配合。

这不是一个轻松的技术决策，这是一场赌上公司乃至整个国产大模型业界未来命运的架构豪赌。

而理解这场豪赌，需要先看清一个正在吞噬整个AI行业的结构性困境。

01 必然与偶然

2026年的AI行业，正在经历一场教科书级别的杰文斯悖论。

1865年，英国经济学家威廉·杰文斯观察到一个反直觉现象：蒸汽机的效率越高，英国的煤炭消耗总量反而越大。效率提升不会减少资源消耗，反而会因为使用门槛降低而刺激更大的需求。160年后，同样的剧情正在AI推理算力上重演。

根据清华大学最新发布的《Token经济学全景报告》，过去三年，模型推理成本下降了280倍，但企业的AI总支出反而增长了2.4倍。

同样地，36氪对企业支出的调查统计也显示：AI推理成本在18个月内下跌超过80%，但中国三大云厂商却在同一周宣布涨价。越便宜，烧得越凶。推理成本变得愈发昂贵，这是整个行业的结构性宿命。

最先被这个宿命击中的，是硅谷的标杆企业Anthropic。

2026年，Anthropic仅推理成本一项预计就将达到141亿美元，比2025年增长68%。公司2025年全年现金消耗约85亿美元，2026年预计全年亏损140亿。CEO Dario Amodei在播客中说了一句让整个行业倒吸冷气的话："如果我的收入无法达到1万亿美元……一旦我购买了那么多的算力，地球上没有任何力量能阻止我破产。"

这是行业的"大必然"——使用成本边际降低，需求快速上升，推理总算力需求会快速反噬AI企业的利润，没有人能幸免。

而在这个大必然之下，出现了一个"小偶然"。

3月初，用户发现Claude Opus 4.6的性能出现了明显下降。编程能力断崖式滑坡，推理深度崩塌67%，第三方测试排名从前2跌至第7。但Token消耗反而增加了——降智的同时还在变相涨价。

Anthropic官方的解释是"自适应思考模式优化"，但业界心知肚明：这是算力告急的征兆。

此前AnthropicCEO Dario Amodei在自己的公开播客采访表示，到年底，公司需要超过5GW的算力才能满足推理和训练需求，但因为此前采购过于保守，公司已经面临"不得不接受更高价格"的局面。

这场算力危机，并不只是Anthropic一家的噩梦。

同期的OpenAI同样焦头烂额。GPU租赁价格在60天内暴涨48%，英伟达Blackwell芯片供应全面告急；2026年美国原计划上线的AI数据中心，有将近一半因为电网瓶颈和建设延期被推迟或取消，形成了高达7GW的算力缺口。

但需要指出的是，这样的算力“短缺”其实是一种『贵族的饥饿』——硅谷目前仍然掌握着全球最大的算力池，在绝对算力上碾压中国，只是这个池子，现在暂时填不满它们AGI野心的胃口。

但尽管如此，V4仍然获得了一个难得的突围“窗口期”：那就是在硅谷巨头算力高攀不下时，从成本结构上，对其实施“突袭”。

02 国产算力的"突袭"

可能有人会问：这样的“突袭”，究竟意味着什么？是指V4趁Anthropic算力短缺、模型降智之时，以较低成本杀入编程领域，实现对开发者群体的抢占吗？

很遗憾，这样的想象在现实中并不成立。

说实话，V4发布后，笔者第一时间与技术社区的开发者进行了讨论，但相当一部分开发者表示，即使V4在价格上，与Opus相比有较大优势，他们也不会将其当成实际工作中的首选。

为什么？因为在一线开发者和程序员看来，编程工具，往往只有最优，没有次优。甚至可以直接说，在AI coding领域，第一名会赢家通吃。

根据某一线开发者反馈，实际用的时候，国产模型便宜的那点钱，在多轮出错的场景下，其实贵的要死，开发者使用Opus或codex交互，能实现一遍过，成本可能是1美元，而某些国内模型，可能需要5轮才过，成本是2美元。

如果V4在编程和复杂推理上无法匹敌Opus的巅峰状态，多数人不会轻易切换。这是现实，不必回避。

因此，真正能让V4实现“突袭”的，可能是另一个战场。

此次V4发布，除了百万上下文、全栈国产化算力适配（如华为昇腾、寒武纪等）、以及混合注意力架构（CSA + HCA）与流形学习优化等底层技术创新之外，更重要的升级，就是DeepSeek在Agent方向上的突破。

其在Agentic Coding评测中成为开源最佳，内部使用体验已优于Sonnet 4.5，交付质量接近Opus 4.6非思考模式，并针对Claude Code、OpenClaw、CodeBuddy等主流Agent框架做了专项优化，明确将自身定位为Agent基础设施。

而Agent能力，之所以当下变得如此重要，是因为目前的AI竞争，已经进入到了一个新阶段。

2026年第一季度，一个数字震动了整个AI行业：中国大模型Token日均调用量首次超越美国。国家数据局的曲线近乎垂直：从2024年初的约1000亿，到2025年中突破30万亿，到2026年2月达到180万亿。两年涨了1800倍。

而驱动这最后一段最陡峭增长的，恰恰是OpenClaw生态的高频调用需求。

然而，就在这关键的档口，Anthropic却主动将大量中低端用户“推向”了中国。

当OpenClaw在全球扩散后，Anthropic很快发现一个问题：一个每月付49美元Claude Max订阅费的用户，如果用OpenClaw跑一个7×24小时的自主Agent实例，消耗的算力相当于几百个普通对话用户一个月的总量。

订阅制定价根本无法在Agent时代维持盈利。于是Anthropic宣布：通过个人订阅账号的OAuth令牌接入第三方工具，属于违规行为，发现即封号，无缓冲期。

之后，中国模型的调用量开始在Agent方向持续疯涨。

根据OpenRouter平台2026年4月第一周的最新统计数据显示，中国AI大模型周调用量高达12.96万亿Token，连续五周超越美国。

这就是Agent时代竞争维度的切换：在对话式AI时代，模型的质量上限决定一切；在Agent时代，成本、稳定性、对高频调用的支持程度，首次跑到了质量前面。

这个维度的切换，恰好是中国AI的优势区间。

所以这场“突袭”的实质是：DeepSeek V4这类中国AI，以不俗的性能+低廉的国产算力，在Agent的中间层场景里，用成本和稳定性切走了一块原本属于他们的蛋糕。

这样的不对称优势，就是规则转换期的机会窗口。

03 杯子壁的高度

如果按照某种模型迭代的推演逻辑，在未来，随着国产模型不断地迭代、进步，在Agent这个赛道上，国产大模型的能力，最终会达到大多数常规任务的上限，毕竟，常规任务就像一只容量有限的“杯子”，往里倒再多的智能，最终的结果也只能是“溢出”。

到了那时，在Agent场景下，性能与Opus已无太大区别的国产AI，将通过国产算力的低成本，取得进一步优势；

昇腾950PR定价7万元，英伟达同级别H200在中国市场报价高达25万元，这相当于是便宜了三分之二的价格。

然而，现实终归是复杂的、有灰度的，真实情况也许远比这更诡谲。

在Anthropic自己发布的《2026 Agentic Coding Trends Report》中，其将现在的Agent任务分成了三层：

底层（高频、低风险）：代码补全、单元测试生成、文档注释、格式规范化、简单Bug修复。这类任务占企业Agent调用量的约65%；

中层（中频、中风险）：跨文件重构、API集成、数据库查询优化、报告生成、合同条款提取。占约28%；

顶层（低频、高风险）：生产级系统架构决策、安全漏洞审计、复杂财务建模、多步骤法律合规分析。占约7%；

底层那65%，"杯子溢出"论完全成立。代码补全到了正确就是正确，你用Opus 4.7还是用DeepSeek V4，最终的单元测试通不通过是客观事实，没有"更通过"这个说法。

但顶层那7%，才是真正拉开差距的地方。

SWE-bench Pro是目前最接近真实生产环境的代码基准——它用的是真实企业代码库里的真实工单，而非精心设计的题目。

而在这个区间，Anthropic最新的Claude Opus 4.7已经达到了 64.3%的水准，而国产模型在该区间的差距被放大到6-12个百分点。

这6-12个百分点，就是"杯子壁"的高度。

然而，Anthropic自己也没有解决“简单任务满分、复杂任务崩塌”的问题。目前在SWE-bench Pro测试集上，还没有模型能够突破60%的区间。

是的，在真实场景下，模型之间的差距，远不止是“填更高的杯子”那么简单。

因为就现状来看，Anthropic没有在追更高的任务，而是在把同一层任务做得更深、更可靠、更难以替代。

例如其门下的Claude Code Channels，把同样的高价值Agent能力，从IDE延伸到Discord和Telegram，让非技术团队也能用——背后的思路，是用可靠性和深度集成，不断抬高企业的切换成本。

对V4这类后起之秀来说，这反而是比"换杯子"更危险的竞争策略——因为后者可以被追赶，前者构建的是一堵越来越厚的墙，而不是一个越来越高的杆。

04 鲶鱼的使命

此次V4的发布，可以说精准地踩中了“天时地利人和”的每一步。

当OpenAI、Anthropic等硅谷巨头纷纷面临算力短缺，而老黄的地位也在被谷歌的第七代TPU、亚马逊大规模上量的Trainium 3，甚至特斯拉自建晶圆厂等多元力量挑战的当下，V4恰逢其时地挟国产算力杀出，就像一个冲锋的尖兵，趁敌军阵脚混乱的时刻，突破了重重围困，杀出了一条生路。

但实事求是地说，这样的“突袭”，时间窗口是有限的，前景也不见得完全明朗。

那照这么看，V4此次发布的历史使命，究竟是什么？

答案或许是：V4真正的历史使命，从来就不是超越或打败Opus这样的怪物，而是当一条永远不安分的鲶鱼。通过一次次范式、算法和架构上的创新，搅动整个国内AI行业。

而在这一次次搅动中，中国的AI企业，能从那些“大厂思维”看不到的角落里汲取灵感，不断进行着进化与蜕变。

Kimi K2.6就是一个鲜活的例子。这款基于1万亿总参数、32B激活参数的MoE架构模型，在LiveCodeBench基准测试中取得了85%的高分，多Agent并发不限流，23个Agent同时运行仍能稳定完成开发全流程。而它的架构思路，很大程度上受到了DeepSeek此前在MoE和推理优化方面的启发。

这就是鲶鱼效应的传导链条：DeepSeek的架构创新，倒逼月之暗面、智谱、MiniMax跟进优化；这些公司的竞争，又反过来推高了整个国产模型生态的水位线。不是某一条鱼在游，是整个池子的水被搅活了。

而DeepSeek-V4最新的刺激是它在公告标题里写的“迈入百万上下文普惠时代”。业界人士博主玄感X介绍，V4戏剧性地把百万token上下文的KV Cache降低到了传统方案的2%。V4在训练时就早早地开始扩展上下文长度，训练数据量和V3比翻倍，还特别重视长文档整理，带来了更原生更强的长上下文性能。

在百万token测评项的榜单里，DeepSeek-V4落后于Opus 4.6，但超越了Gemini 3.1。该人士认为V4的核心优化是CSA和HCA两种attention机制，CSA负责抓重点，把100万token的KV Cache压缩成25万条，再挑出最有用的部分计算attention；HCA负责全局，把100万token压成7800条后做完整attention。两种机制交替，使得V4-Pro推理计算量比V3.2降低到27%，KV Cache降低到10%；轻量版V4-Flash更夸张，计算量10%，KV Cache仅7%，且性能全面提升。

“这种极致降本是DeepSeek的老手艺，从V2的MLA（KV Cache降低93%），到V3、V4的沿用，再到NSA对attention的改造（64K上下文取得11.6倍加速），以及V3.2的进一步落地，最终通向V4。它还把百万token上下文的价格打了2.5折，折后价格约是御三家的5%，在国内同级别大模型里属最便宜的一档。”

正因为有了足够便宜的百万token上下文能力，V4才能在昇腾950PR并未大规模铺货时，就敢大降价，这使得各种推理模型、agent和复杂任务就有了更大的想象空间。

这可以看作是一次对算力的极限测试，V4这条鲶鱼开始在国产算力的方向搅动了。而这次“搅动”，势必会改变产业链的下注逻辑。

在V4发布之前，华为昇腾的生态推广面临一个死结：没有顶级模型愿意第一个吃螃蟹，因为迁移成本极高、风险极大；但没有顶级模型背书，下游的云厂商、企业客户就不敢大规模采购昇腾。V4的发布，直接切断了这个死结——阿里、字节、腾讯已经开始大批量采购昇腾950PR。

据业界调研，目前，三大厂商合计采购量超46万颗，占昇腾950PR全年预计出货量（75万颗）的60%以上，不是因为它比H100更好，而是因为它被证明够用了。“够用”二字，在产业链里价值连城。

或许，过了半年或一年后，Anthropic的算力危机终将缓解，Opus终将满血回归，硅谷的融资机器终将重新轰鸣。但那又怎样呢？

当一种技术路线被验证可行后，只要这个国家的工业体系、人才储备、资本意愿还在，它就会以"接力赛"而非"马拉松"的形式持续下去。DeepSeek跑第一棒，Kimi跑第二棒，后面可能还有阿里、字节、甚至某个现在还没成立的小团队跑第三棒、第四棒。

每一棒都可能摔倒，但只要下一棒有人接着跑，Opus、英伟达的领先距离就会被不断压缩。而大量中国产开源大模型奔跑在国产算力芯片上，“开源模型+国产芯片”的组合，不仅为全球开发者提供了除美国闭源体系外的关键技术选项，也动摇了传统算力供应链的垄断结构。

即使DeepSeek某天掉出了第一梯队，它的人才、它的技术路线、它的开源权重，已经被整个行业吸收了。

换句话说，在全球AI大博弈中，DeepSeek不需要永远“强”下去，它只需要证明“这条路能走通”，那就是开启了一个AI大航海时代。

本文来自微信公众号 “最话FunTalk”（ID：iFuntalker），作者：林书，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

DeepSeek不需要永远强，它只需证明这条路走得通

01 必然与偶然

02 国产算力的"突袭"

03 杯子壁的高度

04 鲶鱼的使命

最近内容

下一篇