DeepSeek不需要永远强,它只需证明这条路走得通

最话FunTalk·2026年04月27日 20:29
它的使命是开启一个AI大航海时代

才发布没两天,DeepSeek就大降价。

4月25日晚,DeepSeek宣布对V4-Pro模型API开启限时2.5折价格优惠。26日晚,DeepSeek又宣布V4全系列API服务的输入缓存命中价格降至原有价格的1/10。其中,Pro模型在今年5月5日前叠加2.5折限时优惠。最新调价后,DeepSeek-V4-Flash每百万tokens输入缓存命中价格为0.02元,DeepSeek-V4-Pro为0.025元。

这一价格不但比国外大模型,就是比国内其他大模型都有很大价格优势。在DeepSeek首次官宣降价的第二天,DeepSeek-V4-Flash的调用量为814亿Token,较前日环比增长62.2%;DeepSeek-V4-Pro的调用量为96亿Token。

虽然,完成整个任务还涉及到任务类型、模型效率、推理长度、模型输出Token数等因素,最终账单不仅取决于输入价格,但大降价后,开发者们仍有望用V4跑通商业模式。

难怪有人说,“DeepSeek归来,梁文锋杀疯了。”

在V4发布前的一年多里,这家曾让硅谷侧目的公司,在绝大多数时间里是自我隐匿的,外界只能通过它发布的论文来推测其进度。期间,DeepSeek团队成员的不断流失,至少5名核心研发成员确认离职:第一代大模型核心作者王炳宣去了腾讯,V3核心贡献者罗福莉被雷军以千万年薪挖走,R1核心作者郭达雅转投字节跳动,多模态核心研究员阮翀加盟了自动驾驶公司元戎启行。

同时,从2025年1月R1爆红到2026年4月V4发布,DeepSeek整整15个月没有发布大模型新版本。同期,OpenAI连推GPT-4.5、GPT-5和多个推理变体,Anthropic迭代了三代Claude,字节豆包月活冲至3.31亿,智谱和MiniMax也陆续发布了GLM-5和MniMax-2.7等新一代模型。

这“空白”的15个月,相当于DeepSeek在全球大模型竞赛中隐匿了一个代际。而今,DeepSeek V4从地平线的远方归来,最终掀开了面纱。

从性能上看,在世界知识、推理以及Agent能力方面,DeepSeek-V4均实现国内与开源领域的领先,甚至接近了Claude-0pus-4.6等顶尖大模型。

在 Agentic Coding 评测中,V4-Pro 已达到当前开源模型最佳水平,并在其他 Agent 相关评测中同样表现优异。

在架构层面,V4完成了三重关键突破:一是首创CSA+HCA混合注意力机制,通过双重压缩将长上下文计算量降低73%、显存占用减少90%,让百万上下文不再是昂贵的附加功能,而是默认基础设施;二是引入mHC流形约束超连接,以不到7%的微小开销解决了超深网络的信号衰减难题;三是全面切换至Muon优化器,在训练效率和收敛稳定性上实现了代际跃升。

这样的突破,让DeepSeek终究不负众望,但此次V4最让人期待的重要突破是对国产算力的适配,将底层代码全面迁移至华为的CANN生态,让V4的推理能运行在昇腾950PR芯片。

这需要经历一次艰难的适配过程,可以看作是国产AI的“探月工程”,需要从DeepSeek到华为再到半导体设备厂商等整个链条的配合。

这不是一个轻松的技术决策,这是一场赌上公司乃至整个国产大模型业界未来命运的架构豪赌。

而理解这场豪赌,需要先看清一个正在吞噬整个AI行业的结构性困境。

01 必然与偶然

2026年的AI行业,正在经历一场教科书级别的杰文斯悖论。

1865年,英国经济学家威廉·杰文斯观察到一个反直觉现象:蒸汽机的效率越高,英国的煤炭消耗总量反而越大。效率提升不会减少资源消耗,反而会因为使用门槛降低而刺激更大的需求。160年后,同样的剧情正在AI推理算力上重演。

根据清华大学最新发布的《Token经济学全景报告》,过去三年,模型推理成本下降了280倍,但企业的AI总支出反而增长了2.4倍。

同样地,36氪对企业支出的调查统计也显示:AI推理成本在18个月内下跌超过80%,但中国三大云厂商却在同一周宣布涨价。越便宜,烧得越凶。推理成本变得愈发昂贵,这是整个行业的结构性宿命。

最先被这个宿命击中的,是硅谷的标杆企业Anthropic。

2026年,Anthropic仅推理成本一项预计就将达到141亿美元,比2025年增长68%。公司2025年全年现金消耗约85亿美元,2026年预计全年亏损140亿。CEO Dario Amodei在播客中说了一句让整个行业倒吸冷气的话:"如果我的收入无法达到1万亿美元……一旦我购买了那么多的算力,地球上没有任何力量能阻止我破产。"

这是行业的"大必然"——使用成本边际降低,需求快速上升,推理总算力需求会快速反噬AI企业的利润,没有人能幸免。

而在这个大必然之下,出现了一个"小偶然"。

3月初,用户发现Claude Opus 4.6的性能出现了明显下降。编程能力断崖式滑坡,推理深度崩塌67%,第三方测试排名从前2跌至第7。但Token消耗反而增加了——降智的同时还在变相涨价。

Anthropic官方的解释是"自适应思考模式优化",但业界心知肚明:这是算力告急的征兆。

此前AnthropicCEO Dario Amodei在自己的公开播客采访表示,到年底,公司需要超过5GW的算力才能满足推理和训练需求,但因为此前采购过于保守,公司已经面临"不得不接受更高价格"的局面。

这场算力危机,并不只是Anthropic一家的噩梦。

同期的OpenAI同样焦头烂额。GPU租赁价格在60天内暴涨48%,英伟达Blackwell芯片供应全面告急;2026年美国原计划上线的AI数据中心,有将近一半因为电网瓶颈和建设延期被推迟或取消,形成了高达7GW的算力缺口。

但需要指出的是,这样的算力“短缺”其实是一种『贵族的饥饿』——硅谷目前仍然掌握着全球最大的算力池,在绝对算力上碾压中国,只是这个池子,现在暂时填不满它们AGI野心的胃口。

但尽管如此,V4仍然获得了一个难得的突围“窗口期”:那就是在硅谷巨头算力高攀不下时,从成本结构上,对其实施“突袭”。

02 国产算力的"突袭"

可能有人会问:这样的“突袭”,究竟意味着什么?是指V4趁Anthropic算力短缺、模型降智之时,以较低成本杀入编程领域,实现对开发者群体的抢占吗?

很遗憾,这样的想象在现实中并不成立。

说实话,V4发布后,笔者第一时间与技术社区的开发者进行了讨论,但相当一部分开发者表示,即使V4在价格上,与Opus相比有较大优势,他们也不会将其当成实际工作中的首选。

为什么?因为在一线开发者和程序员看来,编程工具,往往只有最优,没有次优。甚至可以直接说,在AI coding领域,第一名会赢家通吃。

根据某一线开发者反馈,实际用的时候,国产模型便宜的那点钱,在多轮出错的场景下,其实贵的要死,开发者使用Opus或codex交互,能实现一遍过,成本可能是1美元,而某些国内模型,可能需要5轮才过,成本是2美元。

如果V4在编程和复杂推理上无法匹敌Opus的巅峰状态,多数人不会轻易切换。这是现实,不必回避。

因此,真正能让V4实现“突袭”的,可能是另一个战场。

此次V4发布,除了百万上下文、全栈国产化算力适配(如华为昇腾、寒武纪等)、以及混合注意力架构(CSA + HCA)与流形学习优化等底层技术创新之外,更重要的升级,就是DeepSeek在Agent方向上的突破。

其在Agentic Coding评测中成为开源最佳,内部使用体验已优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,并针对Claude Code、OpenClaw、CodeBuddy等主流Agent框架做了专项优化,明确将自身定位为Agent基础设施。

而Agent能力,之所以当下变得如此重要,是因为目前的AI竞争,已经进入到了一个新阶段。

2026年第一季度,一个数字震动了整个AI行业:中国大模型Token日均调用量首次超越美国。国家数据局的曲线近乎垂直:从2024年初的约1000亿,到2025年中突破30万亿,到2026年2月达到180万亿。两年涨了1800倍。

而驱动这最后一段最陡峭增长的,恰恰是OpenClaw生态的高频调用需求。

然而,就在这关键的档口,Anthropic却主动将大量中低端用户“推向”了中国。

当OpenClaw在全球扩散后,Anthropic很快发现一个问题:一个每月付49美元Claude Max订阅费的用户,如果用OpenClaw跑一个7×24小时的自主Agent实例,消耗的算力相当于几百个普通对话用户一个月的总量。

订阅制定价根本无法在Agent时代维持盈利。于是Anthropic宣布:通过个人订阅账号的OAuth令牌接入第三方工具,属于违规行为,发现即封号,无缓冲期。

之后,中国模型的调用量开始在Agent方向持续疯涨。

根据OpenRouter平台2026年4月第一周的最新统计数据显示,中国AI大模型周调用量高达12.96万亿Token,连续五周超越美国。

这就是Agent时代竞争维度的切换:在对话式AI时代,模型的质量上限决定一切;在Agent时代,成本、稳定性、对高频调用的支持程度,首次跑到了质量前面。

这个维度的切换,恰好是中国AI的优势区间。

所以这场“突袭”的实质是:DeepSeek V4这类中国AI,以不俗的性能+低廉的国产算力,在Agent的中间层场景里,用成本和稳定性切走了一块原本属于他们的蛋糕。

这样的不对称优势,就是规则转换期的机会窗口。

03 杯子壁的高度

如果按照某种模型迭代的推演逻辑,在未来,随着国产模型不断地迭代、进步,在Agent这个赛道上,国产大模型的能力,最终会达到大多数常规任务的上限,毕竟,常规任务就像一只容量有限的“杯子”,往里倒再多的智能,最终的结果也只能是“溢出”。

到了那时,在Agent场景下,性能与Opus已无太大区别的国产AI,将通过国产算力的低成本,取得进一步优势;

昇腾950PR定价7万元,英伟达同级别H200在中国市场报价高达25万元,这相当于是便宜了三分之二的价格。

然而,现实终归是复杂的、有灰度的,真实情况也许远比这更诡谲。

在Anthropic自己发布的《2026 Agentic Coding Trends Report》中,其将现在的Agent任务分成了三层:

底层(高频、低风险):代码补全、单元测试生成、文档注释、格式规范化、简单Bug修复。这类任务占企业Agent调用量的约65%;

中层(中频、中风险):跨文件重构、API集成、数据库查询优化、报告生成、合同条款提取。占约28%;

顶层(低频、高风险):生产级系统架构决策、安全漏洞审计、复杂财务建模、多步骤法律合规分析。占约7%;

底层那65%,"杯子溢出"论完全成立。代码补全到了正确就是正确,你用Opus 4.7还是用DeepSeek V4,最终的单元测试通不通过是客观事实,没有"更通过"这个说法。

但顶层那7%,才是真正拉开差距的地方。

SWE-bench Pro是目前最接近真实生产环境的代码基准——它用的是真实企业代码库里的真实工单,而非精心设计的题目。

而在这个区间,Anthropic最新的Claude Opus 4.7已经达到了 64.3%的水准,而国产模型在该区间的差距被放大到6-12个百分点。

这6-12个百分点,就是"杯子壁"的高度。

然而,Anthropic自己也没有解决“简单任务满分、复杂任务崩塌”的问题。目前在SWE-bench Pro测试集上,还没有模型能够突破60%的区间。

是的,在真实场景下,模型之间的差距,远不止是“填更高的杯子”那么简单。

因为就现状来看,Anthropic没有在追更高的任务,而是在把同一层任务做得更深、更可靠、更难以替代。

例如其门下的Claude Code Channels,把同样的高价值Agent能力,从IDE延伸到Discord和Telegram,让非技术团队也能用——背后的思路,是用可靠性和深度集成,不断抬高企业的切换成本。

对V4这类后起之秀来说,这反而是比"换杯子"更危险的竞争策略——因为后者可以被追赶,前者构建的是一堵越来越厚的墙,而不是一个越来越高的杆。

04 鲶鱼的使命

此次V4的发布,可以说精准地踩中了“天时地利人和”的每一步。

当OpenAI、Anthropic等硅谷巨头纷纷面临算力短缺,而老黄的地位也在被谷歌的第七代TPU、亚马逊大规模上量的Trainium 3,甚至特斯拉自建晶圆厂等多元力量挑战的当下,V4恰逢其时地挟国产算力杀出,就像一个冲锋的尖兵,趁敌军阵脚混乱的时刻,突破了重重围困,杀出了一条生路。

但实事求是地说,这样的“突袭”,时间窗口是有限的,前景也不见得完全明朗。

那照这么看,V4此次发布的历史使命,究竟是什么?

答案或许是:V4真正的历史使命,从来就不是超越或打败Opus这样的怪物,而是当一条永远不安分的鲶鱼。通过一次次范式、算法和架构上的创新,搅动整个国内AI行业。

而在这一次次搅动中,中国的AI企业,能从那些“大厂思维”看不到的角落里汲取灵感,不断进行着进化与蜕变。

Kimi K2.6就是一个鲜活的例子。这款基于1万亿总参数、32B激活参数的MoE架构模型,在LiveCodeBench基准测试中取得了85%的高分,多Agent并发不限流,23个Agent同时运行仍能稳定完成开发全流程。而它的架构思路,很大程度上受到了DeepSeek此前在MoE和推理优化方面的启发。

这就是鲶鱼效应的传导链条:DeepSeek的架构创新,倒逼月之暗面、智谱、MiniMax跟进优化;这些公司的竞争,又反过来推高了整个国产模型生态的水位线。不是某一条鱼在游,是整个池子的水被搅活了。

而DeepSeek-V4最新的刺激是它在公告标题里写的“迈入百万上下文普惠时代”。业界人士博主玄感X介绍,V4戏剧性地把百万token上下文的KV Cache降低到了传统方案的2%。V4在训练时就早早地开始扩展上下文长度,训练数据量和V3比翻倍,还特别重视长文档整理,带来了更原生更强的长上下文性能。

在百万token测评项的榜单里,DeepSeek-V4落后于Opus 4.6,但超越了Gemini 3.1。该人士认为V4的核心优化是CSA和HCA两种attention机制,CSA负责抓重点,把100万token的KV Cache压缩成25万条,再挑出最有用的部分计算attention;HCA负责全局,把100万token压成7800条后做完整attention。两种机制交替,使得V4-Pro推理计算量比V3.2降低到27%,KV Cache降低到10%;轻量版V4-Flash更夸张,计算量10%,KV Cache仅7%,且性能全面提升。

“这种极致降本是DeepSeek的老手艺,从V2的MLA(KV Cache降低93%),到V3、V4的沿用,再到NSA对attention的改造(64K上下文取得11.6倍加速),以及V3.2的进一步落地,最终通向V4。它还把百万token上下文的价格打了2.5折,折后价格约是御三家的5%,在国内同级别大模型里属最便宜的一档。”

正因为有了足够便宜的百万token上下文能力,V4才能在昇腾950PR并未大规模铺货时,就敢大降价,这使得各种推理模型、agent和复杂任务就有了更大的想象空间。

这可以看作是一次对算力的极限测试,V4这条鲶鱼开始在国产算力的方向搅动了。而这次“搅动”,势必会改变产业链的下注逻辑。

在V4发布之前,华为昇腾的生态推广面临一个死结:没有顶级模型愿意第一个吃螃蟹,因为迁移成本极高、风险极大;但没有顶级模型背书,下游的云厂商、企业客户就不敢大规模采购昇腾。V4的发布,直接切断了这个死结——阿里、字节、腾讯已经开始大批量采购昇腾950PR。

据业界调研,目前,三大厂商合计采购量超46万颗,占昇腾950PR全年预计出货量(75万颗)的60%以上,不是因为它比H100更好,而是因为它被证明够用了。“够用”二字,在产业链里价值连城。

或许,过了半年或一年后,Anthropic的算力危机终将缓解,Opus终将满血回归,硅谷的融资机器终将重新轰鸣。但那又怎样呢?

当一种技术路线被验证可行后,只要这个国家的工业体系、人才储备、资本意愿还在,它就会以"接力赛"而非"马拉松"的形式持续下去。DeepSeek跑第一棒,Kimi跑第二棒,后面可能还有阿里、字节、甚至某个现在还没成立的小团队跑第三棒、第四棒。

每一棒都可能摔倒,但只要下一棒有人接着跑,Opus、英伟达的领先距离就会被不断压缩。而大量中国产开源大模型奔跑在国产算力芯片上,“开源模型+国产芯片”的组合,不仅为全球开发者提供了除美国闭源体系外的关键技术选项,也动摇了传统算力供应链的垄断结构。 

即使DeepSeek某天掉出了第一梯队,它的人才、它的技术路线、它的开源权重,已经被整个行业吸收了。

换句话说,在全球AI大博弈中,DeepSeek不需要永远“强”下去,它只需要证明“这条路能走通”,那就是开启了一个AI大航海时代。

本文来自微信公众号 “最话FunTalk”(ID:iFuntalker),作者:林书,36氪经授权发布。

+1
20

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

摩尔线程是市场中为数不多的真正实现千卡级、万卡级大规模集群商业化应用落地的GPU供应商。

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业