V3 到 V4,DeepSeek 484 天的人、财、事、物
2026 年 4 月 24 日,最早让人意识到 DeepSeek-V4 不只是一次模型更新的地方,可能不是 Hugging Face,也不是 DeepSeek 的官方公告。
而是 B 站。
华为昇腾 CANN 官方账号开了一场直播,标题大意很直白:DeepSeek V4 昇腾首发。直播这件事本身就很怪。一个大模型公司发新模型,为什么芯片生态的官方账号要出来讲?
如果这只是一次参数变大、上下文变长、跑分变漂亮的常规升级,那它应该属于 AI 圈的日常军备展示,最多让开发者在 Hugging Face 上点点收藏,让产品经理在朋友圈里转几张 benchmark 截图。可这一次,V4-Pro 的 1.6 万亿总参数、49B 激活参数、百万 token 上下文、MIT License 开源,和另一个信息绑在了一起:华为昇腾 950PR 原生适配。
这就让事情从“模型更新”变成了“产业信号”。
同一天,Reuters 报道腾讯和阿里正在参与 DeepSeek 的融资谈判。几天前,市场给 DeepSeek 的估值口径还在 100 亿美元上下晃。几天后,这个数字已经被抬到 200 亿美元以上。
中文创投媒体更激进,开始传出 3000 亿人民币融前估值、500 亿人民币增资、50 亿起投门槛的版本。国产 GPU 概念股也很配合,DeepSeek-V4 刚上线,相关 ETF 和芯片股就被拉了起来。资本市场当然不懂 mHC、CSA、HCA、DSA 这些缩写,它们只读懂了一个更朴素的故事:
Deepseek 正在成为整个中国算力产业链的“凝结核”,串联起所有的线索。
把时间倒回 484 天前。
2024 年 12 月 26 日,DeepSeek-V3 发布。671B 参数,37B 激活,MoE 架构,MLA 注意力机制,官方技术报告里那个后来被全球媒体反复引用的数字是:完整训练约 2.788M H800 GPU hours。换算下来,训练成本约 557 万美元。一个月后,DeepSeek-R1 在美国 App Store 免费榜登顶。Nvidia 单日市值蒸发约 5930 亿美元,创下美国公司历史上最大的单日市值损失之一。[1]
那一刻,DeepSeek 看起来像一颗从杭州射向硅谷的子弹。它证明了一件让很多人非常不舒服的事:前沿 AI 未必只能靠天文数字的算力和资本堆出来。至少在那个时间点,一个中国团队用极端工程优化、MoE、强化学习和开源策略,把硅谷过去两年搭起来的“算力越贵,模型越强”叙事打穿了一个洞。
但 484 天后,故事变得拧巴。
那个靠低成本神话出圈的团队,开始谈融资。那个拒绝 VC、拒绝上市、靠幻方量化输血的实验室,开始被腾讯和阿里围在牌桌中间。那个靠开源赢得全球开发者尊重的模型公司,发现自己的模型正在被别人接进产品、接进入口、接进商业系统,而自己还得给员工期权找一个价格锚。
更拧巴的是,低成本神话本身也需要付账。V3 的 557 万美元是真的,但它不是 DeepSeek 的全部账单。SemiAnalysis 后来估算,DeepSeek 背后的硬件总支出超过 13 亿美元,GPU 集群规模约 5 万张,包含 H800、H100、H20 等混合资源。[2]
换句话说,557 万美元更像一张漂亮的收据,上面写着“这次训练花了多少”,没写“为了让这次训练发生,前面烧掉了多少”。
所以,DeepSeek 这 484 天真正值得写的地方,不是“中国 AI 崛起”这种宏大叙事,那太省事了。
484 天也不是 DeepSeek 从小到大的成长史,更像一个技术理想主义者不得不重新学习现实世界的重力,然后征服它。
人、财、事、物,四条线全拧在一起。
1
人:离开的那部分,叫方向
2026 年 4 月 16 日,郭达雅加盟字节跳动 Seed 团队的消息传出来。
如果把 DeepSeek-R1 当成 DeepSeek 真正全球破圈的产品,那郭达雅就很难被当作普通离职员工处理。公开报道把他称为 R1 推理能力的重要贡献者,尤其与 GRPO 强化学习方法相关。字节给他的方向也很微妙:Agent。“亿元年薪”的传闻后来被抖音副总裁李亮辟谣,但这条八卦已经完成了传播使命。它让公众第一次直观看到:DeepSeek 的人才开始被明码标价了。
在这之前,DeepSeek 的人设非常像武侠小说里的隐门。幻方量化在后面输血,梁文锋不缺钱,研究员埋头做模型,产品和商业化都不急。其他创业公司在外面敲锣打鼓融资、上榜、做应用、搞生态,它像一个沉默的算力修士,打坐,推公式,训模型。
但 AI 行业不会长期尊重修士,尤其当修士手里有真经的时候。从 2025 年底到 2026 年初,多名 DeepSeek 核心成员被媒体报道离职:罗福莉去了小米 MiMo,王炳宣去了腾讯,阮翀去了元戎启行,魏浩然去向不明,郭达雅去了字节 Seed。[3] 这些去向串起来,刚好是一张中国 AI 下一阶段战场地图:罗福莉对应端侧和小米的“手机 + 汽车 + IoT”闭环;阮翀对应自动驾驶里的多模态感知;郭达雅对应 Agent;王炳宣对应腾讯重新补 AI 底座的焦虑。
钱当然重要。大厂能给出更高的现金薪酬,更明确的期权回购,更成熟的晋升系统。
字节豆包股的首次回购价较授予价上涨 30.8%,对一个研究员来说,这比“我们未来一定会改变世界”更像工资条。DeepSeek 的问题在这里变得具体:它可以用技术理想主义吸引天才,但很难长期用技术理想主义支付天才的机会成本。尤其当同行的财富故事开始兑现。智谱、MiniMax、月之暗面这些公司不断被资本市场重新定价。OpenAI、Anthropic 的融资数字像天文现象一样挂在新闻标题里。一个 95 后研究员身边的朋友拿到可以变现的期权,自己手里的 DeepSeek 期权却没有公开市场价格,这种心理落差不能靠“纯粹做研究”完全抹平。
更关键的是,离开的未必只是被钱挖走的人,走的还有路线。
DeepSeek 最强的地方在基座模型,在推理模型,在把训练和推理成本压到极致。它的组织文化天然偏向一件事:把模型本身做得更强、更便宜、更开源。这当然很酷。但 2025 年之后,行业的兴奋点开始转移。大家已经不满足于“模型会回答问题”,他们要模型会写代码、会调用工具、会跨应用执行任务、会记住上下文、会在产品里形成闭环。Agent 从一个过度营销的词,逐渐变成下一代产品结构的入口。
这时候,DeepSeek 的优势反而变成一种约束。一个研究员如果想研究 Agent,在 DeepSeek 内部面对的是一个更偏底座的组织;去字节,面对的是豆包 1.57 亿月活的真实用户场。一个多模态研究员如果想让模型理解物理世界,去自动驾驶公司可能比继续调大语言模型更有诱惑。一个端侧模型研究者如果想把推理能力塞进手机、车机和家居设备,小米会比 DeepSeek 更像实验室。这不是谁背叛谁,这是技术路线分叉后的自然分流。
贝尔实验室曾经是一个类似的参照物。它培养出晶体管、信息论、Unix、C 语言,也溢出了一代又一代人才。那些离开贝尔实验室的人没有摧毁贝尔实验室,反而把贝尔实验室的方法论撒到了整个美国科技产业。DeepSeek 的人才外溢,也可能正在做同一件事。区别在于,贝尔实验室背后有 AT&T 的垄断利润,DeepSeek 背后是幻方量化。幻方再强,也不是一个可以无限为中国 AI 行业发工资的公共财政。
梁文锋面对的是一个非常现实的问题:如果 DeepSeek 真的要留住人,它就要让 DeepSeek 的股权有价格;如果 DeepSeek 的股权要有价格,它就要进入资本市场的语言系统;如果它进入资本市场的语言系统,它就必须接受资本市场对它的追问:你怎么赚钱?你怎么增长?你怎么防止别人用你的开源模型赚走所有的钱?
这就是为什么 DeepSeek 的融资压力,不只是“缺钱”,更像一次身份转换。它要从一个“我不需要向任何人解释”的研究组织,变成一个必须向员工、股东、云厂商、芯片厂商、开发者、监管者共同解释自己的基础设施公司。
这一步不浪漫。但它可能比 R1 的爆红更决定 DeepSeek 的命运。
2
财:557 万美元的神话,总要补账
Deepseek 最危险的成就,是它把“便宜”变成了自己的品牌。
这件事在中国制造中已经被验证了无数次:尽管中国制造业对全球最大的贡献就是让普通人也能消费的起原本昂贵的商品,但反过来价格与利润也会桎梏产业链升级的脚步。
这件事在 DeepSeek 上完全重演。
近几年,大家已经被 OpenAI、Anthropic、Google、Meta 的算力支出吓麻了。动辄几百亿美元的资本开支、几千亿美元的估值、几十万张 GPU 的数据中心,最后统一汇成一句话:智能很贵。
直到 2024 年 12 越 26 日,DeepSeek-V3 出来后,这句话突然不稳了。
557 万美元。
这个数字太适合传播了。它短、狠、有冲击力,像给硅谷递了一张反讽海报:你们烧掉几百亿美元,我们用你们零头的零头,做出了能打的模型。R1 又把这个故事推到更夸张的方向。Reuters 在 2025 年 9 月报道,DeepSeek 在 Nature 论文中披露 R1 的训练成本仅约 29.4 万美元。[4] 于是 DeepSeek 被塞进了一个漂亮的叙事盒子里:低成本奇迹。
问题是,低成本奇迹会反过来束缚自己。
第一层束缚来自公众预期。当你用 557 万美元让全世界震动,下一次你再发模型时,人们不会只问它强不强,还会问它够不够便宜。V4 如果能力提升显著但成本暴涨,DeepSeek 的故事就会裂开。V4 如果为了维持低成本叙事而不够惊艳,它又撑不起资本市场和产业生态对它的期待。这就像一个厨师用 10 块钱做出了一顿米其林水准的饭。第一顿是神话。第二顿开始,所有客人都会问:你还能不能 10 块钱继续做?如果涨到 100 块,大家会说你变了;如果还收 10 块,你自己会破产。
第二层束缚来自真实成本。557 万美元对应的是一次训练过程里的 GPU 小时,不包含前期架构探索、失败实验、数据建设、工程团队、硬件储备、推理服务、用户爆发后的扩容成本。SemiAnalysis 对 DeepSeek 的硬件总支出估算超过 13 亿美元,这个数字才更接近一家前沿模型公司长期存在所需要的物质基础。[2] 幻方量化可以为 DeepSeek 输血。2025 年,幻方量化平均收益率被多家媒体报道为 56.55% 左右,年创收估算接近 49 亿元人民币,梁文锋持股比例也足够高。对一家普通 AI 实验室来说,这已经是梦幻金主。
但 V4 之后,DeepSeek 的成本结构变了。万亿参数、百万 token 上下文、Agent 能力、国产芯片适配、全球开源开发者生态、面向企业的稳定 API,这些东西不会只在训练账单里出现。它们会变成推理成本、工程成本、客户支持成本、合规成本、渠道成本、人才成本。训练一次模型是打仗,长期服务一个生态是驻军。驻军比打仗更烧钱,因为它每天都在烧。
这也是为什么 DeepSeek 的融资会在 2026 年 4 月突然变得合理。Reuters 先报道 The Information 消息,称 DeepSeek 正洽谈至少 3 亿美元融资,估值超过 100 亿美元。[5] 几天后,腾讯和阿里参与谈判的消息出现,估值口径被推到 200 亿美元以上,腾讯甚至据称提出收购最多 20% 股份但被拒。[6] 中文创投圈给出的版本更刺激:融前估值 3000 亿人民币,计划增资 500 亿人民币,外部 300 亿,幻方内部 200 亿,50 亿起投。[7]
这些数字未必都能得到官方确认,但它们共同指向一件事:DeepSeek 不再只是被资本追逐的明星公司,它正在变成巨头必须争夺的战略节点。腾讯和阿里抢的不是一个模型供应商,它们抢的是下一代云计算、政企 AI、国产算力网络里的“默认大脑”。
对阿里来说,DeepSeek 可以强化云和 AI 基础设施的叙事。对腾讯来说,DeepSeek 可以补足混元在 C 端心智上的尴尬。对两家公司来说,DeepSeek 都是一个很少见的对象:它没有被大厂孵化,却已经拥有全球开发者声誉;它没有完整商业化,却已经具备基础设施位置;它开放模型,却让所有使用者反过来证明它不可替代。
这也是 50 亿起投门槛最有意思的地方。如果这个门槛为真,它筛掉的不是钱少的人,筛掉的是只想财务投资的人。
DeepSeek 要的是资源型股东:云算力、政企客户、合规背书、芯片供应链、模型分发渠道。钱只是其中最容易量化的一部分。这和 SpaceX 的转型有一点像。早期 SpaceX 需要证明火箭可以更便宜地飞起来。技术验证成功后,它反而更需要 NASA 合同、商业发射订单、星链现金流和国家安全订单。便宜不是终点。便宜只是打开旧秩序缺口的第一下。
DeepSeek 也是。557 万美元的训练成本不是它未来商业模式的答案,它只是那颗子弹。子弹射穿了硅谷的算力神话,也射穿了中国 AI 行业“跟随就够了”的心理防线。但子弹射出去之后,枪也要升级。枪管、弹匣、后勤、士兵、工厂、补给线,都开始要钱。
技术理想主义最残酷的时刻,往往不是没人相信它。是所有人都相信它之后,账单开始集中到期。
3
事:开源模型变成了别人的武器
2025 年 1 月,DeepSeek 的故事第一次变成全球公共事件。
R1 发布后,DeepSeek App 冲到美国 App Store 免费榜第一。TechCrunch 当时写得很直接:DeepSeek 取代 ChatGPT 成为 App Store 顶部应用。[8] Reuters 则把另一个数字写进了金融史:Nvidia 单日市值蒸发约 5930 亿美元。[1] 这个时刻有一种奇怪的喜剧感。一个中国开源模型让美国散户开始怀疑 Nvidia 的估值,让硅谷重新解释自己的资本开支,让 OpenAI 和 Microsoft 开始调查“蒸馏”问题,让美国政界把一个杭州团队放进技术安全叙事里。DeepSeek 还没来得及商业化,先被地缘政治化了。
但更有意思的事情发生在中国。2025 年 2 月 13 日,腾讯元宝接入 DeepSeek-R1 满血版。这是腾讯第一次在自有 AI 助手里部署第三方开源模型。用户可以在混元和 DeepSeek 之间切换,微信搜索也开始灰测接入 DeepSeek。[9]
在此之前,腾讯的 AI 处境有点尴尬。它有混元,有算力,有微信,有内容生态,有云,有组织资源。可在用户心智里,国内 AI 产品的热度更多被豆包、Kimi、通义、DeepSeek 占据。腾讯最强的东西是入口,但入口里缺一个能让用户兴奋的 AI 符号。DeepSeek 正好是那个符号。
元宝接入 R1 后,下载量迅速上升,3 月初一度超过 DeepSeek App 本身。微信搜索灰测 DeepSeek 时,用户热情被媒体形容为“远超预期”。到了 2025 年底,元宝 DeepSeek 模式单日使用量据报道达到全年峰值,较年初增长超过 100 倍。
这不是 DeepSeek 被腾讯拯救。这是腾讯用 DeepSeek 拯救自己的 AI 产品线。
但 DeepSeek 也并非毫无收获。它收获了一种更隐蔽的东西:事实标准的证明。当中国最大的社交入口选择在产品里部署你的模型,当用户在微信生态里通过你的模型完成搜索和问答,当其他大厂、车企、运营商、云厂商都争相接入,你就不再只是 GitHub 上一个很强的开源模型。你变成了公共基础设施的一部分。
问题也在这里。公共基础设施听起来很高级,商业上却很难受。开源模型最锋利的地方,是它能让所有人都使用你。开源模型最残酷的地方,也是它能让所有人都使用你。
腾讯可以把 DeepSeek 接进元宝。阿里可以把 DeepSeek 放进云服务。创业公司可以拿 DeepSeek 做代码助手。政企客户可以让云厂商私有化部署。开发者可以本地蒸馏、微调、量化。每一次使用都在扩大 DeepSeek 的影响力。
但每一次使用也可能绕过 DeepSeek 的收入表。这就是开源的代价与收益同时兑现的时刻。DeepSeek 的模型越像水和电,它自己的商业身份就越尴尬。水和电很重要,但卖水电的公司通常不是最性感的公司。真正赚大钱的,可能是把水电接进城市、工厂、商业地产和居民账单系统的人。在 AI 里,这些人叫云厂商、入口平台、Agent 产品、企业软件、垂直应用。
V4 发布后,这种“别人拿去做武器”的逻辑更清楚了。V4-Pro 和 V4-Flash 同时提供 OpenAI ChatCompletions 与 Anthropic 接口兼容,新模型名分别是 deepseek-v4-pro 和 deepseek-v4-flash;旧的 deepseek-chat 与 deepseek-reasoner 会在三个月过渡期后停用。[14] 这不是一个只给自家 App 用的模型,而是一个从接口层就为迁移、替换和嵌入准备好的底座。开发者可以把原本连向 OpenAI 或 Anthropic 的应用接过来,云厂商可以把它包装成 API,Agent 产品可以自动把复杂任务切到 Think Max。
换句话说,DeepSeek 在给别人递刀的时候,顺手把刀柄也磨好了。
技术路线也在向这个方向收敛。V3-0324 强化推理、前端代码和工具调用;R1-0528 减少幻觉,提升 JSON 和 function calling;V3.1 引入 Think / Non-Think 混合模式,强化 Agent 能力,并支持 Anthropic API 格式;V3.2-Exp 引入 Sparse Attention,大幅降价;V3.2 和 Speciale 进一步面向 Agent 推理场景。[10]
到 V4,三种思考强度直接产品化:Non-think 对应日常快速回答,Think High 对应复杂规划,Think Max 对应高强度推理与 Agent 任务。DeepSeek 甚至在工具调用场景里保留完整 reasoning content,包括跨用户消息边界的多轮推理历史。这种设计不是给“聊天机器人”准备的,它是给长程任务、代码工程、文档生成、搜索规划这些真实工作流准备的。
V4 的评测也很有指向性。它不是只拿 MMLU 这类传统榜单讲故事,而是把 Agentic Coding、Terminal Bench、SWE Verified、MCPAtlas、白领任务、中文专业写作都摆上来。
根据技术拆解资料,V4-Pro-Max 在 Terminal Bench 2.0 拿到 67.9,SWE Verified 80.6,SWE Multilingual 76.2,整体进入与 Opus-4.6-Max、K2.6-Thinking 同一档的位置;内部 50 多位工程师的真实研发任务中,V4-Pro-Max 通过率 67%,接近 Opus 4.5 的 70%,高于 Sonnet 4.5 的 47%。[14]
这类数字的意义不在于“跑分赢了”,而在于它回答了一个更产业化的问题:新模型能不能进入工程团队的日常生产?
这也解释了 DeepSeek 的两难。它当然知道纯模型能力会被别人拿去做产品,产品会积累用户、数据、工作流和分发优势。模型公司如果只停留在军火商位置,就会被所有买军火的人压价。
但 DeepSeek 的特殊性在于,它又不能轻易变成一个普通应用公司。如果它下场做 C 端产品,就要和豆包、Kimi、元宝、通义竞争入口;如果它做代码产品,就要和 Cursor、Claude Code、Codex、国内各种 IDE 插件竞争工作流;如果它做企业软件,就要开始面对销售、交付、定制和回款这些泥地里的事情。一个擅长把模型做到极致的组织,未必擅长在泥地里打滚。
于是 DeepSeek 的“事”线变成一种连锁反应:R1 爆红,引发全球股市震动;全球震动,引发美国 IP 和安全叙事反扑;国内接入,引发大厂集体 DeepSeek 化;大厂接入,证明 DeepSeek 的基础设施价值;基础设施价值,又反过来逼它回答商业化问题。
OpenAI 向美国国会警告 DeepSeek 通过蒸馏获取能力,白宫指控中国“工业规模 AI 技术盗窃”,这些当然是地缘政治的一部分。[11] 但如果只看这个维度,反而会错过更具体的产业问题。DeepSeek 让大家第一次看到,开源模型可以在全球范围内快速改变产品格局,也让大家第一次看到,开源模型的胜利很可能不自动属于开源模型公司。
这件事和 Android 有点像。Android 让全世界手机厂商拥有了对抗 iPhone 的操作系统,也让移动互联网的入口格局彻底改写。但真正长期吃到最大红利的,不是每一个 Android 手机厂商,而是掌握应用商店、广告系统、账号体系和云服务的 Google。
DeepSeek 正站在类似的位置上。它提供了一个基础层。但基础层上方的城市,正在被别人迅速施工。
4
物:从 H800 到昇腾,一场换芯手术
DeepSeek-V4 最重要的参数,可能不是 1.6T。是昇腾。
这不是说模型能力不重要。V4-Pro 采用 1.6T 总参数、49B 激活的 MoE 架构,V4-Flash 是 284B 总参数、13B 激活。两者都支持百万 token 上下文,模型卡显示采用 CSA + HCA 混合注意力机制。V4 的技术报告里还有 mHC 流形约束超连接、DSA 稀疏注意力、Muon 优化器、FP4 量化感知训练、On-Disk KV Cache、确定性 kernel 库、DSec sandbox 基础设施。
这些名词堆在一起,很容易变成技术自嗨。但在 2026 年 4 月的产业语境里,它们都服务于另一个更硬的事实:V4 要在国产算力上跑起来、跑稳定、跑便宜。
DeepSeek-V3 的物质基础仍然是 Nvidia H800。它在被限制后的芯片条件下,通过 MoE、MLA、FP8 和大量底层优化把效率压到极致。开发者在 V3 代码里发现 PTX 底层优化痕迹,这说明 DeepSeek 很早就在绕开高层框架的舒适区,直接碰 GPU 执行层。PTX 是 Nvidia GPU 的底层中间表示。一个团队愿意碰到这一层,说明它不是只会调框架参数的模型团队,而是有能力对算力基础设施做外科手术的工程团队。
这种能力到 V4 变得关键。因为美国的芯片封锁已经从“不给最强芯片”发展到“给你算总账”。
2025 年 1 月 13 日,拜登政府发布 AI Diffusion Rule,把全球按层级纳入 AI 芯片流动管制。Reuters 报道中提到,这套规则试图限制先进 AI 芯片在全球的扩散,中国被放在严格受限的位置。[12] 后续关于 TPP 总处理性能的限制讨论,本质上是把算力变成一种可核算、可封锁、可分配的战略资源。这套逻辑非常美国。它不一定要完全阻止你发展,它只要确保你慢一代。
H20 的拉扯就是一个小窗口。2025 年 2 月,中国企业因为 DeepSeek 热潮增加 H20 订单。4 月,美国限制 H20 出口,Nvidia 计提约 55 亿美元相关费用。5 月,Nvidia 准备降规版。7 月,黄仁勋又表示恢复供应。
到 2026 年 4 月,美国商务部长仍确认 H200 尚未对华销售。这不是稳定供应链,这是把一家公司的训练计划绑在华盛顿的政策摆钟上。对于一家前沿模型公司来说,这种不确定性比贵更危险。贵可以融资,不确定会毁掉路线图。
所以 DeepSeek 转向华为昇腾,不只是爱国叙事,也不是发布会上的情绪价值。它是一家模型公司面对供应链风险时的理性选择。
2026 年 2 月,Reuters 报道 DeepSeek 不再像行业惯例那样向美国芯片制造商提前展示即将发布的旗舰模型,而是更早向国内芯片供应商开放。[13] 4 月,Reuters 又报道 DeepSeek-V4 将运行在华为芯片上,并与国内芯片厂商进行底层代码改写和测试。V4 发布同日,华为昇腾超节点将完整支持 DeepSeek-V4 的消息出现。
SCMP 对这次“首发适配”的描述很直接:华为表示 Ascend 950PR 与 950DT 对 DeepSeek-V4 实现了“day zero”适配;B 站和微信直播中,华为工程师讲解了 CANN 与 DeepSeek V4 的适配过程,并称整个 Ascend SuperNode 产品线已经“fully adapted”到 V4 的模型推理。[15] 这句话要拆开看。
“Day zero”听起来像营销,但对一个万亿参数级模型来说,它意味着模型发布当天硬件生态就能接住;“fully adapted”也不等于性能已经完美,它至少意味着软件栈、推理框架和底层算子已经打通了第一层生产路径。更有意思的是,DeepSeek 自己也承认,在昇腾 950PR 超节点下半年规模出货前,V4-Pro 会有吞吐问题,价格还会在硬件批量上市后大幅下调。[15] 这不是胜利宣言,更像一张施工进度表:方向是对的,路还在扩宽,先限流通行。
从 CUDA 到 CANN,也不是把模型文件拷贝过去就行。它需要算子重写、编译器适配、推理框架优化、通信互联调度、显存管理、长上下文性能验证。尤其是 V4 这种万亿参数、百万 token 上下文的模型,任何一个环节效率不够,都会把“国产适配”变成 PPT 适配。钛媒体转载的技术分析提到,V4 一再延期,与推理端和昇腾芯片的深度适配相关;真正的挑战不在能否运行,而在于稳定、高效、可规模化运行。[16] 这句话很关键。国产算力最怕的从来不是“跑不起来”,最怕的是“能跑,但跑得像拖拉机进高速”。
这也是为什么 Jensen Huang 会说 DeepSeek 运行在华为芯片上,对美国来说是 “horrible outcome”。TNW 对这句话的解读更直白:DeepSeek 花了数月重写核心代码,使之适配华为 CANN 框架,离开 Nvidia 花了二十年建成的 CUDA 生态;CUDA 的统治本身就是美国在芯片之外的第二层控制。[17]
Nvidia 真正害怕的,不是中国公司做出一个强模型。强模型可以被解释为偶然、蒸馏、补贴、不可持续。它害怕的是一个强模型在非 CUDA 生态里稳定运行。因为 CUDA 的护城河不只是芯片性能。它是开发者习惯、工具链、生态、调试经验、算子库、训练框架和人才市场共同构成的软垄断。只要中国模型公司继续围着 CUDA 优化,美国的芯片管制就有抓手。
V4 的技术细节,也恰好解释了为什么这场换芯手术难。百万 token 上下文的主要成本不是“模型聪不聪明”,而是每一次推理时要处理多少历史信息。传统注意力机制在长上下文里会把 KV cache 和 FLOPs 拖成灾难现场。DeepSeek-V4 在 token 维度做压缩,再叠加 DSA 稀疏注意力。技术拆解资料显示,1M 上下文下,V4-Pro 的单 token 推理 FLOPs 只要 V3.2 的 27%,KV cache 只要 V3.2 的 10%;V4-Flash 更极致,单 token FLOPs 只要 V3.2 的 10%,KV cache 只要 7%。[14] 这才是 V4 与昇腾绑定的真正含义:如果没有长上下文推理成本的结构性下降,国产算力即便能跑,也很难便宜地跑。
之前我写过一篇关于富士康转型的分析,转型的判断从来不是看你“装配了什么”,而是看你在价值链里掌握什么。
富士康从 iPhone 到 AI 服务器,组装对象换了,利润位置没变。DeepSeek 与昇腾的故事反过来:它不只是换了一个硬件对象,它在尝试改变自己在底层生态里的位置。只要模型团队继续用 CUDA 的语言思考,国产芯片就很容易变成“换皮代工”;只有当模型架构、推理框架、算子库、通信调度一起围着本土硬件特性重写,才可能从“可替代硬件”走向“可自我演化的系统”。
这也是封锁政策最尴尬的地方。它短期内确实能制造痛苦。它会提高成本、拖慢适配、打乱供应链、迫使企业走难路。但如果被封锁的一方拥有足够大的市场、足够多的工程师、足够强的需求和足够明确的替代目标,封锁就会变成产业动员。DeepSeek-V4 的意义正在这里。
它不是国产算力生态的终点,它是那把手术刀第一次切到了骨头。
5
结尾:便宜之后
DeepSeek 这 484 天,最容易被误读成一个胜利故事。
中国团队用低成本做出强模型,打崩 Nvidia,震动硅谷,逼美国破防,带动国产芯片,最后腾讯阿里排队送钱。写成这个版本,读者会很爽,标题也会很好起。但这个版本太轻了。真正有意思的地方,恰恰在于 DeepSeek 的每一次胜利都带着反作用力。
V3 的低成本胜利,让它必须继续证明便宜可以持续;R1 的全球爆红,让它必须承担远超实验室规模的用户、舆论和地缘压力;开源的胜利,让腾讯、阿里、车企、云厂商都能把它变成自己的武器;人才的胜利,让它培养出的研究员被整个行业精准报价;国产适配的胜利,让它从模型公司变成芯片生态重组的楔子;融资的胜利,则让梁文锋终于走进他一开始刻意避开的那张桌子。
这不是理想主义的失败。恰恰相反,只有前 484 天足够理想主义,DeepSeek 才能在第 485 天拥有谈判筹码。
如果它从一开始就按普通 AI 创业公司的路线融资、做产品、讲商业化、追热点,它大概率会变成中国大模型拥挤牌桌上的另一家公司:模型做一点,应用做一点,生态讲一点,商业化试一点,什么都沾边,什么都不够硬。
梁文锋真正赌赢的,是先把技术边界推到足够远,再回来和现实谈条件。但现实不会因为你赢过一次就变温柔。557 万美元是一颗子弹。它射穿了硅谷的护城河,也射穿了 DeepSeek 自己的保护壳。子弹证明了前沿 AI 可以便宜,却没有证明一家前沿 AI 公司可以永远便宜地活着。
484 天后,DeepSeek 已经不再只是那个“低成本奇迹”。它是一个被全球开发者使用的开源底座,一个被腾讯阿里争抢的资本标的,一个被美国国会和白宫盯上的地缘政治符号,一个正在国产芯片上做换芯手术的万亿参数模型。它的处境也因此变得更像一种中国 AI 的压缩样本:理想主义要钱,开源要护城河,国产化要工程账,低成本要继续低下去。
梁文锋当年说,DeepSeek 不是为了短期盈利,而是为了推动技术边界。484 天后,技术边界确实被推动了。
只是推动它继续向前的,已经不只是技术。
参考资料
[1] Reuters, “DeepSeek sparks AI stock selloff; Nvidia posts record market-cap loss”, 2025.
[2] SemiAnalysis, “DeepSeek Debates”, 2025.
[3] 澎湃新闻,《多名核心人员流失,AGI梦想不敌商业化现实?》,2026.
[4] Reuters, “China's DeepSeek says its hit AI model cost just $294,000 to train”, 2025.
[5] Reuters, “China's DeepSeek is raising funds at $10 billion valuation, The Information reports”, 2026.
[6] Reuters, “Tencent, Alibaba in talks to invest in DeepSeek, The Information reports”, 2026.
[7] 泰伯网,《DeepSeek 50亿起投,最新估值高达3000亿》,2026.
[8] TechCrunch, “DeepSeek displaces ChatGPT as the App Store's top app”, 2025.
[9] 量子位,《腾讯元宝接入DeepSeek-R1满血版》,2025.
[10] DeepSeek API Docs, model release notes, 2024-2025.
[11] Reuters, “OpenAI accuses DeepSeek of distilling US models”, 2026.
[12] Reuters, “US tightens its grip on AI chip flows across globe”, 2025.
[13] Reuters, “DeepSeek withholds latest AI model from US chipmakers including Nvidia”, 2026.
[14] 赛博禅心,《DeepSeek V4 发布,全网最细解读 & 技术报告拆解》,人人都是产品经理,2026.
[15] South China Morning Post, “Huawei, DeepSeek strengthen China’s AI self-reliance with collaboration on V4 model”, 2026.
[16] 钛媒体,《自主还是兼容:DeepSeek V4延期背后的中国AI生态选择题》,2026.
[17] TNW, “Nvidia's Jensen Huang warns DeepSeek running on Huawei chips would be 'horrible outcome' for America”, 2026.
本文来自微信公众号“红流AKASHIO”,作者:林彤川,36氪经授权发布。















