GPU四小龙上桌，寒武纪们不再孤单

市值水晶·2026年06月24日 16:18

谁能赌对下一个五年？

寒武纪

定向增发北京市2016-03

深度学习专用的智能芯片

36氪报道先进制造独角兽瞪羚企业高新技术企业

我要联系

GPU四小龙，即将在资本市场完成集结。

6月15日，上海燧原科技通过上交所科创板上市审议。根据招股书披露，燧原科技本次IPO拟募资60亿元，其中33亿投向AI软硬件协同创新项目，剩下的钱12亿给第六代芯片研发、15亿给第五代芯片研发。

国产GPU的资本拼图正在被补齐，四小龙摩尔线程、沐曦股份、壁仞科技、燧原科技即将在资本市场完成全员集结。

这是一个被加速的时刻。

从2025年12月到2026年6月，短短半年时间，至少6家AI芯片企业登陆或即将登陆资本市场。如果加上此前已上市的寒武纪、海光信息、天数智芯，国产GPU军团的总市值正在逼近2万亿元。

数字背后的含金量更值得关注。

当摩尔线程一季度实现账面盈利2935万元，沐曦股份亏损收窄57.7%，并明确给出了2026年达到盈亏平衡点的时间表。不同数字指向同一个方向：

国产GPU正在以前所未有的速度缩短从技术突破到商业正循环的距离。

国产GPU的deepseek时刻

2026年4月24日，深度求索发布了万亿参数旗舰模型DeepSeek-V4。

与一年前V3发布时业界还在争论"国产芯片能不能跑大模型"不同，这一次，包括华为昇腾、寒武纪、海光、沐曦、摩尔线程、昆仑芯、平头哥真武、天数智芯在内，多家国产AI芯片在模型发布当天就完成了适配。

DeepSeek-V4为国产芯片带来的，远不止一次技术适配，它改变了市场对国产算力的预期坐标系。

此前，评判一颗AI芯片的默认框架是，其性能达到英伟达同代产品的百分之多少。这将国产芯片置于追赶者的位置上。

但DeepSeek-V4的实践提供了一个新视角。华为昇腾计算业务总裁张迪煊透露，华为AI训推加速卡Atlas 350的单卡算力已经达到英伟达H20的2.87倍。

当万亿参数模型可以在国产芯片上稳定运行，对标英伟达最强卡就不再是唯一的选择标准。

这种认知的转变正在转化为真金白银。市场研究机构Bernstein Research预测，到2026年，英伟达在中国AI芯片市场的份额将从三年前的95%暴跌至8%，华为将占据50%，AMD约12%，寒武纪排名第三。

群雄逐鹿的格局下，国产AI加速卡整体份额突破60%。这是一个历史性的格局重塑，三年前还被认为是不可逾越的壁垒，正在被国产芯片迅速瓦解。

GPU四小龙的崛起同样不可忽视。

2026年3月30日晚，摩尔线程夸娥智算集群砍下6.6亿元大额订单。公告显示，仅此一个订单，其合同金额就相当于摩尔线程2024年全年营收额的55%。

这意味着，摩尔线程已攻克万卡级集群的工程化壁垒，从造芯片迈入交付超大规模算力集群。

此次冲刺科创板的燧原科技，则受益于与头部企业的紧密绑定。

在腾讯2025年全年业绩发布会上，总裁刘炽平对外披露，腾讯在2025年对AI新产品的投入约为180亿元，并计划在2026年将这一投入至少翻倍至360亿元以上。

需求端的爆发才刚刚开始，而燧原在其中获得的份额正在持续扩大。2026年一季度，燧原营收2.87亿元，同比暴增1474%。

眼下，窗口仍在扩大。

以壁仞科技为例，其2025年营收10.35亿元，同比增长高达207%，手握客户覆盖国家级算力平台、电信运营商和AI大模型公司。53.8%的毛利率表明，其产品在市场中拥有充分议价地位。

背后是DeepSeek-V4撞开的市场窗口，从华为昇腾的订单激增、到寒武纪的扭亏为盈、8家国产芯片的Day0适配，国产芯片已经可以承载顶级大模型的生产级推理负载。

多路径的差异化突围

如果只用一个指标来衡量国产GPU与英伟达的差距，最合适的不是芯片算力，而是时间。

英伟达CUDA生态已经积累了20年，拥有全球400万开发者，全球大部分主流AI框架的默认适配，构成芯片帝国的护城河。开发者想要搬出CUDA生态，成本不止是金钱，还有一个团队数年的代码积累、调试习惯、工具链依赖，是开发者的肌肉记忆。

但更值得关注的是，国产GPU企业正在用远短于20年的时间，用多条路径绕开英伟达方案。

第一条是兼容，摩尔线程走的就是这条路。自研MUSA架构的软件栈高度兼容CUDA生态，目标是以最低迁移成本帮助开发者将应用从英伟达平台迁移过来。

换言之，摩尔线程为庞大的CUDA存量用户提供了一条低摩擦的切换通道。今年5月18日，摩尔线程的北京年度发布会上，摩尔线程创始人张建中直接讲道：

“MUSA的目标从来不是做一个CUDA的替代品，而是要让CUDA开发者无缝迁移到国产平台，真正实现即插即用。”

第二条是绕开，华为昇腾和燧原科技采用的领域专用架构DSA，即专为AI训练和推理定制芯片，不追求图形渲染等通用能力。

这条路的核心思想是专为AI而生，通过在芯片中针对AI训练高频场景设计专用计算单元，如矩阵计算单元、向量计算单元的方式，集中资源为AI计算做硬件优化，从而在AI场景下实现比通用GPU更高的效率和更低的功耗。

例如，华为昇腾950PR单卡性能压制英伟达H20，就是DSA路线优势的最佳注脚。

燧原科技的发展尤为典型，做法是打破做标准芯片等客户采购的模式，主动与模型商高度协同，由腾讯提出需求，燧原做极致的针对性优化。此前，燧原科技的三代芯片已在腾讯内部适配上线数百个业务场景，从微信语音转文字到腾讯会议纪要，从广告推荐到内容审核均有覆盖。

这套打法在腾讯体系内确实跑出了效果。燧原科技2023至2025年营收从3.01亿元跳至9.90亿元，复合增长率高达81.32%。

壁仞科技则选择软硬结合模式，其智算解决方案同时提供自研芯片、板卡、服务器乃至完整的智算集群，也包含自研的BIRENSUPA软件平台，其中附有编译器、算子库、通信库等完整软件栈，并兼容主流AI框架。而在系统层，壁仞提供万卡集群交付能力。

一组数据可以证实这套组合模式的实力。2025年，其智能计算解决方案收入为10.28亿元，占总营收超99%。

概述国产GPU的增长路径，可以是一句话，在单卡能力以外，构筑自己的生态护城河——从通用兼容到专用高效、从芯片到解决方案、从大模型到科学计算，每一个维度都有玩家在全力推进。

从替代到原生

眼下的中国AI芯片市场，正从一个英伟达主导、其余跟随的单极格局，重塑为一个多极的、以够用+便宜+可控为新坐标系的战场。

根据IDC等机构数据，2025年中国AI加速卡总出货量约400万张，其中英伟达出货约220万张，市场份额从巅峰的95%下降至约55%；同期，本土厂商合计出货约165万张。

在这一轮洗牌中，国产阵营已形成清晰的梯队。以81.2万张出货量的华为昇腾为领头羊，阿里平头哥、百度昆仑芯、寒武纪等多强并起，拆掉了英伟达的独角戏。

今年3月，蚂蚁集团首席技术官何征宇带领的Ling团队发布的论文显示，使用优化后的低规格硬件系统，训练1万亿Token的成本可从635万元降至508万元，降幅约为20%。

换句话说，不需要英伟达的先进芯片，国产芯片已经能支持前沿模型训练。

根据中信证券预测，到2026年，中国国内AI芯片市场规模将突破3000亿元人民币，大模型训练和推理需求爆发、智算中心建设和企业AI渗透率提升、以及国产替代进入攻坚阶段，这三大引擎将驱动国产GPU在2028年前后的推理市场占有率突破40%，训练市场突破25%。

更关键的变化发生在结构层面。2026年，AI产业的"云端深耕+边缘爆发"双重格局正在成型。在边缘领域，工业互联网、自动驾驶、数字孪生等场景的落地进入爆发期。海量数量庞大、场景碎片化、对功耗和成本极度敏感的边缘AI节点将迎来需求爆发。

这类需求，恰好不是英伟达的舒适区，却是国产GPU的大蛋糕，不是从英伟达手中抢来的，而是英伟达留下来的。

再往深处看，深度求索官方数据显示，国产芯片的算力利用率从行业普遍的60%提升到了85%，推理成本能降至英伟达方案的三分之一。

换言之，头部项目验证了国产芯片+国产模型+国产云的闭环可以跑通。

但这并不意味着，机会窗口会永远敞开。

英伟达的Blackwell和Rubin系列仍在迭代，CUDA生态的锁死效应仍未松动。

能否跨进软件生态的深水区，构筑一个包含开发者社区在内，完整的原生软件栈；能否用架构创新弥补制程差异，打破先进算力天花板；能否从项目交付走向平台化交付，从一单一单做转向通用运营。

这些关口，决定国产GPU能否从替代叙事迈向原生。眼下燧原科技IPO，四小龙齐聚资本市场只是一个开始。未来，跑通盈利模式，孵化自有生态，这将是国产GPU的新篇章。

本文来自微信公众号“市值水晶”，作者：编辑部，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

GPU四小龙上桌，寒武纪们不再孤单

国产GPU的deepseek时刻

多路径的差异化突围

从替代到原生

最近内容

报道的项目

下一篇