GPU四小龙上桌,寒武纪们不再孤单

市值水晶·2026年06月24日 16:18
谁能赌对下一个五年?
寒武纪
定向增发北京市2016-03
深度学习专用的智能芯片
我要联系

GPU四小龙,即将在资本市场完成集结。

6月15日,上海燧原科技通过上交所科创板上市审议。根据招股书披露,燧原科技本次IPO拟募资60亿元,其中33亿投向AI软硬件协同创新项目,剩下的钱12亿给第六代芯片研发、15亿给第五代芯片研发。

国产GPU的资本拼图正在被补齐,四小龙摩尔线程、沐曦股份、壁仞科技、燧原科技即将在资本市场完成全员集结。

这是一个被加速的时刻。

从2025年12月到2026年6月,短短半年时间,至少6家AI芯片企业登陆或即将登陆资本市场。如果加上此前已上市的寒武纪、海光信息、天数智芯,国产GPU军团的总市值正在逼近2万亿元。

数字背后的含金量更值得关注。

当摩尔线程一季度实现账面盈利2935万元,沐曦股份亏损收窄57.7%,并明确给出了2026年达到盈亏平衡点的时间表。不同数字指向同一个方向:

国产GPU正在以前所未有的速度缩短从技术突破到商业正循环的距离。

国产GPU的deepseek时刻

2026年4月24日,深度求索发布了万亿参数旗舰模型DeepSeek-V4。

与一年前V3发布时业界还在争论"国产芯片能不能跑大模型"不同,这一次,包括华为昇腾、寒武纪、海光、沐曦、摩尔线程、昆仑芯、平头哥真武、天数智芯在内,多家国产AI芯片在模型发布当天就完成了适配。

DeepSeek-V4为国产芯片带来的,远不止一次技术适配,它改变了市场对国产算力的预期坐标系。

此前,评判一颗AI芯片的默认框架是,其性能达到英伟达同代产品的百分之多少。这将国产芯片置于追赶者的位置上。

但DeepSeek-V4的实践提供了一个新视角。华为昇腾计算业务总裁张迪煊透露,华为AI训推加速卡Atlas 350的单卡算力已经达到英伟达H20的2.87倍。

当万亿参数模型可以在国产芯片上稳定运行,对标英伟达最强卡就不再是唯一的选择标准。

这种认知的转变正在转化为真金白银。市场研究机构Bernstein Research预测,到2026年,英伟达在中国AI芯片市场的份额将从三年前的95%暴跌至8%,华为将占据50%,AMD约12%,寒武纪排名第三。

群雄逐鹿的格局下,国产AI加速卡整体份额突破60%。这是一个历史性的格局重塑,三年前还被认为是不可逾越的壁垒,正在被国产芯片迅速瓦解。

GPU四小龙的崛起同样不可忽视。

2026年3月30日晚,摩尔线程夸娥智算集群砍下6.6亿元大额订单。公告显示,仅此一个订单,其合同金额就相当于摩尔线程2024年全年营收额的55%。

这意味着,摩尔线程已攻克万卡级集群的工程化壁垒,从造芯片迈入交付超大规模算力集群。

此次冲刺科创板的燧原科技,则受益于与头部企业的紧密绑定。

在腾讯2025年全年业绩发布会上,总裁刘炽平对外披露,腾讯在2025年对AI新产品的投入约为180亿元,并计划在2026年将这一投入至少翻倍至360亿元以上。

需求端的爆发才刚刚开始,而燧原在其中获得的份额正在持续扩大。2026年一季度,燧原营收2.87亿元,同比暴增1474%。

眼下,窗口仍在扩大。

以壁仞科技为例,其2025年营收10.35亿元,同比增长高达207%,手握客户覆盖国家级算力平台、电信运营商和AI大模型公司。53.8%的毛利率表明,其产品在市场中拥有充分议价地位。

背后是DeepSeek-V4撞开的市场窗口,从华为昇腾的订单激增、到寒武纪的扭亏为盈、8家国产芯片的Day0适配,国产芯片已经可以承载顶级大模型的生产级推理负载。

多路径的差异化突围

如果只用一个指标来衡量国产GPU与英伟达的差距,最合适的不是芯片算力,而是时间。

英伟达CUDA生态已经积累了20年,拥有全球400万开发者,全球大部分主流AI框架的默认适配,构成芯片帝国的护城河。开发者想要搬出CUDA生态,成本不止是金钱,还有一个团队数年的代码积累、调试习惯、工具链依赖,是开发者的肌肉记忆。

但更值得关注的是,国产GPU企业正在用远短于20年的时间,用多条路径绕开英伟达方案。

第一条是兼容,摩尔线程走的就是这条路。自研MUSA架构的软件栈高度兼容CUDA生态,目标是以最低迁移成本帮助开发者将应用从英伟达平台迁移过来。

换言之,摩尔线程为庞大的CUDA存量用户提供了一条低摩擦的切换通道。今年5月18日,摩尔线程的北京年度发布会上,摩尔线程创始人张建中直接讲道:

“MUSA的目标从来不是做一个CUDA的替代品,而是要让CUDA开发者无缝迁移到国产平台,真正实现即插即用。”

第二条是绕开,华为昇腾和燧原科技采用的领域专用架构DSA,即专为AI训练和推理定制芯片,不追求图形渲染等通用能力。

这条路的核心思想是专为AI而生,通过在芯片中针对AI训练高频场景设计专用计算单元,如矩阵计算单元、向量计算单元的方式,集中资源为AI计算做硬件优化,从而在AI场景下实现比通用GPU更高的效率和更低的功耗。

例如,华为昇腾950PR单卡性能压制英伟达H20,就是DSA路线优势的最佳注脚。

燧原科技的发展尤为典型,做法是打破做标准芯片等客户采购的模式,主动与模型商高度协同,由腾讯提出需求,燧原做极致的针对性优化。此前,燧原科技的三代芯片已在腾讯内部适配上线数百个业务场景,从微信语音转文字到腾讯会议纪要,从广告推荐到内容审核均有覆盖。

这套打法在腾讯体系内确实跑出了效果。燧原科技2023至2025年营收从3.01亿元跳至9.90亿元,复合增长率高达81.32%。

壁仞科技则选择软硬结合模式,其智算解决方案同时提供自研芯片、板卡、服务器乃至完整的智算集群,也包含自研的BIRENSUPA软件平台,其中附有编译器、算子库、通信库等完整软件栈,并兼容主流AI框架。而在系统层,壁仞提供万卡集群交付能力。

一组数据可以证实这套组合模式的实力。2025年,其智能计算解决方案收入为10.28亿元,占总营收超99%。

概述国产GPU的增长路径,可以是一句话,在单卡能力以外,构筑自己的生态护城河——从通用兼容到专用高效、从芯片到解决方案、从大模型到科学计算,每一个维度都有玩家在全力推进。

从替代到原生

眼下的中国AI芯片市场,正从一个英伟达主导、其余跟随的单极格局,重塑为一个多极的、以够用+便宜+可控为新坐标系的战场。

根据IDC等机构数据,2025年中国AI加速卡总出货量约400万张,其中英伟达出货约220万张,市场份额从巅峰的95%下降至约55%;同期,本土厂商合计出货约165万张。

在这一轮洗牌中,国产阵营已形成清晰的梯队。以81.2万张出货量的华为昇腾为领头羊,阿里平头哥、百度昆仑芯、寒武纪等多强并起,拆掉了英伟达的独角戏。

今年3月,蚂蚁集团首席技术官何征宇带领的Ling团队发布的论文显示,使用优化后的低规格硬件系统,训练1万亿Token的成本可从635万元降至508万元,降幅约为20%。

换句话说,不需要英伟达的先进芯片,国产芯片已经能支持前沿模型训练。

根据中信证券预测,到2026年,中国国内AI芯片市场规模将突破3000亿元人民币,大模型训练和推理需求爆发、智算中心建设和企业AI渗透率提升、以及国产替代进入攻坚阶段,这三大引擎将驱动国产GPU在2028年前后的推理市场占有率突破40%,训练市场突破25%。

更关键的变化发生在结构层面。2026年,AI产业的"云端深耕+边缘爆发"双重格局正在成型。在边缘领域,工业互联网、自动驾驶、数字孪生等场景的落地进入爆发期。海量数量庞大、场景碎片化、对功耗和成本极度敏感的边缘AI节点将迎来需求爆发。

这类需求,恰好不是英伟达的舒适区,却是国产GPU的大蛋糕,不是从英伟达手中抢来的,而是英伟达留下来的。

再往深处看,深度求索官方数据显示,国产芯片的算力利用率从行业普遍的60%提升到了85%,推理成本能降至英伟达方案的三分之一。

换言之,头部项目验证了国产芯片+国产模型+国产云的闭环可以跑通。

但这并不意味着,机会窗口会永远敞开。

英伟达的Blackwell和Rubin系列仍在迭代,CUDA生态的锁死效应仍未松动。

能否跨进软件生态的深水区,构筑一个包含开发者社区在内,完整的原生软件栈;能否用架构创新弥补制程差异,打破先进算力天花板;能否从项目交付走向平台化交付,从一单一单做转向通用运营。

这些关口,决定国产GPU能否从替代叙事迈向原生。眼下燧原科技IPO,四小龙齐聚资本市场只是一个开始。未来,跑通盈利模式,孵化自有生态,这将是国产GPU的新篇章。

本文来自微信公众号“市值水晶”,作者:编辑部,36氪经授权发布。

+1
5

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

报道的项目

寒武纪
我要联系
深度学习专用的智能芯片

下一篇

2026WAVES创投圆桌:探讨AI各阶段趋势与投资方向

3小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业