阿里放出隐藏大招?一文读懂大火的GPU
近期,阿里又放出一枚重磅炸弹:阿里巴巴集团已决定,支持旗下芯片公司“平头哥半导体”未来独立上市。
消息传出的当天,阿里美股盘前股价涨幅一度超过5%。
能看出市场的期待。
阿里平头哥,主要搞芯片研发,成立于2018年9月,由阿里巴巴收购的中天微系统与达摩院芯片团队整合组建而成。
据说,平头哥在2025年推出的通用GPU芯片(PPU),综合性能可以对标英伟达H20,升级版性能则可以比肩A100。
这个A100,就是前段时间刚刚解禁的,英伟达H200的上一代产品,也是当下中小规模的AI训练,性价比最高的产品之一。
总之,市场需求量相当大。
目前,平头哥的PPU已经是国内自研GPU,出货量最高的产品之一。
去年年底开始,国内GPU赛道选手开始密集上市。
12月5日,被称为“小英伟达”的摩尔线程登陆科创板,高开涨幅468%,中一签就是小27万元;
12月17日,沐曦股份上市,首日暴涨693%;
今年1月2日,和摩尔、沐曦同为国产GPU四小龙的壁仞科技在港交所挂牌上市,为2026年港股首支新股;
1月22日,燧原科技科创板IPO申请,获上交所受理;
百度旗下昆仑芯科技已完成股份制改造,计划独立上市,消息引发百度港股大涨;
同时,包括瀚博半导体、中昊芯英等多家国产GPU领域的科技公司,都有上市动作传出.....
而近年来,老美则频频在这个领域卡我们的脖子。
一边是市场的火热,另一边,是对手千方百计的阻挠,这个GPU赛道,究竟有着怎样的含金量?
今天,通过四个问题一文读懂它:
- 到底什么是GPU?
- 差距在哪?
- 国产GPU的玩家都有谁?
- GPU赛道上下游情况如何?
到底什么是GPU?
其实之前我们讲摩尔线程的时候,讲过这个问题,简单说,它是当下AI发展不可缺少的“算力心脏”。
现在的AI大模型,本质上是无数个“矩阵运算”。
当你问AI一个问题时,它后台是在进行千万亿次的加减法。这种任务,逻辑极简但量级巨大,GPU就非常擅长这种暴力计算。
就像同样是一个班的同学,擅长的东西各有不同,GPU也有细分赛道。根据侧重点,GPU可以简单分为四个赛道,分别是:
AI训练芯片、AI推理芯片、图形渲染GPU、通用计算GPU。
目前,全球GPU市场呈“一超两强”格局,英伟达全领域垄断,综合市占率接近92%。
国内市场,国产最强玩家是华为昇腾,2025年市占率大约在28%,其次是寒武纪约4%,其他国产厂商合计约14%,约54%还是英伟达。
差距在哪?
国产GPU和世界头部的差距主要可以总结为两方面:
第一,物理差距。
也就是我们经常看到的纳米差距,目前,英伟达B200已经进入台积电4nm工艺的成熟期,而国产高端GPU的主战场还在7nm。
从性能视角看,肯定是数字越小越好。
数字越小,单位面积内能塞下的晶体管就越多,相当于同样的占地面积,人多好办活,性能上去了。
比如从7nm升级到5nm,晶体管密度理论上提升了1.8倍。
这造成了两个问题:
一是能效比。国产卡在输出同等算力时,功耗通常高出40%-50%。
二是良率成本。台积电先进制程良率常年稳定在85%以上,而国产高端芯片良率目前仍在45%-50%波动。这就意味着,同样的晶圆,国产芯片能用的,少一半,摊薄后的单片成本要更高。
第二,生态差距。
英伟达真正的护城河,是生态。20年的积累英伟达的CUDA已经形成了超过400万人的庞大开发者社区,数百万个优化好的算子库随取随用。
相比之下,国产厂商虽然在努力,但在处理冷门模型或前沿算法时,依然面临“算子缺失”的问题。
相当于啥呢?在标准场景下,国产GPU表现不错,但一旦进入千奇百怪的业务真实模型,往往需要原厂工程师驻场“手搓”代码。
耗时耗力不说,稳定性也会偏差。
主要原因,还是国内相关领域起步比较晚,加上被技术卡脖子,不过,也正是在这样的情况下,国产GPU玩家的努力才更显价值。
实际上,这几年的追赶也是有成效的,如果简单依据领域做个定位:
在AI训练、图形渲染高端市场,国产对比英伟达大概落后1-2代产品;
在AI推理、中低端通用计算领域,国产性能已经能达到英伟达70%-90%,从性价比角度看,可以和英伟达掰掰手腕;
在国产化合规场景、千卡级集群适配,国产玩家则有一定的优势。
总之,国产厂商目前的策略非常明确:在训练端通过集群互联“用数量换质量”,在推理端通过深度适配“用场景换市场”。
国产GPU的玩家都有哪些?
当下的国内市场,不完全统计,关注度比较高的玩家主要有:
华为昇腾、平头哥、海光信息、摩尔线程、寒武纪、壁仞科技、沐曦股份、燧原科技。
1、 华为昇腾:目前国产阵营中唯一的全场景、全栈生态霸主。
【主攻赛道】:高端AI训练、推理及通用计算全覆盖。
【核心产品】:昇腾910C。
【产品水平】:采用7nm工艺,FP16算力达800 TFLOPS,性能直逼英伟达H100的80%。
【特点】:拥有从芯片到框架(MindSpore)的闭环,主打“系统换性能”,支持16万卡级集群扩展。
【盈利情况】:作为华为ICT业务的核心,2025年昇腾相关业务营收估算突破450亿元,毛利率维持在45%-50%的高位。虽然研发投入巨大,但在万卡集群的溢价能力让其成为国产阵营中最厚实的钱袋子。
2、平头哥:阿里的隐藏大招
【主攻赛道】:云端算力、存储及网络。
【核心产品】:PPU系列。
【产品水平】:PPU配备96GB HBM2e显存,带宽700GB/s,功耗400W,性能完全对标英伟达H20。
【特点】:深度适配阿里云,易用性强。
【盈利情况】:2025年营收在集团内部结算及外部供应支撑下实现爆发式增长,已初步具备独立造血能力,估值直指千亿。
3、 寒武纪:推理赛道的领头羊
【主攻赛道】:AI推理。
【核心产品】:思元590。
【产品水平】:能效比达2.0 TOPS/W,综合性能达英伟达A100特70-80%,推荐系统能效比甚至是H100的1.8倍。
【特点】:国内AI芯片先发者,自研智能处理器指令集,在合规场景中粘性极强。
【盈利情况】:2025年营收预估达28.6亿元,同比激增133%,且在特定季度已率先实现扭亏为盈,造血能力在独立芯片设计公司中属于第一梯队。
4、 摩尔线程,全功能GPU“中国版英伟达”,消费级市场的王
【主攻赛道】:全功能GPU(图形渲染+AI计算)。
【核心产品】:MTT S80/S5000。
【产品水平】:S80性能对标RTX 3060,S5000支持万卡集群。
【特点】:MUSA统一计算架构,CUDA算子兼容度超90%,是目前唯一在消费级市场实现突破的国产玩家。
【盈利情况】预计2025年全年营收15.20亿元,同比增幅达246.67%。同时,扣非净利润预计亏损11.50亿元,亏损幅度继续收窄。
5、壁仞科技:AI高端训练的突围者
壁仞科技是国产阵营中少有的、敢在高端训练赛道与英伟达掰手腕的“孤勇者”。
【主攻赛道】:高端AI训练。
【核心产品】:BR100。
【产品水平】:采用7nm+Chiplet技术,INT8算力达19200 TOPS,性能对标英伟达H200。
【特点】:异构混训方案,能实现壁仞芯片与海外芯片多品牌集群协同,效率超98%。
【盈利情况】:研发强度极高(约占营收160%),目前仍处于大规模亏损状态,扭亏关键点在于高端客户的复购率,目前复购率超80%。
6、沐曦股份:训推一体的学术派
【主攻赛道】:训推一体及高精度计算。
【核心产品】:曦云C600。
【产品水平】:FP8算力1000 TFLOPS,显存带宽3.35 TB/s。
【特点】:具备国产极其稀缺的FP64双精度算力,专门填补气象、石油等科学计算市场的真空。
【盈利情况】:2024年营收约7.43亿元,净亏损14亿元,2025年前三季度亏损幅度虽有所收窄,但仍未实现年度盈利。公司预计最早可能在2026年达到盈亏平衡
7、燧原科技:云端算力深耕者
【主攻赛道】:云端AI训练与推理。
【核心产品】:云燧T10/i20。
【产品水平】:训练效率比通用架构高20%。
【特点】:DSA动态可重构架构,主打高性价比和集群稳定性,特别针对大模型训练进行算法深度优化。
【盈利情况】:背靠腾讯,资金链相对稳健。随着智算中心大单陆续落地,2025年营收增长预期超80%,正在加速冲刺盈亏平衡点。
8、海光信息:闷声大发财的典范
【主攻赛道】:通用计算GPU(GPGPU)。
【核心产品】:深算二号。
【产品水平】:性能达A100的80%,但价格仅为后者的六成,性价比极高。
【特点】:依托x86架构协同,CUDA兼容度超99%,实现了真正的“零成本迁移”。
【盈利情况】:2025年营收约80亿元,净利润超10亿元,毛利率达45%。它是国产GPU行业中盈利规模最大、稳定性最强的选手。
总之,除了部分选手,目前绝大多数国产GPU玩家尚处于投入阶段,能否实现盈亏平衡,还要看其在各自的细分领域短期是否可以出现技术突破。
GPU赛道上下游情况如何?
GPU赛道是一条精密工业链条,设计-制造-封测三个环节都值得关注。
上游设计领域,相当于GPU的画笔,全球龙头是,Synopsys(新思)、Cadence(楷登)、Siemens EDA(西门子),他们垄断了3nm/5nm先进制程工具链,市占率超75%。
国产头部玩家是华大九天、合见工软。
其中,华大九天在成熟制程(28nm及以上)替代率已超60%,合见工软在7nm数字大芯片验证领域也有突破。
中游制造端,全球巨头是台积电和三星,掌握3nm/2nm先进制程,英伟达H100几乎全部出自台积电4N工艺。
国产头部玩家是中芯国际。
虽然和台积电还有代际差距,但中芯国际目前N+2工艺(等效7nm)已实现量产,可以说支撑起了国产GPU的规模化。
下游封测与材料环节,全球最强的是SK海力士、三星以及台积电。其中,海力士垄断了全球HBM3e市场,是英伟达最硬的队友。台积电CoWoS产能直接决定了全球GPU的供应量。
国产头部玩家是长鑫存储和通富微电。
目前,长鑫存储HBM3工程样片良率达50%,计划2026年量产,有望打破韩系垄断。通富微电在2.5D封装领域良率超95%。
最后,石油是工业时代的血液,那么算力就是AI时代的氧气,未来三年,全球算力需求,依然将维持50%以上的年复合增长。
对我们而言,当下不是国产GPU“行不行”的问题,而是我们“必须行”的问题。这场没有硝烟的战争中,国产芯片已经完成了最艰难的渡海。
路虽远,行则将至。
特别声明:关于本文提到的所有内容,仅供学习交流使用,不构成投资建议,内容如有纰漏,望指正!
本文来自微信公众号“风声声”,作者:风声声,36氪经授权发布。















