中国算力芯片的“新十年”

36氪的朋友们·2025年10月28日 16:00
统一指令集。

过去40年,处理器芯片呈现出“否定之否定”的螺旋式发展道路:自研-放弃自研-自研。

最近5年,越来越多的整机和平台厂商,重新加入自研的“芯片战争”,并且显现出一个新趋势——以CPU为中心的同构计算系统,转变成CPU联合xPU的异构计算。

“芯片战争”中的选手要直面几个问题:其xPU架构创新有多少,持续创新空间有多大、应用规模能否摊薄硬件、生态的创新成本。

刚刚公布的“十五五”规划建议稿也提到,加快科技高水平自立自强,全面增强自主创新能力,大力实施“卡脖子”迭代攻关,聚焦半导体等关键技术环节。那么,接下来的五年、十年,对于国产“算力芯片”来说,突破口在哪里?

我们认为是指令系统结构(指令集架构)的统一。

系统结构的一致性,更能推动架构层面的创新,比如把RISC-V作为统一指令系统,所有CPU/GPU/xPU都基于RISC-V及其扩展来开发,在扩大规模效应的同时,高效利用研发资源。

指令集相当于软硬件“连接器”,按标准编写软件,即可向硬件发出计算指令。

01 经济规模与生态成本,决定架构的“生与死”

计算机差不多经历了八十多年的历史,早期特点是集中式处理,少数专业人员通过终端设备才能访问到昂贵的计算资源。

20世纪80年代后以微处理器为基础的PC和计算机网络出现,计算模式从集中式转化为分布式。后来又有了智能手机和云计算系统,计算模式进化为集中式的云中心和“泛在分布”的智能终端构成的复杂体系,且云中心本身又是一个巨大的分布式系统。

计算进化到今天,最为核心的CPU,以两种主导式的指令集为代表:PC和服务器领域是x86架构,智能手机领域是ARM架构

x86等架构及相应特征

x86和ARM占主导,是市场洗牌的结果。

时间往回倒退,过去40年业内出现了许多有特色的架构和产品,但大部分都逐渐凋零了。例如:英特尔开发的RISC架构i860/i960、摩托罗推出的68000以及跟IBM、Apple联合开发的PowerPC架构等等。

指令集架构,从几十款到几款,快速收敛的原因各有不同。

x86战胜RISC,靠的是不断向高端RISC“抄作业”,同时根据新应用需求不断增加指令子集,拓展新功能;PC与服务器的CPU同为x86架构,芯片出货量大,分摊了服务器CPU的研发成本,也是x86从竞争中脱颖而出的客观条件。

RISC CPU的失意,表面上是巨额的软硬件投入成本,根源则是无法颠覆已有软硬件生态系统——大量已存在的标准或事实标准的接口,如指令架构系统,这种生态的统治力,英特尔、惠普曾这类联合体也无法撼动。

回想起1990年代超算领域,如nCUBE,KSR、Thinking Machine等创业公司,既自研CPU,又开发MPP超算系统,在系统架构上提出了很多引人入胜的新方案。尤其是KSR,提出了名为Allcache的纯缓存存储架构(COMA),实现了第一个基于纯缓存的并行超算系统,其CPU只跑20MHz,功耗、散热等效率远远高于同期的英特尔486,后者主频达到了50MHz。

最终,各种创新性的架构都“输给了”x86。

不是说这些架构没有创新性,根本上在于架构创新敌不过经济规律。所以,在文章开头,我们就呼吁,未来五年、十年,中国的算力芯片应该统一指令集架构。

02 架构创新难,生态构建更难:壁垒在软件与协同

英特尔于2000年左右推出Pentium 4处理器,时钟频率已达到4GHz。25年后的今天,很多产品时钟频率还停留在这个水平。这是因为进入纳米工艺后,摩尔定律逐渐失效,晶体管开关速度放缓。

现在,业界依赖晶体管数量的累积来提升性能,其基本的思路是并行,如增加数据位宽、增加功能部件、增加处理器核的数量等等。但增加了这么多的部件,如何控制与管理?就要看计算机体系结构。

计算机体系结构既是硬件与软件的接口界面,也决定了硬件与软件的分工,根据硬件与软件分工的不同逻辑,大致可分为三种类型:

激进的结构(完全动态优化):类似上文提到的纯缓存存储架构,强调软件在动态分析和优化方面能力有限,因此在硬件上做尽可能多的动态优化, 但这样往往导致硬件过分复杂、功耗过高;

保守的结构(静态优化):硬件仅提供必需的设施, 如大量的寄存器或SRAM,依赖软件来实现高性能,这种方案的好处是硬件简化了,缺点是编程不便、性能没有保障;

折中的结构(动静态相结合的优化):硬件做一些动态的优化, 如高速缓存,软件也仍有优化的余地,通过软硬件协同解决性能和编程问题。

由于需要运行操作系统、编译器及各种复杂控制应用,涉及的串行因素比较多,高端CPU经常采用激进的结构,但由于结构异常复杂,导致正确性难以验证,研发工作量极大。随着熔断、幽灵等硬件漏洞的出现,这类结构也易受瞬态执行攻击的问题也暴露出来。

目前业界更倾向于基于这种结构——增加处理器核的数量,来提升性能,比如代表算力的xPU芯片,就是典型的众核(Many Core)结构。这种架构可以匹配图像处理、神经网络等天然依赖并行计算的特点,只要硬件提供足够的运算部件、存储单元、互连机制,并由软件程序把并行性表达出来,就可以在并行硬件上高速地执行。

英伟达PASCAL和TURING架构GPU,拥有大量CUDA计算核心

英特尔Xeon Phi,Google TPU等,都是专门设计的众核加速器,而更流行的GPGPU则阴差阳错的成为众核加速器——一开始只用于图形渲染,非专门为AI设计。

不管是TPU还是GPGPU,众核结构xPU的“算力芯片”大规模应用,首先要解决的还是生态系统问题——在处理器上运行的各类软件的总和,包括各种应用软件,及支撑应用软件开发运行的系统软件、中间件、库函数等。在这方面,用户之所以喜欢使用英伟达的产品,就是因为CUDA拥有成熟的并行软件生态。

前面提到英特尔和惠普的合作项目。双方于1994年,联合开发了不与x86兼容的EPIC架构的IA-64安腾处理器,前后花了十余年时间,耗资巨大,终究未能成功。关键就在于经过40多年演进的x86架构,形成了任何处理器架构都无法比拟和复制的产业生态环境。

英特尔、惠普的新架构、新产品,解决不了新的生态问题。

这里面还有一个洞察——Gartner分析了从2009到2018年的企业软件市场,十年间,x86软件的市场份额持续上升,到2018年,全球投入在x86软件(含企业应用软件、基础设施软件、垂直专用软件)开发上的费用高达600亿美元,IDC 2019年同期的数据表明,全球服务器硬件的总收入也就800亿美元。

也就是说,软件开发的费用远远高于硬件,新搞一个处理器架构已经很费钱了,基本不会有人给更多投资去开发配套的软件。

基于这一点,可以预判,未来很长一段时间,服务器市场上x86 CPU仍居主导地位。

有人也许要问,ARM-64的机会在哪里?它的核心看点在于打破英特尔在x86服务器市场一家独大的格局,因为英特尔的CPU毛利太高了,谁都想去分一杯羹,正如AI芯片厂商想去分英伟达的蛋糕一样。

最终,ARM服务器未来能够取得成功,几个原因可能是决定性的:

一是掌控了全栈技术(应用)的大厂放弃x86,如苹果、亚马逊,它们的生态迁移完全可控,产量或毛利率也是可控的

二是端云融合,ARM在终端的优势弥漫到云端,如Android Cloud,ARM服务器更适合支持Android Apps,应用可在云和端间随便迁移。还有云游戏在云端也不需要依赖虚拟机。

x86的故事仍在继续,ARM攻势迅猛,开源的RISC-V则还需要努力。

关于RISC-V,业内有很多讨论,既有ARM“价格贵”的问题,也有开放性、可研究性的问题,但主要还是商业化的困境。

近年来,RISC-V应用较多且相对成功的,都是软件比较简单的场景,即以微控制器(MCU)为代表的嵌入式领域,如希捷、西数等企业的存储类产品。而以物联网为代表的嵌入式场景,其需求非常碎片化,RISC-V虽然可以针对应用特点自定义对指令集的扩展,但这样分门别类地定制芯片,就失去了集成电路产业的规模效应。

软件、应用之外,RISC-V的硬件生态也还不成熟——有竞争优势的高性价比处理器核的种类少,也缺乏支持多核互连的高性能片上网络(NOC),尤其是片上网络,业内都还在用ARM方案,不过ARM不会单独向RISC-V项目授权片上网络IP,而要搭售ARM CPU核心,成本又被拉上来了。

一些观点认为,随着JAVA、Python等跨平台的语言/工具越来越流行,通过虚拟机技术实现应用的跨平台迁移,还可以用仿真的方法用一种指令集模拟另一种指令集,寄希望于指令集架构重要性变低,进而重构x86、ARM的“垄断”格局。

不过,这也存在另一些相反的事实,例如英特尔一直在持续地扩展其指令集,增加新指令(子集),如近年看到的SGX、AVX512、AI扩展指令集等,说明硬件指令的直接支持对性能、能效比至关重要。

又如,由于业界的各类基础软件和应用软件,主要都是针对英特尔CPU优化的,即使同样是x86的AMD CPU,能流畅支持的软件配置种类就少得多。所以,阿里的公有云平台只用英特尔的CPU产品,它们可以自如地支持各种老旧的OS类型、版本、配置。

从这个角度来看,RISC-V进入以计算机为代表的通用平台,还有一段旷日持久的路程要走

03 统一指令集:中国算力芯片规模化的关键路径

近年来,系统和平台厂商又开始研发计算芯片了:美国有苹果公司、谷歌、亚马逊、微软,中国公司也很多。

所有自研的场景当中,云厂自研芯片的模式是行得通的,因为企业盈利的基础在于增值服务,不在硬件。云厂商由于掌控全栈软硬件,生态移植的困难也较小,且因为自身规模大,可以负担芯片研发的费用。

不过,现阶段多数企业自研还是用于内部,因此外部客户仍然需要独立的芯片供应商。

众多自研芯片的系统厂商当中,苹果公司是一个非常成功的案例,基本实现了核心产品线处理器的全线自研——手机为A系列、平板和PC为M系列、手表为W系列、耳机为H系列。

苹果自研芯片矩阵,数据更新至2025年9月

“产品定价高”可以作为评判苹果自研成功与否的一个表面指标。

和公版的ARM CPU核相比,苹果公司自研的CPU性能高、成本也高,但配合自研的系统软件,整体达到优化的用户体验,同时加上营销体系的助力,形成“高大上”的形象,就可以卖出高价钱。

只不过,很多失败的项目,只看到了苹果公司“自研芯片”的表面指标,“自研芯片”,如果只是为了“使用芯片”,或者只是聚焦在纸面参数上,而忽略掉软件的差异化、生态能力提升,进而共同推动用户体验的优化,未必有价值。

软件定义一切,也包括“成败”。

无论CPU还是GPGPU,都需要在软件生态上,与现有成熟产品形成差异化,实现附加值提升,但这不等于一切都需要重构和创新,比如指令系统——指令系统越多,软件生态方面就需要投入越多,“统一”起来困难重重。

前面提过,软件方面的投入比硬件研发的投入还要大,而软件掉队的负面现象,目前大量出现在当前的领域专用架构(DSA)和其它xPU研发领域。比如很多国产智算中心,投资规模很大,但受配套软件不全等问题限制,实际利用率并不高,这其实就是软件跟不上硬件“步伐”带来的后遗症。

回想架构之争的年代,诸神混战,最后也只有少数几个架构活了下来。

实际上,体系结构创新,未必一定要新架构,也可以在现有的指令系统框架内实现,RISC-V恰好在这方面具备很好的支撑。

例如,国外Tenstorrent等企业基于RISC-V指令集,扩展支持AI的子指令集,进而开发了基于RISC-V的AI加速计算方案。又如,国内外不少大学和科研机构都在RISC-V上扩展了密码学相关的子指令集,并在此基础上实现了对后量子密码的支持等等。

所以,我们呼吁:把RISC-V作为统一指令系统,所有CPU/GPU/xPU都基于RISC-V及其扩展来开发,避免重复劳动和研发资源的无谓浪费。

文丨唐志敏:深圳理工大学算力微电子学院院长、象帝先董事长

本文来自微信公众号“腾讯科技”,作者:唐志敏,36氪经授权发布。

+1
4

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业