中国算力芯片的“新十年”

36氪的朋友们·2025年10月28日 16:00

统一指令集。

过去40年，处理器芯片呈现出“否定之否定”的螺旋式发展道路：自研-放弃自研-自研。

最近5年，越来越多的整机和平台厂商，重新加入自研的“芯片战争”，并且显现出一个新趋势——以CPU为中心的同构计算系统，转变成CPU联合xPU的异构计算。

“芯片战争”中的选手要直面几个问题：其xPU架构创新有多少，持续创新空间有多大、应用规模能否摊薄硬件、生态的创新成本。

刚刚公布的“十五五”规划建议稿也提到，加快科技高水平自立自强，全面增强自主创新能力，大力实施“卡脖子”迭代攻关，聚焦半导体等关键技术环节。那么，接下来的五年、十年，对于国产“算力芯片”来说，突破口在哪里？

我们认为是指令系统结构（指令集架构）的统一。

系统结构的一致性，更能推动架构层面的创新，比如把RISC-V作为统一指令系统，所有CPU/GPU/xPU都基于RISC-V及其扩展来开发，在扩大规模效应的同时，高效利用研发资源。

指令集相当于软硬件“连接器”，按标准编写软件，即可向硬件发出计算指令。

01 经济规模与生态成本，决定架构的“生与死”

计算机差不多经历了八十多年的历史，早期特点是集中式处理，少数专业人员通过终端设备才能访问到昂贵的计算资源。

20世纪80年代后以微处理器为基础的PC和计算机网络出现，计算模式从集中式转化为分布式。后来又有了智能手机和云计算系统，计算模式进化为集中式的云中心和“泛在分布”的智能终端构成的复杂体系，且云中心本身又是一个巨大的分布式系统。

计算进化到今天，最为核心的CPU，以两种主导式的指令集为代表：PC和服务器领域是x86架构，智能手机领域是ARM架构。

x86等架构及相应特征

x86和ARM占主导，是市场洗牌的结果。

时间往回倒退，过去40年业内出现了许多有特色的架构和产品，但大部分都逐渐凋零了。例如：英特尔开发的RISC架构i860/i960、摩托罗推出的68000以及跟IBM、Apple联合开发的PowerPC架构等等。

指令集架构，从几十款到几款，快速收敛的原因各有不同。

x86战胜RISC，靠的是不断向高端RISC“抄作业”，同时根据新应用需求不断增加指令子集，拓展新功能；PC与服务器的CPU同为x86架构，芯片出货量大，分摊了服务器CPU的研发成本，也是x86从竞争中脱颖而出的客观条件。

RISC CPU的失意，表面上是巨额的软硬件投入成本，根源则是无法颠覆已有软硬件生态系统——大量已存在的标准或事实标准的接口，如指令架构系统，这种生态的统治力，英特尔、惠普曾这类联合体也无法撼动。

回想起1990年代超算领域，如nCUBE，KSR、Thinking Machine等创业公司，既自研CPU，又开发MPP超算系统，在系统架构上提出了很多引人入胜的新方案。尤其是KSR，提出了名为Allcache的纯缓存存储架构（COMA），实现了第一个基于纯缓存的并行超算系统，其CPU只跑20MHz，功耗、散热等效率远远高于同期的英特尔486，后者主频达到了50MHz。

最终，各种创新性的架构都“输给了”x86。

不是说这些架构没有创新性，根本上在于架构创新敌不过经济规律。所以，在文章开头，我们就呼吁，未来五年、十年，中国的算力芯片应该统一指令集架构。

02 架构创新难，生态构建更难：壁垒在软件与协同

英特尔于2000年左右推出Pentium 4处理器，时钟频率已达到4GHz。25年后的今天，很多产品时钟频率还停留在这个水平。这是因为进入纳米工艺后，摩尔定律逐渐失效，晶体管开关速度放缓。

现在，业界依赖晶体管数量的累积来提升性能，其基本的思路是并行，如增加数据位宽、增加功能部件、增加处理器核的数量等等。但增加了这么多的部件，如何控制与管理？就要看计算机体系结构。

计算机体系结构既是硬件与软件的接口界面，也决定了硬件与软件的分工，根据硬件与软件分工的不同逻辑，大致可分为三种类型：

激进的结构（完全动态优化）：类似上文提到的纯缓存存储架构，强调软件在动态分析和优化方面能力有限，因此在硬件上做尽可能多的动态优化, 但这样往往导致硬件过分复杂、功耗过高；

保守的结构（静态优化）：硬件仅提供必需的设施, 如大量的寄存器或SRAM，依赖软件来实现高性能，这种方案的好处是硬件简化了，缺点是编程不便、性能没有保障；

折中的结构（动静态相结合的优化）：硬件做一些动态的优化, 如高速缓存，软件也仍有优化的余地，通过软硬件协同解决性能和编程问题。

由于需要运行操作系统、编译器及各种复杂控制应用，涉及的串行因素比较多，高端CPU经常采用激进的结构，但由于结构异常复杂，导致正确性难以验证，研发工作量极大。随着熔断、幽灵等硬件漏洞的出现，这类结构也易受瞬态执行攻击的问题也暴露出来。

目前业界更倾向于基于这种结构——增加处理器核的数量，来提升性能，比如代表算力的xPU芯片，就是典型的众核（Many Core）结构。这种架构可以匹配图像处理、神经网络等天然依赖并行计算的特点，只要硬件提供足够的运算部件、存储单元、互连机制，并由软件程序把并行性表达出来，就可以在并行硬件上高速地执行。

英伟达PASCAL和TURING架构GPU，拥有大量CUDA计算核心

英特尔Xeon Phi，Google TPU等，都是专门设计的众核加速器，而更流行的GPGPU则阴差阳错的成为众核加速器——一开始只用于图形渲染，非专门为AI设计。

不管是TPU还是GPGPU，众核结构xPU的“算力芯片”大规模应用，首先要解决的还是生态系统问题——在处理器上运行的各类软件的总和，包括各种应用软件，及支撑应用软件开发运行的系统软件、中间件、库函数等。在这方面，用户之所以喜欢使用英伟达的产品，就是因为CUDA拥有成熟的并行软件生态。

前面提到英特尔和惠普的合作项目。双方于1994年，联合开发了不与x86兼容的EPIC架构的IA-64安腾处理器，前后花了十余年时间，耗资巨大，终究未能成功。关键就在于经过40多年演进的x86架构，形成了任何处理器架构都无法比拟和复制的产业生态环境。

英特尔、惠普的新架构、新产品，解决不了新的生态问题。

这里面还有一个洞察——Gartner分析了从2009到2018年的企业软件市场，十年间，x86软件的市场份额持续上升，到2018年，全球投入在x86软件（含企业应用软件、基础设施软件、垂直专用软件）开发上的费用高达600亿美元，IDC 2019年同期的数据表明，全球服务器硬件的总收入也就800亿美元。

也就是说，软件开发的费用远远高于硬件，新搞一个处理器架构已经很费钱了，基本不会有人给更多投资去开发配套的软件。

基于这一点，可以预判，未来很长一段时间，服务器市场上x86 CPU仍居主导地位。

有人也许要问，ARM-64的机会在哪里？它的核心看点在于打破英特尔在x86服务器市场一家独大的格局，因为英特尔的CPU毛利太高了，谁都想去分一杯羹，正如AI芯片厂商想去分英伟达的蛋糕一样。

最终，ARM服务器未来能够取得成功，几个原因可能是决定性的：

一是掌控了全栈技术（应用）的大厂放弃x86，如苹果、亚马逊，它们的生态迁移完全可控，产量或毛利率也是可控的

二是端云融合，ARM在终端的优势弥漫到云端，如Android Cloud，ARM服务器更适合支持Android Apps，应用可在云和端间随便迁移。还有云游戏在云端也不需要依赖虚拟机。

x86的故事仍在继续，ARM攻势迅猛，开源的RISC-V则还需要努力。

关于RISC-V，业内有很多讨论，既有ARM“价格贵”的问题，也有开放性、可研究性的问题，但主要还是商业化的困境。

近年来，RISC-V应用较多且相对成功的，都是软件比较简单的场景，即以微控制器(MCU)为代表的嵌入式领域，如希捷、西数等企业的存储类产品。而以物联网为代表的嵌入式场景，其需求非常碎片化，RISC-V虽然可以针对应用特点自定义对指令集的扩展，但这样分门别类地定制芯片，就失去了集成电路产业的规模效应。

软件、应用之外，RISC-V的硬件生态也还不成熟——有竞争优势的高性价比处理器核的种类少，也缺乏支持多核互连的高性能片上网络（NOC），尤其是片上网络，业内都还在用ARM方案，不过ARM不会单独向RISC-V项目授权片上网络IP，而要搭售ARM CPU核心，成本又被拉上来了。

一些观点认为，随着JAVA、Python等跨平台的语言/工具越来越流行，通过虚拟机技术实现应用的跨平台迁移，还可以用仿真的方法用一种指令集模拟另一种指令集，寄希望于指令集架构重要性变低，进而重构x86、ARM的“垄断”格局。

不过，这也存在另一些相反的事实，例如英特尔一直在持续地扩展其指令集，增加新指令（子集），如近年看到的SGX、AVX512、AI扩展指令集等，说明硬件指令的直接支持对性能、能效比至关重要。

又如，由于业界的各类基础软件和应用软件，主要都是针对英特尔CPU优化的，即使同样是x86的AMD CPU，能流畅支持的软件配置种类就少得多。所以，阿里的公有云平台只用英特尔的CPU产品，它们可以自如地支持各种老旧的OS类型、版本、配置。

从这个角度来看，RISC-V进入以计算机为代表的通用平台，还有一段旷日持久的路程要走。

03 统一指令集：中国算力芯片规模化的关键路径

近年来，系统和平台厂商又开始研发计算芯片了：美国有苹果公司、谷歌、亚马逊、微软，中国公司也很多。

所有自研的场景当中，云厂自研芯片的模式是行得通的，因为企业盈利的基础在于增值服务，不在硬件。云厂商由于掌控全栈软硬件，生态移植的困难也较小，且因为自身规模大，可以负担芯片研发的费用。

不过，现阶段多数企业自研还是用于内部，因此外部客户仍然需要独立的芯片供应商。

众多自研芯片的系统厂商当中，苹果公司是一个非常成功的案例，基本实现了核心产品线处理器的全线自研——手机为A系列、平板和PC为M系列、手表为W系列、耳机为H系列。

苹果自研芯片矩阵，数据更新至2025年9月

“产品定价高”可以作为评判苹果自研成功与否的一个表面指标。

和公版的ARM CPU核相比，苹果公司自研的CPU性能高、成本也高，但配合自研的系统软件，整体达到优化的用户体验，同时加上营销体系的助力，形成“高大上”的形象，就可以卖出高价钱。

只不过，很多失败的项目，只看到了苹果公司“自研芯片”的表面指标，“自研芯片”，如果只是为了“使用芯片”，或者只是聚焦在纸面参数上，而忽略掉软件的差异化、生态能力提升，进而共同推动用户体验的优化，未必有价值。

软件定义一切，也包括“成败”。

无论CPU还是GPGPU，都需要在软件生态上，与现有成熟产品形成差异化，实现附加值提升，但这不等于一切都需要重构和创新，比如指令系统——指令系统越多，软件生态方面就需要投入越多，“统一”起来困难重重。

前面提过，软件方面的投入比硬件研发的投入还要大，而软件掉队的负面现象，目前大量出现在当前的领域专用架构（DSA）和其它xPU研发领域。比如很多国产智算中心，投资规模很大，但受配套软件不全等问题限制，实际利用率并不高，这其实就是软件跟不上硬件“步伐”带来的后遗症。

回想架构之争的年代，诸神混战，最后也只有少数几个架构活了下来。

实际上，体系结构创新，未必一定要新架构，也可以在现有的指令系统框架内实现，RISC-V恰好在这方面具备很好的支撑。

例如，国外Tenstorrent等企业基于RISC-V指令集，扩展支持AI的子指令集，进而开发了基于RISC-V的AI加速计算方案。又如，国内外不少大学和科研机构都在RISC-V上扩展了密码学相关的子指令集，并在此基础上实现了对后量子密码的支持等等。

所以，我们呼吁：把RISC-V作为统一指令系统，所有CPU/GPU/xPU都基于RISC-V及其扩展来开发，避免重复劳动和研发资源的无谓浪费。

文丨唐志敏：深圳理工大学算力微电子学院院长、象帝先董事长

本文来自微信公众号“腾讯科技”，作者：唐志敏，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

中国算力芯片的“新十年”

01 经济规模与生态成本，决定架构的“生与死”

02 架构创新难，生态构建更难：壁垒在软件与协同

03 统一指令集：中国算力芯片规模化的关键路径

最近内容

下一篇