DeepSeek-V3.1适配下一代国产芯片引爆市场,大模型这次和哪些国产芯一起“自主可控”?

新识研究所·2025年09月01日 19:34
DeepSeek发布DeepSeek-V3.1,使用的UE8M0 FP8 Scale针对下一代国产芯片设计

8月21日,DeepSeek正式发布DeepSeek-V3.1。此次升级主要包括以下三个方面:

1. 混合推理架构:一个模型同时支持思考模式与非思考模式;

2. 更高的思考效率:相比DeepSeek-R1-0528,DeepSeek-V3.1-Think能在更短时间内给出答案;

3. 更强的Agent能力:通过Post-Training优化,新模型在工具使用与智能体任务中的表现有较大提升。

而在官方推文中,特别强调了DeepSeek-V3.1使用了UE8M0 FP8 Scale的参数精度。并且在其置顶评论中补充道,“UE8M0 FP8是针对即将发布的下一代国产芯片设计。”

消息一出,直接引爆了资本市场。据东方财富统计,受DeepSeek新品发布带动,8月22日FP8概念股狂飙,寒武纪、和而泰、佳都科技纷纷涨停。

图源:东方财富

那么,在AI大模型领域,FP8是什么?而DeepSeek推出的“UE8M0 FP8”又有何作用?对于国产人工智能来说,它又有什么意义呢?

1

什么是 UE8M0 FP8?

要理解“UE8M0 FP8”,需要先聊聊“FP8”。

首先,“FP”是“Floating-Point”(浮点数)的缩写。浮点数的核心逻辑是用“二进制科学计数法”表示数字,本质是通过“拆分位数”来平衡“表示范围”和“精度”。

为了更直观的理解这一点,我们可以用比较熟悉的“十进制科学计数法”来类比。我们用十进制科学计数法表示数字时,会固定“尾数”的格式(比如保留1位整数和3个小数),再用“指数”调整数字的大小,比如:

这样,我们就可以把数字“拆分”成两个部分:

1.尾数:对应2.345,这个部分决定了数字的“精度”(比如我们日常说,精确到小数点后几位)

2.指数:对应10^2和10^-3中的“2”和“-3”,这个部分决定了数字的“范围”(能表示多大或者多小的数)

科学计数法的优势是:用有限的位数,既能表示 “很大的数”,也能表示 “很小的数”,同时通过尾数保留关键精度

在理解了浮点数(FP)后,我们再来看看FP8后面的“8”。这里的“8”一般指的是8 bit,即8个二进制位(总位数)。而与FP8类似的,还有FP64、FP32、FP16等,总位数越少,存储占用越小、计算速度越快(在第二部分我们会进一步探讨)。

结合上述论述:FP8的本质是用8 bit(8个二进制位)拆分成“符号+指数+尾数”,以此来平衡“范围”和“精度”。

其中,8 bit会被拆分为三个部分:

1. 符号位(S,1 bit,可选):表示数字是正还是负(0=正,1=负)

2. 指数位(E):决定数字的“范围”大小

3. 尾数位(M):决定数字的“精度”高低

因此,现在再来理解DeepSeek此次引入的“UE8M0 FP8”就十分直观,这里的“U”是un-signed,即无符号位,可能将数据范围限定为非负数;“E8”,就是指数位为8;“M0”,就是尾数位为0;“FP8”,即8位浮点数。

实质上,UE8M0 FP8用“精度”来换取极大的动态“范围”。与此同时,需要通过后续算法和硬件设计来弥补精度问题

而这,是与DeepSeek官方推文内容紧密联系的,下一代国产芯片很可能会有针对性的硬件设计。

图源:DeepSeek微信公众号

2

为什么需要FP8?

在支持FP8之前,国产芯片常用的是FP16、BF16和INT8(8位整数)等格式。这里简要解释一下,各家厂商转向FP8的思路。

不同格式的差异主要体现在 “总位数”“指数位宽度”“尾数位宽度” 的分配上,按应用场景可分为通用标准格式、AI专用低精度格式和特殊场景格式。

IEEE 754是全球通用的浮点数标准,覆盖了从消费电子到高性能计算的大部分场景,核心是通过固定的位数分配平衡“范围”与“精度”,主要包括单精度、双精度、半精度三类。

这类格式,具有较好的标准化兼容性:所有主流芯片均原生支持,软件生态(如C/C++、Python、CUDA)无需额外适配。

FP32(单精度浮点数,32 位)是早期AI开发的默认选择,其1位符号位、8位指数位和23位尾数位的设计,在精度(约 7 位有效数字)和计算效率之间取得平衡,支撑了AlexNet、ResNet等经典模型的训练。

早期GPU(如英伟达Kepler架构)未针对低精度优化,FP32是唯一可行选项。2012年AlexNet训练完全依赖FP32实现,需消耗约1.5TB显存。这也凸显了FP32的局限性:存储和计算成本高,随着模型规模扩大,显存占用和算力需求呈指数级增长。

总位数越少,存储占用越小、计算速度越快、精度越低。例如,FP64精度极高,但算力消耗是FP32的2~4 倍(英伟达A100的FP64算力仅为FP32的1/4)。

在这个背景下,研究者们开始尝试更低精度格式与混合精度训练。

FP16(半精度浮点数)将存储需求减半,计算速度提升2倍以上。但由于指数范围较小,容易出现梯度溢出,需配合动态损失缩放技术(如英伟达的AMP)。

BF16(Brain Floating Point 16-bit,脑浮点格式)同样为16位,但指数位扩展至8位,尾数位压缩至7位,动态范围与FP32相当。BF16在避免梯度溢出的同时,保持了较高精度,成为GPT-3等大模型训练的首选。英伟达2020年推出的A100首次原生支持BF16,算力提升3倍。

研究者们还尝试了混合精度训练——关键计算(如梯度更新)保留 FP32,矩阵乘法等操作采用FP16/BF16,通过动态精度分配平衡效率与稳定性。也尝试了用INT8(8位整数)进行推理优化——将权重和激活值压缩为8位整数,计算速度提升4-8倍,功耗降低50%以上。但均匀量化导致的精度损失需通过量化感知训练(QAT)补偿。

而在2022年,精度进一步下探,英伟达推出的Hopper架构(H100 GPU)首次原生支持FP8。其官方博客指出,FP8在不显著牺牲模型效果的前提下,能让吞吐量翻倍、显存占用减半,这是训练GPT级别大模型时极具吸引力的优势。用博客里的测试图表可以更直观地看出,同样用H100,FP8的速度远远高于FP16。

图源:英伟达官方博客

这也解释了,为何此次DeepSeek推文后,陆续有国产芯片厂商跟进表示原生支持FP8,引发了一波市场的追捧。

3

UE8M0 FP8:国产模型开发者与芯片制造商协同

正如第一节解释的,FP8的前缀,代表了不同的“拆分”方式。那DeepSeek此次引入UE8M0 FP8有什么特殊之处吗?

目前,“主流”的FP8通常遵循的是英伟达Hopper/Blackwell架构上的MXFP8规则。实践中,通常使用“E4M3”和“E5M2”。其中,E4M3通常应用于前向传播和计算激活值(精度更高、范围更小);E5M2通常应用于反向传播和计算梯度(范围更大)。

图源:英伟达技术博客-FP8二进制格式

当然,英伟达本身也是支持UE8M0的,DeepSeek此前开源的DeepGEMM就使用了UE8M0,并针对英伟达GPU做了优化。

图源:deepseek-ai/DeepGEMM Github

而此次,对于DeepSeek专门强调“UE8M0 FP8是针对即将发布的下一代国产芯片设计”,有分析认为,国产GPU在底层电路和指令集设计上,并不能完全兼容英伟达的FP8方案。英伟达有自己的“优化”,而国产GPU并不具备这种“优化”,如果直接照搬,结果往往是数值不稳定,梯度爆炸,训练根本收不住。

用UE8M0这种“范围优先”的格式,来适配国产芯片的硬件逻辑,确保国产芯片能跑通的折中方案。这是一种软硬件之间的“互相成就”。模型厂商愿意牺牲一些细节精度,换来国产芯片的稳定运行;而芯片厂商也通过这种合作,逐渐建立起自己的FP8生态。

在Medium的报道中,将UE8M0描述为一种“优先考虑范围”的变体,它优先考虑动态范围(指数),同时大幅压缩甚至消除尾数精度——这有助于在非英伟达FP8实现上稳定训练,这些实现的数值行为与英伟达的Blackwell/Hopper流水线不同。报道强调,这一转变更多关乎与国产芯片的兼容性。

英国知名科技媒体The Register也指出,DeepSeek早已熟悉FP8,此次将UE8M0定位为一个兼容性支点——减少内存减少和提升吞吐量的同时,关键收益在于非英伟达指令集上的数值稳定性。

在美国不断加码对华AI芯片及相关技术实施出口限制的当下,业内分析师指出,UE8M0 FP8是模型开发者与芯片制造商之间加强协同设计的证据,这是在英伟达高端GPU出口受限的情况下,实现人工智能自给自足战略的关键一环。软硬件协同设计减少了在非英伟达架构上的移植阻力,并加快了投产时间——这是在供应受限情况下扩展国家人工智能基础设施的重要条件。

4

写在最后

今年2月起,中国信息信研究院也在积极开展DeepSeek适配测试工作。截止至2025年7月,已有包括芯片、服务器、一体机等硬件设备、框架软件以及云服务商等在内的人工智能软硬件产业链关键环节30余家企业积极参与评测。7月份公布的首批适配测试通过名单有8家。

图源:中国信通院CAICT微信公众号

据中国信通院的测试结果:

1. 在适配支持性方面,通过软硬件协同优化,参测产品部署DeepSeek模型在语言理解、逻辑推理等典型任务中的精度已基本与国外系统持平(对比官方技术报告)。

2. 在部署环境方面,我国已有系统实现单机8卡推理DeepSeek 671B满血版模型(INT8/FP8精度),与英伟达所需硬件规模持平,大部分国产设备需两机16卡或四机32卡完成同参数量模型部署。

3. 在产品形态方面,硬件芯片、框架平台、云服务等产业链关键主体均积极推动适配工作。国内厂商能够在短时间内完成在软硬件系统上运行无报错的基础适配,目前适配重点主要集中在产品功能及面向业务场景性能的调优阶段。

然而,就在今年6月24日,英伟达在其官方博客上正式推出了NVFP4。在8月25日,又发文表示,NVFP4在拥有4位训练速度和效率的同时,可以实现16位训练精度。作为行业龙头的英伟达,又向前迈了一大步。

图源:英伟达官方博客

国产模型厂商与芯片厂商在追赶的路上,任重道远。但至少,已经在路上。

本文来自微信公众号“新识研究所”,36氪经授权发布。

+1
7

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

预训练权重、数据生成代码都开源了。

3小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业