最强AI芯片要推中国特供版?黄仁勋最新发声,3500亿的市场太诱人
短短两天,寒武纪两度超越贵州茅台,成为 A 股第一高价「股王」。而推动用户预期不断攀升的,离不开 AI 市场的持续火热。
与之形成此消彼长走势的是,英伟达在今日公布 2026 财年第二季度财务业绩后,反而股价大跌,不过交出的成绩单还是亮眼的:
营收达 467 亿美元,较第一季度增长 6%,同比增长 56%
数据中心收入为 411 亿美元,较第一季度增长 5%,同比增长 56%
Blackwell 数据中心收入环比增长 17%
这家曾经的游戏显卡厂商,如今市值突破 4 万亿美元,成为 AI 时代当之无愧的「卖铲人」,也难怪不少人将本次财报比作解答 AI 泡沫疑虑的答卷。
被「宠坏」的市场预期,和永远在路上的下一代产品
英伟达正被自己过去的成功所绑架,这是一种甜蜜的诅咒。
过去多个财季,英伟达每次都超越了营收预期,这种「业绩超预期并上调指引」的固定模式,已经让市场习惯于期待一次又一次的超预期。
但问题是,当英伟达总是给出 110 分的答案,那么 100 分就显得像是不及格。
在财报前夕,市场关注的焦点集中在新一代 Blackwell GPU 和 NVL72 机架的大规模部署上。
从技术角度看,这种期待并非空穴来风。
英伟达花费数年时间打造了 Blackwell NVLink 72 系统 ——一种机架级计算平台,使其能够作为一个单一的巨型 GPU 运行。
从 NVLink 8(节点级计算,每个节点是一台计算机)过渡到 NVLink 72(机架级计算,每个机架是一台计算机),不仅带来了数量级的性能提升,也就意味着更高的能效和更低的 Token 生成成本。
英伟达创始人兼 CEO 黄仁勋表示:
「Blackwell 是全球期待已久的人工智能平台,带来了卓越的一代飞跃 —— Blackwell Ultra 正在全速量产,市场需求极为强劲。」
新一代核心 Blackwell 架构的 B100/B200 系列,性能相比 H100 提升了 2.5 倍。GB200 NBL 系统正在被广泛采用,已在国内外云服务商和互联网公司大规模部署。
包括 OpenAI、Meta 等厂商也正在数据中心规模上使用 GB200 NBL72,不仅用于训练下一代模型,也用于生产环境中的推理服务。
且由于 GB200 与 GB300 在架构、软件和物理形态上的兼容性,使得主要云服务商向新一代基于 GB300 的机架架构过渡过程十分顺畅。
据英伟达 CFO Colette Kress 透露,7 月下旬和 8 月上旬的工厂产线已顺利完成转换,以支持 GB300 的爬坡生产。
「目前已全面进入量产阶段,产能恢复到满负荷,每周大约生产 1000 个机架。随着更多产能的上线,预计在第三季度内产量还将进一步加快。我们预计在下半年实现大规模市场供应。」
按照惯例,Blackwell 之后还有代号「Rubin」的下一代架构,预计 2026 年推出,随后是 2027 年的「Rubin Ultra」。这种快速迭代的节奏,既保持了技术领先,又让竞争对手永远在追赶路上。
英伟达 CFO Colette Kress 对 AI 市场的发展有着更为庞大的野心,她 在财报电话会议上表示
「我们正处在一场将改变所有行业的工业革命开端。预计到本十年末,AI 基础设施的投入将达到 3 到 4 万亿美元。
这一增长主要来自云厂商到企业的资本开支,仅今年就预计在数据中心基础设施和算力上的投资将达到 6000 亿美元,两年间几乎翻倍。」
这也是过去很长一段时间,英伟达反复强调的事情——英伟达已经不再是单纯的 GPU 公司,而是一家不折不扣的 AI 基础设施公司。
黄仁勋今天凌晨的原话是这么说的:
以 1GW 规模的 AI 工厂为例,造价可能在 500 亿至 600 亿美元之间,其中大约 35% 左右由 NVIDIA 提供(上下浮动)。这里客户获得的不仅仅是 GPU。
虽然我们以 GPU 的发明而闻名,但过去十年,我们已经转型成为一家 AI 基础设施公司。要打造一台 Rubin AI 超级计算机,就需要六种不同类型的芯片。而要扩展到 1GW 规模的数据中心,就需要数十万 GPU 计算节点和大量机架。因此,我们的定位是 AI 基础设施公司,希望能持续推动这个行业的发展,让 AI 更有用。
并且,在黄仁勋看来,英伟达的亮眼之处在于 GPU 的能效最佳。在电力受限的数据中心,性能功耗比直接决定了收入,而性能功耗比远超任何其他计算平台,所以买得越多,成长越快。
尤其是当推理型与智能体 AI 的发展与普及,所带来的算力需求呈指数级增长,而这种对 AI 计算能力「永不满足」的需求,成了英伟达营收增长的主要引擎。
不仅如此,英伟达提供的 CUDA 并行计算平台、推理加速库、各行业 AI 模型框架等,已成为 AI 开发者必备工具。
这种生态壁垒意味着客户一旦采用英伟达方案,往往难以替换。换句话说,英伟达真正提供了一个面向 AI 工厂的完整全栈解决方案。
黄仁勋: 将 Blackwell 带到中国市场
这季度财报最扎眼的数据,在于明确了中国市场的影响。英伟达 2026 财年第二季度财报显示,来自中国市场收入 27.69 亿美元,比 2025 财年第二季度的 36.67 亿美元缩水近 9 亿美元。
相应地,黄仁勋表示,中国市场在数据中心总收入中的占比已降至「低个位数百分比」 。
当然,英伟达的当务之急,或许就是推出一系列性能降低、符合出口管制的「合规芯片」。这一策略始于基于 Hopper 架构的 H20,并延续至基于新 Blackwell 架构的产品线。
据路透社此前报道,英伟达正在准备专为中国定制的 Blackwell 架构削减版 GPU(代号 B30A)。
该芯片性能介于受限 H20 和国际版高端 GPU 之间,如获批准将瞄准中国高端算力需求。此外还有一款规格较低的推理芯片 RTX6000D,专门针对中国市场的特定需求。
作为全球第二大计算市场,黄仁勋表示中国市场今年对英伟达来说大约有 500 亿美元(折合人民币 3577 亿元)的机会,而且每年会以 50% 左右的速度增长。在他看来,来自中国的开源模型质量非常优秀。
例如 DeepSeek 在全球声名鹊起,Qwen 很出色,Kimi 也很出色。还有许多新的模型不断涌现,它们是多模态的,是优秀的大语言模型。这些开源模型实际上推动了全球企业对 AI 的采用。
另外黄仁勋还不忘表示,将 Blackwell 带入中国市场是完全有可能的。包括黄仁勋上个月也亲自来华斡旋,表态将不遗余力优化产品以符合监管要求,并坚定服务中国市场。
但在另一侧,国内力量正在加速崛起。
最近,DeepSeek 发布了最新版本 V3.1,被称为「迈向 Agent 时代的第一步」。
但更重要的信号还在于,DeepSeek V3.1 引入了一种称为「UE8M0 FP8 Scale」的新参数精度格式,并明确表示这是「针对即将发布的下一代国产芯片设计」的精度格式。
DeepSeek 采用的 UE8M0 FP8 格式尤其针对国产芯片的硬件逻辑特点设计,在 8 bit 的位宽限制下(即当前低精度场景)丢弃尾数而极大扩展指数动态范围。
这一设计让国产芯片在大模型训练中更稳定,高效利用每一点算力。此外,对于许多在 HBM 高带宽内存上不及英伟达的国产芯片而言,FP8 格式有效缓解了带宽瓶颈,让硬件性能得到充分发挥。
而巧合的是,英伟达最近提出的 NVFP4(4 位数值格式)则在 大模型预训练领域实现了突破。
相比于以往训练常用 16 位(FP16/BF16)或 8 位 (FP8)精度,而 NVFP4 将精度进一步压缩到 4 位,在保持模型精度的同时大幅提升训练速度和算力利用率。
实验结果显示,在 120 亿参数的 Mamba-Transformer 混合模型上,NVFP4 能完整训练到 10 万亿 token,收敛效果几乎与 FP8 一致,下游任务测试精度也基本相同。
只是,当国产头部芯片厂商组建「朋友圈」,共同打造适配本土芯片的软件栈、工具链,也将有望提升下游客户对国产方案的信心。
英伟达依旧是在淘金热中稳赚不赔的「卖铲人」。但现在,矿场边上涌现出越来越多本土的铁匠铺,正用本地的矿石和工艺,打造出更适合本地矿工的工具。
本文来自微信公众号“APPSO”,作者:发现明日产品的,36氪经授权发布。