英伟达改卖Token?黄仁勋GTC后发声:token就是AI新通货,值钱的不是算力,是“每度电的智商”

AI前线·2026年03月18日 21:12
英伟达正成为一家“加速一切”的公司

“记住,英伟达是一家加速计算公司,而不是一家 GPU 公司! ”

前几天举起“token 之王”奖牌的黄仁勋,在最近的一次采访中这样强调。

在他看来,目前的 AI 竞赛,已经从拼算力变成拼产出,问题不再只是“算得有多快”,而是:能否迅速、便宜地做出高质量结果

这样看来,虽然 GPU 本质也算加速计算,但显然它只“计算”这一环是远远不够的,现在 AI 的新挑战,早已外溢到数据搬运、内存、网络和推理流程。整条链路都必须一起提速。

这就像木桶效应,只要链路里有一环慢,最终的产出就会被卡住。

该示意图由 AI 生成

那最终的“产出”如何衡量?

一个简单直接的方式就是看 token,这个 AI 时代的“产出单位”。

黄仁勋直言道,你可以把 token 看作 AI 时代的核心货币,token 越聪明,你就能卖得越贵。

当然,这实际上并不是指 token 本身“聪明”,毕竟其本质只是文本单位,真正“聪明”的是生成这个 token 的模型。 如果一个模型用更少的 token,就能一次性给出更准确、更有用的结果,那这些 token 的“价值”就更高。

在 GTC 上新亮相的 Groq LPU,正是英伟达针对“token 产出”给出的一个解法:他们收购了这家专注超低延迟推理芯片的公司,并共同推出了新的 Groq LPU。

它并不是用来取代 GPU,而是专门解决一个问题:如何在极低延迟下,更快地产生 token。

在 GTC 演讲后,老黄接受了 Stratechery 创始人 Ben Thompson 的专访,讲清了三件更底层、更关键的事情:AI 的瓶颈在电力而非芯片,下一代推理将走向 GPU+LPU 的混合架构,而真正的竞争不在模型本身,而在技术栈的主导权。

他的核心观点整理总结如下:

  • 整个软件世界都要加速:AI 开始直接使用人类的软件工具,而这些系统必须整体加速,才能跟上 agent 的速度。低延迟决定 AI 赚钱能力。
  • 从芯片到系统再到 AI 工厂,英伟达真正的目标不是卖算力,而是构建一整套技术栈:先自己做一遍,再开放出去,让别人都在它这套体系里干活。
  • Transformer 不是终极架构:它在长记忆、物理规律和连续任务上已经不够用了,下一代模型需要混合架构。
  • 从语言到现实世界,AI 不再只是处理 token,而是要同时理解记忆、结构和连续动作。
  • 当 agent 开始直接创收时,算力不再只有一种最优解,关键是谁能把每一分电力转化成更多有价值的 token。
  • 英伟达看起来在做很多事,本质上是在不断复制同一套方法:用全栈协同设计,把“计算平台”变成绕不开的基础设施。
  • AI 推理的核心不再只是“更强”,而是在“更快(吞吐)”和“更聪明(价值)”之间做取舍。而英伟达正在用“拆分计算 + 混合架构”把这条曲线尽可能拉满
  • AI 的真正瓶颈不是某一个环节,而是“全链条同时吃紧”;而在这种稀缺时代,谁掌控技术栈、提前布局供应链,谁就更有优势。
  • 但更深层的竞争不在电力或芯片,而是谁的“一套玩法”被全行业跟着用。

以下是本次访谈的全部重点内容,AI 前线在不改变原意的前提下进行了整理编辑。

AI时代的CUDA:从算力平台到“全栈世界引擎”

主持人:我记得几年前有人问过我:为什么英伟达每次在 GTC 能发这么多东西?我的理解是,本质上还是同一套 CUDA 和软件体系,只是不断针对不同行业做适配和扩展。而你今天讲的,其实也是这个逻辑。只是相比过去几次几乎全是 AI 的主题,这次更像是一次“回到起点”的梳理。所以我想问的是:为什么你现在要重新讲 CUDA 这个故事?它的意义发生了什么变化?

黄仁勋:因为我们正在进入大量“全新的行业”,而且 AI 将开始使用工具。

当 AI 使用工具时,它用的其实是我们原本为人类打造的工具:它会用 Excel、用 Photoshop、用逻辑综合工具、用 Synopsys、Cadence 的工具。

这些工具都必须被大幅加速,因为 AI 本身运行得非常快。数据库也是一样,必须被加速。

所以在这个时代,我们需要把整个世界的软件尽可能加速,然后把它们交给 AI,让 AI 以 agent 的方式去使用这些工具。

所以可以理解为,你们已经在一些行业做过这件事,现在要扩展到更多行业?

黄仁勋:对,多很多。比如数据处理。

主持人:这点其实有点出乎我意料。我没想到你会以和 IBM 的合作作为开场。

黄仁勋:是的,这其实能说明问题。毕竟他们当年开启了一切。

主持人:你上周(亲自发了篇长文)写到,AI 就像一个五层蛋糕:电力、芯片、基础设施、模型和应用。那么会不会有这样的担忧:外界之前越来越把你们局限在“芯片”这一层?所以现在有必要既提醒别人、也提醒你们自己,你们其实是一家纵向整合的公司而不只是做芯片的?

黄仁勋:我思考问题的方式不是从“我们不是什么”开始,而是从“我们需要成为什么”开始。

在当年,我们就意识到,加速计算是一个完整的全栈问题。你必须理解应用,才能去加速它。

我们意识到,我们必须理解应用本身,必须拥有开发者生态,还需要在算法开发方面具备非常强的能力,因为那些为 CPU 开发的旧算法,在 GPU 上表现并不好——我们必须重写这些算法、重构这些算法,让它们能够被 GPU 加速。

但一旦做到这一点,你就可以获得 50 倍、100 倍,甚至 10 倍的加速效果,因此这是完全值得的。

我认为,从一开始,我们就清楚地知道:“我们想做什么?以及实现它需要什么?”

现在,我们在建设 AI 工厂,我们在全球范围内建设 AI 基础设施。这远远不只是造芯片,当然,芯片非常重要,它是基础。

主持人:对,这就像是一个完整的全栈,包括网络、存储,现在甚至还包括 CPU。

黄仁勋:现在你必须把所有这些整合到一起,构建成这种巨大的系统,比如一个千兆瓦级的工厂,大概需要 500 亿到 600 亿美元。在这 500 亿到 600 亿美元里,大约有 150 亿到 170 亿属于基础设施:土地、电力以及厂房外壳。剩下的则是计算、网络、存储等部分。

面对这种级别的投资,如果你不能帮助客户建立起足够的信心,让他们相信自己能够成功建成这样的系统,那你根本没有机会,没有人会去冒险投入 500 亿美元。

所以我认为,这里面的核心思想是:我们不仅要帮助客户建造芯片,还要帮助他们构建系统;而在构建系统之后,不仅仅是系统,还要构建 AI 工厂。

AI 工厂内部包含大量软件。不仅仅是我们的软件,还有大量用于散热管理、电力系统、冗余设计等等的软件。

而现在很多系统其实是“过度设计”的,因为没有人彼此沟通。当很多团队彼此不沟通地去集成系统时,你就不得不在自己的那一部分进行过度设计。

但如果我们作为一个团队协同工作,我们就能够确保把系统推到极限——在同样的电力下获得更高吞吐,或者在相同吞吐下节省成本。

主持人:回到软件这一点:你提到 Excel 并不是为 AI 设计的,但现在像 Claude 已经可以直接使用它了。那你们投入这些库,是为了让模型更好地完成这类任务?还是说,也是想减少对微软或其他厂商的依赖,提供一种替代方案?

黄仁勋:SQL(结构化查询语言,帮你从数据库里查数据、改数据、分析数据)就是一个很好的例子。

SQL 是给人用的,我们也像其他人一样在使用 SQL 系统,它是企业的“真实数据来源”。但现在,不仅仅是人会访问 SQL 数据库,还会有大量的 agent 来访问它。

主持人:而且它们会快得多。

黄仁勋:它们必须快得多。所以第一件事就是,我们必须加速 SQL。这就是最直接的逻辑。

Transformer 不够用了,AI 进入混合架构时代

主持人:说到模型,你提到语言模型只是其中一类。你在上周文章里也提到,真正最具变革性的进展,其实发生在蛋白质、化学、物理仿真、机器人和自动系统这些领域。你之前还说过“万物皆 token”。那你觉得,Transformer 会成为通用基础架构吗?还是说,这些方向还需要新的根本性突破?

黄仁勋:我们需要各种各样的新模型。

比如,Transformer 的注意力机制是二次复杂度的,那如何支持长记忆?又怎么实现超长对话,而不让 KV cache 随时间不断膨胀、变得低效甚至“失效”?

主持人:甚至需要整机架的固态硬盘来存 KV cache。

黄仁勋:是的。而且,即便你记录了我们所有的对话,当你回头去引用时,哪些部分是最重要的?

我们需要一种新的架构,能够更好地处理注意力,并且能够非常快地处理这些问题。

一方面,我们提出了一种 Transformer + SSM 的混合架构,让 Nemotron 3 能同时兼顾智能性和效率,这是一个方向。

另一个方向是具备“几何感知”的模型。现实世界中很多结构是对称的,模型不仅要生成“统计上合理”的结果,还要符合物理规律,比如对称性,像 cuEquivariance 就是在解决这个问题。

此外,语言是离散的(token),而动作是连续的。现实任务往往同时包含这两类信息,而 Transformer 并不擅长同时处理离散与连续问题。

主持人:明白。

推理与编程 

主持人:再引用你文章中的一句话:“在过去一年里,AI 跨越了一个重要门槛。模型已经足够好,可以规模化应用;推理能力提升,幻觉减少,grounding 大幅改善。第一次,基于 AI 的应用开始真正产生经济价值。”这个变化具体是什么?我在想,今年显然是 agent 的一年,但去年是推理能力的突破吗?

黄仁勋:生成式 AI 本身是一个重大突破,但它会产生很多幻觉,所以我们必须让它“ground”(落地、有理有据)。

实现 grounding,要靠推理、反思、检索和搜索等能力,把 AI 和现实世界真正连接起来。没有推理能力,这一切都无从谈起;正是推理,让生成式 AI 不再只是“会生成”,而是能变得更“落地”、更有依据。

一旦完成了 grounding,AI 就能进一步去理解问题、拆解问题,并把它分解成可执行的步骤。再往前走,下一阶段就是工具使用。

这也解释了为什么搜索服务一直很难收费:获取信息当然重要,但光有信息,往往还不足以让人付费。比如“哪里有家好餐厅”,这类答案有用,但价值还没高到非付费不可——当然,也有人愿意为此买单,我自己也会。

但现在,AI 已经跨过了这个门槛:它不只是给你信息,而是开始真正替你做事。编程就是最典型的例子。

如果仔细看,编程其实并不完全等同于自然语言,它更像一种新的模态。你得教模型理解空格、缩进、符号这些东西。而且代码也不能只靠逐 token 生成,你必须让模型对整段代码进行反思和校验:结构是否合理、实现是否优化、能不能编译通过。

它追求的不是“看起来大概率正确”,而是“最终能不能运行”。

主持人:对,要么能跑,要么不能。

黄仁勋:必须能跑,这一点很关键。所以,掌握这种“代码模态”非常重要。

一旦做到这一点,变化就发生了:原本我们每年要花几十万美元请工程师写代码,而现在他们有了 coding assistant,他们可以把精力从逐行写代码,转向思考架构;用更抽象的“规格说明”来描述软件,而不是直接写实现,这让效率大幅提升。

时间也从写代码,转向真正重要的事——解决问题和创新。

在我们公司,软件工程师现在 100% 都在使用 coding agent。很多人已经很久没手写过一行代码,但依然非常高效,而且同样非常忙。

主持人:但会不会因为编程具备可验证性,让人们容易对 agent 的能力过度外推?AI 可以自我验证、反复迭代,几乎不需要人类介入,那其他领域没法验证怎么办?

黄仁勋:不,AI 的核心不是“验证”,而是“反思 + 迭代”。

比如设计房子或厨房,这些原本属于建筑师或设计师的工作,现在普通人也可以借助 agent 来完成。你只需给出参考风格,它就能不断对比效果与预期,不满意就反复优化。

即便没有明确的“对错标准”,它依然可以持续迭代。事实上,越是偏概率、审美和主观判断的任务,AI 往往表现得更好。

CPU的角色 

主持人:随着 agent 的出现,你一直强调加速计算,也经常“吐槽” CPU。但现在 CPU 又变得重要了,你们也在卖 CPU,这是什么感觉?

黄仁勋:毫无疑问,摩尔定律已经结束了。

加速计算并不是简单的并行计算。30 年前有很多并行计算公司,最终只有英伟达存活下来,因为我们意识到,目标不是取代 CPU,而是加速应用。

我们从来不是反对 CPU,也不可能违背 Amdahl 定律——系统里总有一部分是无法被加速的。

因此,在我们的系统中,我们会选择最好的、甚至最昂贵的 CPU。因为一旦 CPU 性能不够强,就会拖慢那些价值数百万美元的 GPU。

主持人:以前在分支预测(branch prediction)上,你担心的是浪费 CPU 时间;现在你担心的是浪费 GPU 时间。

黄仁勋:没错,绝不能让 GPU 被浪费,更不能让它空转。因此我们始终选择最好的 CPU,甚至自己做了 Grace,就是为了获得更强的单线程性能和更快的数据传输。

所以,加速计算从来不是“反对 CPU”。我的基本判断依然是:依赖通用计算、单纯堆晶体管的那一套已经行不通了。但从本质上说,我们从来不是反 CPU 的。

不过,现在这些 agent 已经能进行工具调用(tool use)了,而它们想用的工具,其实都是为人类设计的,基本可以分为两类:

第一类,是运行在数据中心里的工具,其中大部分是 SQL,本质上是各种数据库相关系统。第二类,是个人电脑上的工具。

接下来,我们将看到 AI 能够学会“非结构化”的工具使用。

过去那种工具使用是结构化的,比如 CLI(命令行)、API,它们都是结构化接口:命令是明确的,参数是明确的,交互方式也是明确的。

但大量应用从一开始就没有提供 CLI 或 API,这就需要 AI 具备多模态能力,以“非结构化”的方式去操作,比如浏览网页、识别按钮、操作下拉菜单,像人一样一步步完成任务。

而这类工具使用,很大程度上依赖 PC。我们在两端都有布局:一方面是强大的数据处理系统,另一方面,正如你所说,英伟达的 PC 也是全球性能最强的。

主持人:那面向 agent 的 CPU,和传统 CPU 有什么不同?比如你们是否会部署一整机架的 Vera CPU?

黄仁勋:过去十年里的 CPU,基本都是为超大规模云计算(hyperscale cloud)设计的。而云厂商的变现方式,是按 CPU 核心数收费。

所以你会倾向于设计那种核心数尽可能多、可以出租的 CPU,至于单核性能,反而是次要的。

主持人:因为主要是在处理网页延迟(web latency)。

黄仁勋:完全正确。所以过去的优化目标,其实是尽可能提升 CPU 实例数量,这也是为什么会出现动辄两百、三百,甚至四百核心的 CPU。

但这类 CPU 的单核性能并不强。而在 agent 的工具调用场景下,一旦 GPU 需要等待 CPU 完成任务,真正关键的反而是尽可能强的单线程性能。

主持人:那只是速度问题吗?还是说 CPU 本身也需要更高并行度,避免 cache miss 等问题?是不是整个执行流水线都需要变化?

黄仁勋:最重要的是单线程性能,同时 I/O 能力必须非常强。

因为现在是在数据中心环境下,会有大量单线程实例在运行,这会对 I/O 系统和内存控制器产生很大压力。Vera 在“每核带宽”和“整体带宽”上,都是历史上任何 CPU 的三倍。它的设计目标就是提供极高的 I/O 带宽和内存带宽,确保 CPU 永远不会被“卡住”。

因为一旦 CPU 被限制住,就会拖慢一大堆 GPU。

主持人:那这个 Vera 机架虽然与 GPU 机架紧密连接,但在架构上仍然是解耦的吗?也就是说,GPU 可以服务多个 Vera 核心,而不是一一绑定?

黄仁勋:是的。

主持人:明白了。那你们和 Intel 的合作,以及 NVLink,在这里是怎么发挥作用的?

黄仁勋:有些用户接受 Arm 架构,但也有很多用户——尤其是企业计算,依然需要 x86,因为他们有大量现有软件栈,不愿意迁移。

所以 x86 依然非常重要。

主持人: x86 架构的生命力,会让你感到意外吗?

黄仁勋: 不会。英伟达的 PC 依然是 x86,我们所有的工作站也是 x86。

引入 Groq:不是替代 GPU,而是补齐它 

主持人:正如你今天在主题演讲中提到的,你是“token 之王”。你在文章里也说过,从第一性原理来看,AI 的上限其实取决于能源。如果是这样的话,如果系统能产生多少 token,本质上受限于数据中心里的能源,那为什么还有公司要去和“token 之王”竞争?

黄仁勋:这会很难。因为光是造一颗芯片,就想取得非常显著的效果,这是不现实的。即便是像 Groq 这样的公司,如果不和我们的 Vera Rubin 搭配,也很难取得好的结果。

黄仁勋:如果你从整个推理(inference)的“能力边界”来看,一方面你希望吞吐量尽可能高,另一方面你又希望每个 token 尽可能“聪明”——token 越聪明,你就可以收更高的价格。

一边是最大化吞吐,一边是最大化智能,希望每个 token 更“聪明”。这是一个非常难以平衡的问题。

主持人:我记得你去年有一页 PPT 讲到帕累托曲线(两件事不能同时做到最优时,它们之间的权衡边界)。

当时在介绍 Dynamo(英伟达提出的一套帮你在“速度 vs 智能”之间自动调度的 AI 推理系统)时,你说英伟达的 GPU 可以覆盖整条曲线,用户不用权衡,直接用你们的方案就行。但现在听起来,你的意思是:其实并不能完全覆盖?

黄仁勋:我们仍然比任何系统都更好地覆盖了这条曲线。

但我们可以进一步扩展帕累托边界,尤其是在极高 token 速率和极低延迟的区域。不过这样做会降低整体吞吐。

不过,现在情况发生了变化:因为 coding agent 的出现,这些 AI agent 正在创造非常好的经济价值,而且这些 agent 是绑定在人类身上的——这些人本身就非常有价值。

主持人:对,他们甚至比 GPU 还贵。

黄仁勋:没错。所以我希望给我的软件工程师提供最高 token 速率的服务。如果 Anthropic 推出一个 Claude Code 的高阶版本,能把编程效率提升 10 倍,我一定会付费,绝对会。

主持人:所以你是在为自己做这个产品?

黄仁勋:我觉得很多伟大的产品,都是因为你亲身感受到一个痛点,并意识到市场会往这个方向走。

我们也希望我们的 coding agent 能快 10 倍。但在一个高吞吐系统中做到这一点非常困难,所以我们决定引入 Groq 的低延迟系统,然后进行协同运行、协同处理。

主持人:所以这是把 decode 和 prefill 分开处理吗?

黄仁勋:我们甚至会把 decode 里的高计算量部分(高 FLOPS 部分),包括 attention,也拆分出来。

主持人:也就是说,你们甚至把拆分做到了 decode 这一层。

黄仁勋:是的,而这需要非常紧密的耦合,以及非常深度的软件集成。

主持人:你们是怎么做到的?你说今年就会出货,但这个合作也就是几个月前才宣布的。

黄仁勋:其实我们很早就在做“解耦推理”(disaggregated inferencing)这件事了。Dynamo 是我们把这个想法公开的一次表达。

在我宣布 Dynamo 的那一天,其实我已经在思考:如何在异构基础设施中,更细粒度地拆分推理任务?而 Groq 的架构,是我们这种思路的一个极端版本,他们自己其实走得很辛苦。

主持人:Dynamo 是一年前发布的,而 Groq 的事情大概是去年圣诞节前后才发生的。有没有什么关键事件让你决定要这么做?

黄仁勋:其实没有。我们两三年前就已经在思考“推理解耦”这个方向了。大概在宣布收购前六个月,我们就开始和 Groq 接触,讨论如何把 Grace Blackwell 和 Groq 结合起来。

我很喜欢他们的团队。不过我们并不想要他们的云业务——他们有自己的业务,也做得很好,但那不是我们想要的部分。所以我们决定收购团队、授权技术,然后在这个基础架构上继续演进。

主持人:所以这是一次“巧合”?或者说也不是巧合?

黄仁勋:可以说是“战略性的偶然”。

主持人:OpenAI 现在也在和 Cerebras 合作(今年 1 月宣布的)。

黄仁勋:那完全是他们独立做的,说实话我之前都不知道。不过这不会改变我们的决策。我认为 Groq 的架构本来就是我会选择的,它对我们来说更合理。

主持人:这是第一次有 ASIC 路线让你觉得“这确实是本质上的不同”吗?

黄仁勋:不是,Mellanox 才是。

我们把计算栈的一部分放进了 Mellanox 网络里。如果没有 Mellanox 的“网络内计算”(in-network computing),NVLink 不可能做到现在的规模。

把软件栈拆分,并放到最合适的位置执行,这是 英伟达 的专长。我们不执着于“计算必须在哪里发生”,我们只关心一件事:加速应用。

记住,英伟达 是一家“加速计算公司”,而不是一家 GPU 公司。

主持人:你提到能源是关键约束。那么在客户做采购决策时,是否可以简单理解为:要么选传统 GPU,要么选 Groq 这样的 LPU 机架,本质就是看哪种方案能带来更高收益?

黄仁勋:这取决于业务阶段。如果还没有成熟的企业级用例,大多数用户仍是免费用户(比如三分之二免费、三分之一付费),那引入 Groq 并不划算,因为这样成本更高,还会占用宝贵的电力资源。

主持人:而且还增加系统复杂度,占用服务器资源,也有机会成本。

黄仁勋:对,这些资源本可以用来服务更多免费用户。

但如果是像 Anthropic 或 OpenAI 这样的业务,比如 Codex 已经能带来可观收益,只是希望生成更多 token,那么引入这类加速器,就能显著提升收入。

从算力稀缺到生态竞争 

主持人:我们现在的瓶颈到底是电力、晶圆厂产能,还是别的什么?大家都在说供给不够,真正的限制因素是什么?

黄仁勋:我觉得几乎所有环节都接近瓶颈了。你很难把任何一个环节翻一倍。

主持人:因为你会撞上其他约束。

黄仁勋: 对。

主持人:不过感觉美国在电力方面其实做得还不错,可能比几年前预期的要好,但现在看起来,芯片反而更像是主要瓶颈。

黄仁勋:我们的供应链规划得还是比较充分的。我们早就为一个非常大的增长年份做了准备,而且明年也会是一个非常大的年份。我们的供应链里有几百个合作伙伴,而且都是长期合作关系,所以在这方面我还是挺有信心的。

我不觉得我们现在的电力有“翻倍的富余”,也不觉得芯片供应有“翻倍的富余”,实际上没有任何一项资源是有两倍余量的。但从我目前看到的情况来看,从供应链角度,我们还是能够支撑未来需求的。

如果说我最希望改善的一点,那就是土地、电力和厂房这些基础设施能更快建设起来。

主持人:那是否可以这样理解:在资源稀缺的情况下,英伟达反而是最大受益者?比如电力紧张时,你们的芯片更节能,利用效率更高;产能受限时,你们又提前锁定了供应链,因此更有可能成为赢家?

黄仁勋:我们是这个领域里最大的公司之一,而且我们确实在规划上做得很好。我们在供应链的上游和下游都做了布局,所以我认为我们为行业增长做了充分准备。

主持人:那从另一个角度看,如果无法进入中国市场,会不会成为一个风险?比如中国如果拥有充足的电力和芯片,即便是 7nm 的芯片,他们也可能逐步建立起一个生态,长期来看甚至能和 CUDA 竞争,这是不是你的担忧?

黄仁勋:毫无疑问,我们需要让美国的技术栈在中国存在。我从一开始就一直强调这一点,因为开源软件一定会不断涌现。

而且,没有哪个国家在开源软件上的贡献比中国更大。同时我们也清楚,全球大约一半的 AI 研究人员来自中国,而且他们非常有创造力。像 DeepSeek、Kimi、Qwen 都不是普通技术,而是非常出色的成果——它们在模型架构以及整个 AI 技术栈上,都做出了独特贡献。因此,这些公司必须被认真对待。

如果全球的技术体系是构建在美国技术栈之上的,那么当这些创新从中国扩散出来(而这几乎是必然的,因为它们是开源的),无论流向美国本土、东南亚还是欧洲,美国技术栈都能够承接并吸收这些成果。

主持人:上次我们聊的时候,特朗普政府刚刚禁止了 H20。你当时有没有觉得惊讶,后来你居然能说服政府改变看法?那现在又被中国政府限制,你会更意外吗?

黄仁勋:中国方面的限制我并不意外。因为中国当然希望发展自己的技术栈。

在我们退出那个市场的这段时间里,你也知道中国行业发展有多快。华为创下了历史最佳业绩,这是一家历史非常悠久的公司,却实现了创纪录增长。同时还有五六家面向 AI 领域的芯片公司完成了 IPO。

我认为,我们需要在“美国技术领导力”和“地缘政治领导力”上更加有战略性地思考。

AI 并不仅仅是模型,这是一个很深的误解。正如我们一开始说的,AI 是一个“五层蛋糕”:基础设施、芯片、平台、模型、应用,我们必须在每一层都赢。

而我们现在的一些做法,其实正在削弱我们在这五个层面的领导能力。

我认为,一个非常糟糕的策略是:把整个技术栈从上到下打包、强行捆绑,让所有公司都在一个整体体系里竞争。这样的话,最终的上限会被最弱的一层限制。我们应该让每一层都自由去竞争、去赢市场。

主持人:那是不是其他层面(比如软件公司)因为更早进入华盛顿,所以在政策上更有经验,而你们来得稍微晚一点?

黄仁勋:可能是吧。

主持人:那你最大的收获是什么?你从华盛顿学到了什么?

黄仁勋:让我最意外的是,“末日论者”(doomers)在华盛顿的影响有多深,以及他们的言论对政策制定者心理的影响有多大。

主持人: 大家变得更害怕了,而不是更乐观。

黄仁勋:没错,我认为这有两个根本问题。

在这次工业革命中,如果我们不让技术在美国内部扩散、不去充分利用它,我们就会重蹈上一轮工业革命欧洲的覆辙——他们被我们甩在后面。

而事实上,上一轮工业革命中的很多技术,都是欧洲发明的,只是我们更好地利用了它。我希望我们能够有足够的历史智慧和技术理解,不要被科幻式的“末日叙事”困住。这些夸张的故事正在吓坏那些本来就不太理解技术的政策制定者,这对现实毫无帮助。

我最担心的一点是:在美国民众中,AI 的支持度正在下降。这是一个非常严重的问题。这和上一轮工业革命中电力、电机、内燃机的情况很类似——当时这些技术的“受欢迎程度”也在下降。

互联网也是一样。你可以想象吗?其他国家更快地接受了互联网,让它更快地渗透到产业和社会中。

所以我们必须非常警惕,不要把 AI 塑造成某种神秘、可怕的“科幻产物”,这样只会让人恐惧。

我不喜欢那些到处制造恐慌的“末日论者”。真正的“提醒风险”和“制造恐惧”是两回事。

主持人:我觉得一个常见问题是,有些人喜欢用很复杂的方式去讨论这些问题,但忽略了大众传播其实是用简单、直接的方式完成的。你没办法说“你只需要害怕这一点,不要害怕那一点”,你传递出去的其实就是整体的恐惧,而不是乐观。

黄仁勋:对,而且这样会让他们显得更聪明。、 有时候这可能也和融资有关,也可能和获取监管优势有关。他们这么做有很多动机,这些人确实很聪明。

但我想提醒他们:很多这种做法最终可能会反噬,他们将来可能会为此感到后悔。

先做一套全栈,然后做成刚需平台 

主持人:在自动驾驶领域,你们既与多家车厂合作,也有自己的 Alpamayo 模型,同时还在向特斯拉供芯片。

你今天的演讲中也提到了 OpenClaw;另一方面,像 Vera 这样的芯片,其实很大程度上是由 agent 的发展驱动的,比如 Claude Code 和 OpenAI 的 Codex。

我想问的是,这背后是否有一个一致的逻辑:你们一方面为行业领先者提供芯片,另一方面迅速跟进其能力,并开放给更多竞争者,从而既扩大客户基础、不依赖头部玩家,又借助“被甩下”的焦虑带动整体需求?

黄仁勋:不是这样的。

我们在很多领域本身就处于最前沿。从某种意义上说,我们在很多领域都是领导者。但我们从不把这些能力做成最终产品。

我们是一家“技术栈公司”。所以我们必须站在技术前沿,必须成为这个技术栈的世界领导者,但我们不是解决方案厂商,也不是服务提供商。这是第一点。

主持人:这种情况会一直这样吗?

黄仁勋:会,一直如此。没有理由改变,而且我们也很乐意这样做。我们创造这些技术,然后把它们开放给所有人。

主持人:不过挺有意思的是,你们现在的硬件产品里,一个机架可能包含三万多个 SKU,而且越来越多由你们来定义,以便更高效地组装和集成。那在软件层面,是否也会走类似路径?比如你提到的垂直整合和开源模型。

黄仁勋:我们会先“垂直地”把一整套东西做出来,然后再“水平地”开放出去,让大家可以按需使用其中的任何部分。

主持人:前提是他们运行在英伟达芯片上?

黄仁勋:他们可以用任何他们想用的部分,不一定非要用全部 英伟达 芯片,也不一定要用全部 英伟达 软件。

我们必须先做垂直整合、垂直优化,但完成之后,我们会开放源代码,提供能力,让大家自己决定怎么用。

主持人:那你觉得 英伟达 能一直在“前沿模型”这件事上保持竞争力吗?毕竟像 Meta 似乎有点掉队,而另一类替代方案,很多是中国模型。

黄仁勋:在那个领域“赢”对我们来说并不重要。

主持人: 不是说一定要赢,而是说:需要有人提供开源的前沿模型。如果不是你们,那会是谁?

黄仁勋:总得有人去做开源模型,而 英伟达 在这方面确实有能力。而且,每次我们做开源模型,我们也能从中学到很多关于计算本身的东西。

主持人:那 Blackwell 当时是不是遇到了一些问题?我听说训练过程可能比以前更困难。

黄仁勋:Blackwell 的挑战 100% 来自 NVLink 72,这部分工作非常艰难。那是我唯一一次在发布会上特意感谢大家和我们一起扛过来的。

主持人:我当时注意到你说那句话,非常真诚。

黄仁勋:是的,因为我们确实把大家“折腾”得够呛,但现在大家都很喜欢这个成果。

主持人:你会担心业务铺得太开吗?还是说你们依然有类似 CUDA 的“飞轮效应”——看似在做很多事,本质上是在不断复用同一套方法?

黄仁勋:英伟达 之所以能行动这么快,是因为我们始终有一套统一的理论。

这也是我的工作:明确什么是重要的,这些事情如何彼此关联,并构建一个能够高效执行的组织。

这套统一理论其实很简单:一方面,我们拥有计算与软件平台,也就是 CUDA-X;另一方面,我们是一家计算系统公司,通过全栈的垂直优化和极致协同设计(co-design)来打造系统。

这个“计算机”本身就成为我们的平台,我们再把它集成进各类云厂商和 OEM 体系中。现在,我们还在构建新的平台:数据中心平台,也就是 AI 工厂。

一旦理解了 英伟达 在做什么、以及如何去做,这一切就会变得清晰。而我在这次 keynote 中,其实也是在讲这个故事。某种程度上,也是讲给我们自己的员工听。

参考链接:https://stratechery.com/2026/an-interview-with-英伟达-ceo-jensen-huang-about-accelerated-computing/

本文来自微信公众号 “AI前线”(ID:ai-front),作者:木子,36氪经授权发布。

+1
14

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

AI这波浪打过来,沙子会被冲走,石头反而会露出来。

3小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业