英伟达,筑起新高墙
日前,英伟达一下子解密了六颗芯片,引起了全球轰动。但其实早在去年年底,就有一则重磅消息在AI芯片圈炸响:推理芯片初创公司 Groq 宣布,已与英伟达达成一项“非独家许可协议”。公告只有寥寥数语,但随之而来的信息却迅速改变了这笔交易的分量——Groq 创始人兼 CEO Jonathan Ross、总裁 Sunny Madra 以及多名核心成员,将一并加入英伟达,参与授权技术的推进与规模化。
如果只看形式,这并不是一次收购;如果只看结果,它却几乎具备了收购的全部要素。技术被许可,团队被吸纳,关键人物离场,Groq 虽然名义上继续运营,但其最具决定性的资产——技术路线与灵魂人物——已然转移。这是一种典型的“收购式招聘”,也是英伟达近年来愈发娴熟的一种操作方式:在不触碰监管红线的前提下,把潜在威胁纳入自己的体系之中。
更重要的是,这一步发生在一个极其敏感的时间点。AI 芯片的竞争,正在从“训练为王”转向“推理决胜”。英伟达的 GPU 依旧牢牢统治着训练市场,但在推理端,AMD、定制 ASIC、云厂商自研芯片正在快速逼近,成本与供应链多元化成为大客户最现实的诉求。Groq 的 LPU 正是为推理而生,主打极致低延迟和性能确定性,其创始人 Jonathan Ross 更被视为谷歌 TPU 背后的关键推手——这不是一家可以被忽视的公司。
因此,与其说英伟达“买”下了 Groq,不如说它在竞争真正白热化之前,提前拆掉了一段可能威胁自身根基的城梯。回看历史,从 Mellanox 到未遂的 Arm,再到今天的 Groq,英伟达并非只是在扩张版图,而是在一砖一瓦地加高自己的防御体系。英伟达在乎的,似乎已不再是某一笔交易的得失,而是如何在训练、推理、网络、软件与生态的多条战线上,同时构筑起一道几乎无法绕开的“城墙”。
算力,并不是焦虑根源
英伟达与 Groq 达成交易,这件事本身的重要性,并不在于它是否会推出一款“非 GPU 的 AI 芯片”,而在于它暴露了英伟达真正的焦虑来源。今天的英伟达,几乎已经在训练算力层面取得了事实上的统治地位,但 AI 产业的重心正在悄然移动——从“谁能堆更多 FLOPS”,转向“谁能更高效、更确定性地交付推理结果”。
Groq 的价值并不在算力规模,而在系统哲学。它强调确定性延迟、强调编译器对执行路径的绝对控制、强调“推理不是硬件问题,而是系统问题”。这套思路,与 GPU 世界中长期存在的动态调度、非确定性执行形成鲜明对比。
Groq 的创始人 Jonathan Ross 是 Google 第一代 TPU 的首席架构师。他在 2016 年离开 Google 后,试图打造一个比 TPU 更快、更可控的“通用 AI 处理器”。Groq 的核心技术是自研的 LPU(Language Processing Unit)架构,这种架构抛弃了传统的乱序执行和动态调度机制,采用静态调度、数据路径固定、执行流程可预测的“确定性设计”(deterministic design)。芯片内部采用 SRAM 技术,而非英伟达 GPU 依赖的片外 HBM 显存,这让 Groq 在某些场景下实现了极致的低延迟。
Groq 最初也曾试图进入训练市场,但很快发现这是一条死路:训练市场的竞争逻辑是“大生态+大资本+大客户”。Groq 的架构对主流 AI 框架(如 PyTorch、TensorFlow)的兼容性有限,也缺乏成熟的编译工具链,使得训练任务的迁移成本极高。
从 2023 年下半年开始,Groq 明确转向推理即服务(Inference-as-a-Service)方向。2024 年,Groq 展示了其系统运行 Llama 2-70B 模型时,实现每秒超过 300 个 Token 的生成速度,远超主流 GPU 系统。这一优势让 Groq 迅速吸引到一批对延迟敏感的垂直行业用户,如金融交易系统、军事信息处理、语音/视频同步字幕生成。Groq 将产品定位从“AI 芯片”扩展为“AI 处理平台”,通过 GroqCloud 平台向开发者提供 API 访问权限,与 LangChain、LlamaIndex 等生态集成。
正是这种“异类”,恰恰点中了英伟达的软肋。随着大模型进入规模化落地阶段,越来越多客户开始关心延迟、能效、TCO 和系统复杂度,而不再只是显卡型号。推理正在走向碎片化:云厂商自研 ASIC(AWS 的 Trainium 和 Inferentia、Google TPU、Microsoft Maia)、CPU+加速器混合部署、边缘侧异构系统层出不穷。如果英伟达只停留在“卖最强 GPU”,它在推理端的话语权,迟早会被系统层慢慢侵蚀。
对于英伟达和黄仁勋而言,Groq 的意义并不是“补一块芯片”,而是补一块英伟达尚未完全掌控的系统能力:对执行路径的强约束、对延迟的可预测性、以及编译器主导的算力使用方式。换句话说,如果说 GPU 是英伟达的地基,那么 Groq 代表的,是它试图插入系统顶层的一根“控制梁”。
对“集群控制权”的长期执念
而在与Groq达成交易之前,英伟达其实早已悄然埋下了一条新的主线。
很多人习惯从操作系统的角度理解算力生态,认为谁控制了 Linux 发行版、谁控制了内核,谁就掌握了计算世界的话语权。但在 AI 时代,这种逻辑已经开始失效。英伟达对此看得非常清楚:真正重要的,不是节点上的操作系统,而是节点之上的集群控制方式。
这正是英伟达在 2022 年 1 月收购 Bright Computing 的根本原因。当时这笔交易的金额未公开,但 Bright Computing 已完成两轮融资,共筹集 1650 万美元,其集群管理工具 BCM 在全球拥有超过 700 家用户。Bright Cluster Manager 并不是一个时髦的新工具,它诞生于传统 HPC 世界,最初用于管理高度复杂、对稳定性和可预测性要求极高的超级计算系统。正因为如此,它并不追逐某一种特定技术潮流,而是长期围绕“如何在大规模集群中统一部署、监控、修复和调度”这个核心问题演进。
BCM 最初是为管理传统高性能计算(HPC)系统而设计的,但多年来,为了将其打造成为一款通用集群控制器,BCM 也进行了适配,以支持 Hadoop、Spark、OpenStack、Kubernetes 和 VMware ESX 等对控制要求极高的分布式系统。
在被英伟达收购并更名为 Base Command Manager 之后,这套工具被完整纳入 AI Enterprise 软件堆栈,成为英伟达 AI 系统的“底层控制平面”。通过许可证模式,英伟达不再只是交付硬件,而是开始按 GPU、按年份出售“系统能力”——AI Enterprise 许可证包含英伟达捆绑并支持在其 GPU 加速系统上的库、框架和其他工具,每个 GPU 每年的费用为 4500 美元。
这一步的意义极其关键:它意味着英伟达正式把“集群管理”变成了自己的商业资产,而不是留给客户或第三方去解决。
英伟达还设定了一个精妙的商业策略:对于每个节点包含 8 个 GPU 以内的集群,提供免费的 BCM 许可证,但不提供任何技术支持,且“随时可能被撤销”。这意味着企业如果想要稳定的生产环境,就必须购买 AI Enterprise 许可证。免费版本不是慷慨,而是一种“试用即绑定”的策略。
更重要的是,Base Command Manager 并不是孤立存在的。在其之上,英伟达叠加了 Mission Control,用于自动部署所谓的“AI 工厂”:框架、工具、模型、容器运行环境、健康检查和功耗优化一体化。Mission Control 包含 Run:ai 实现的 Kubernetes,用于编排容器;还包含 Docker,用于在容器内运行计算;此外,它还可以虚拟化 GPU,以提供更精细的计算粒度。Mission Control 会对系统进行健康检查,并根据系统上运行的工作负载优化功耗。
这套体系的目标并不是让客户拥有更多选择,而是让客户在默认情况下就运行在英伟达定义的最优路径上。
当然,这里绕不开英伟达在2024年对Run.ai的收购,Run.ai的核心价值不是又一个Kubernetes插件,而是实现了GPU资源的抽象化管理:多租户、弹性调度、优先级控制、GPU虚拟化。在Run.ai的系统中,一个物理GPU可以被切分成多个虚拟实例,让不同用户、不同任务按需使用,同时保证隔离性和性能。
为什么英伟达提前拿下了 Run:ai?因为调度权如果不在自己手里,CUDA 生态的优势就会被“平台化”稀释。云厂商可以通过调度层,让客户感知不到底层是谁的 GPU,甚至可以在调度中插入自研芯片作为替代选项。
但就高性能计算(HPC)和人工智能(AI)工作负载的裸机工作负载管理而言,英伟达仍然需要一款工具。事实证明,BCM 正是执行这些健康检查的工具,而解决问题的操作则通过 Slurm 工作负载管理器完成。
英伟达并没有强行要求所有客户抛弃既有体系,而是非常务实地接受了一个现实:在大量从 HPC 演进而来的 AI 集群中,Slurm 依然是事实标准。许多高性能计算和人工智能机构不想学习新东西——比如 Run:ai——而是想继续使用 Slurm。对于那些最初以高性能计算中心起家的混合型人工智能/高性能计算中心来说,这种情况可能尤为突出。
这就为下一步的关键收购埋下了伏笔。
开源不是放弃控制
2025 年 12 月,英伟达补上了这道墙的最后一块砖:收购了 SchedMD,获得了 Slurm 工作负载管理器背后的核心团队和技术支持权。
Slurm 项目始于 2001 年,由劳伦斯·利弗莫尔国家实验室、Linux Network(已被 SGI 收购)、惠普以及 Groupe Bull(已被 Atos 收购并成立 Eviden)合作开发。据称,Slurm 的设计灵感来源于超级计算机互连设备制造商 Quadrics 开发的 RMS 集群资源管理器。2010 年,该项目的两位创始人 Morris Jette 和 Danny Auble 创立了 SchedMD,旨在为 Slurm 提供技术支持,从而为工作负载管理器的进一步开发提供资金。
Slurm 最重要的优势在于,过去十年中,在 Top500 超级计算机排行榜上出现的计算机中,约有 60% 使用 Slurm 作为其工作负载管理器,而不是 IBM/Platform Computing 的负载共享工具(LSF)、Altair 的便携式批处理系统(PBS)、Adaptive Computing 的 Maui 和 Moab 以及 Sun/Univa Grid Engine。所有这些工作负载管理器/作业调度器都会将一组具有特定计算能力需求的工作负载进行“俄罗斯方块”式的调度,最终使它们按照既定的优先级顺序高效运行。
Slurm 过去十多年里成为超级计算领域的事实标准,并不是因为它最激进,而是因为它足够稳定、足够中立,也足够适配不断变化的硬件环境。SchedMD 已向全球数百家 HPC 中心、云构建商、超大规模数据中心和企业销售了 Slurm 工作负载管理器的支持服务。过去十年,英伟达和 SchedMD 一直在合作开发 Slurm。
在英伟达收购 Bright Computing 之前,BCM 支持不同的工作负载管理器,但随着 Slurm 逐渐成为高性能计算中心乃至人工智能领域工作负载管理的实际标准,它被选为 Bright Cluster Manager 的默认工作负载管理器,并在过去几年中一直是英伟达 Base Command Manager 的默认工作负载管理器。
对英伟达而言,真正危险的并不是 Slurm 开源,而是如果 Slurm 的演进方向、支持能力和企业级整合权掌握在自己控制之外,那么整个 Base Command Manager 和 Mission Control 体系,都会留下一个无法掌控的“底座”。
通过收购 SchedMD,英伟达并没有否定 Slurm 的开源属性,反而在公开表态中反复强调其“厂商中立性”。英伟达表示,它将“继续开发和分发 Slurm,使其成为开源、厂商中立的软件,使其在各种硬件和软件环境下都能被更广泛的 HPC 和 AI 社区广泛使用和支持”。
但需要看清的是:开源并不等于没有权力结构。谁来维护主干代码、谁来提供企业级支持、谁来决定新特性的优先级,这些问题,比许可证本身重要得多。
英伟达已同意为 SchedMD 的现有客户提供支持,据推测,他们将通过聘用 SchedMD 的员工来实现这一点。但即便 Slurm 开源,也不意味着英伟达会为开源版本的代码提供支持,或者将 Slurm 的所有未来功能都开源。英伟达拥有大量专有驱动程序、框架和算法,这个模式很可能会延续到 Slurm 身上。
英伟达显然希望做到两点:一方面,保持 Slurm 在 CPU、非英伟达加速器等环境中的广泛适用性,避免引发社区反弹;另一方面,把 Slurm 的商业支持、系统集成和 AI 方向演进,与自己的 AI Enterprise 体系深度绑定。这是一种极其典型的“高阶控制”:不通过封闭代码来垄断,而通过系统复杂度和服务整合来设立门槛。
目前尚不清楚的是,Run:ai 和 Slurm 的功能将如何与 Base Command Manager 整合,从而为高性能计算(HPC)和人工智能(AI)集群提供一个自上而下的集群和工作负载管理工具——而且不仅限于 AI 集群,还要考虑到许多集群中可能存在一些仅使用 CPU 的机器以及非英伟达加速器。
如果英伟达试图以任何方式限制它,其他人可以获取 Slurm 代码(该代码以 GNU GPL v2.0 许可证提供),进行 fork 并继续开发。但现实是,fork 代码容易,建立支持能力难。当所有人都在用同一套开源工具,但只有英伟达能提供最优的集成方案时,开源本身就成了英伟达生态的扩展。
2024 年 10 月,英伟达停止单独销售 Bright Cluster Manager,而仅将其作为 AI Enterprise Stack 的一部分提供。目前尚不清楚 AI Enterprise 的价格是高于还是低于之前单独购买 Bright Cluster Manager 的许可,也不清楚有多少客户曾在纯 CPU 系统或其他类型的加速器上使用过这款早期工具。但这个动作的信号意义很明确:英伟达正在把所有系统组件打包成一个不可分割的整体。
也正是在这里,Run:ai、Slurm 和 Base Command Manager 的关系变得微妙而关键。前者代表云原生和容器化世界,后者代表 HPC 传统,而英伟达的目标,是让这两套体系在自己的框架内完成融合,而不是彼此竞争。
新的城墙,已经成型
把Groq、Bright Computing、Run:ai 和 SchedMD 放在同一条时间线上看,英伟达近几年的收购逻辑就变得异常清晰:它正在系统性地收回 AI 计算体系中的“非硬件控制权”。
GPU 仍然是英伟达最锋利的武器,但已经不再是唯一的壁垒。真正的新城墙,建立在三个层面之上:
第一层:对集群资源的调度权。从 Mellanox 的网络互联技术,到 Bright Computing 的集群管理,再到 SchedMD 的工作负载调度,英伟达控制了算力如何连接、如何分配、如何排队执行的完整链条。这不是简单的硬件整合,而是把网络从“外设”变成了“AI 系统的一部分”。
第二层:对工作负载执行路径的定义权。Run:ai 提供的 GPU 虚拟化和资源抽象,Mission Control 提供的自动化部署和健康检查,Slurm 提供的作业调度——这些工具共同定义了“任务应该怎么跑、跑在哪里、用多少资源”。当执行路径被英伟达定义时,即使客户理论上可以使用其他硬件,在实践中也会发现迁移成本高得难以承受。
第三层:对企业级支持与系统复杂度的掌控权。英伟达通过 AI Enterprise 许可证模式,把所有这些工具打包成一个商业服务。客户购买的不是单个组件,而是一整套“系统集成能力”。开源代码可以 fork,但企业级支持、优化经验、最佳实践,都掌握在英伟达手中。
一旦这三层叠加完成,客户即便理论上“可以选择别的硬件”,在实践中也会发现迁移成本高得难以承受。
从卖芯片到卖生态,英伟达的商业模式已经发生质变。过去的英伟达,GPU 是产品,卖出去就完成了交易。现在的英伟达,GPU 是生态入口,是用户进入英伟达系统的第一步。收购的真实逻辑不是规模并购,而是精准补洞:在 AI 计算的完整链条中,哪一环还没有被控制?
这也是为什么说,英伟达正在构建的已经不是传统意义上的护城河,而是一座生态城墙。它不靠封锁入口,而是通过系统整合,让离开变得不再理性。在 AI 进入基础设施阶段之后,这种能力,或许比任何一代 GPU,都更加持久。
从 Groq 到 SchedMD,从推理架构到工作负载管理,从硬件到系统,英伟达用几年时间完成了一次商业史上罕见的“生态围城”。这座城墙的高度,已经不是用技术指标可以衡量的,而是用迁移成本、学习曲线、生态粘性来定义的。
当所有人还在讨论“谁能挑战英伟达的 GPU”时,英伟达已经在思考:如何让“挑战”这件事本身变得不再可能。
本文来自微信公众号“半导体行业观察”(ID:icbank),作者:邵逸琦,36氪经授权发布。















