关于Rubin,我们列了六个关键问题
英伟达没有在CES 2026上发布任何新的显卡。
取而代之的,黄仁勋用近两个小时,详细阐述了一个名为Vera Rubin的全新AI超算架构,以及一组足以改写行业规则的数字:
在Rubin上运行AI推理,吞吐量提升十倍,训练万亿参数模型所需的GPU数量,可以减少到上一代Blackwell的四分之一,而每个token的成本降至十分之一。
这件事可能埋了个信号。
它或许预示,在传统消费级GPU这条线上,通过制程和架构微迭代带来的性能提升,其边际效应正在减弱,或者说,已不足以支撑一个激动人心的发布会。
以下是我们就此事的一些思考。
关于没有新显卡与Rubin的商业模式
理解Rubin,关键在于转变视角。
它不是一个更快的GPU,你可以把它视为一套极度垂直整合的AI计算系统。英伟达设计了六颗功能各异、但深度耦合的专用芯片去进行打包:
Vera CPU(负责AI数据流调度)、Rubin GPU(核心算力单元)、NVLink 6(超高带宽内部互联)、ConnectX-9 SuperNIC(AI专用网络)、BlueField-4 DPU(卸载存储与安全任务)、Spectrum-6以太网交换芯片。
六块芯片协同工作,目标是将整个数据中心机柜整合为一台无缝的“巨型AI计算机”。
Rubin解决的,是系统规模化的难题,不是单颗芯片的性能极限。让算力的堆叠,从“手工组装赛车引擎”变为“标准化汽车工厂流水线”,至于带来的效率提升和成本下降,是系统级优化的必然结果。
这种模式,确实与谷歌通过TPU及其互联技术打造自家AI基础设施的思路异曲同工。英伟达的Rubin,正是面向那些与谷歌有相似需求的客户——即需要处理海量Token、训练和运行万亿参数模型的超大规模AI厂商或云服务商。
对比英伟达在这之前的商业模式,有一些从“卖铲子”到“卖生产力车间” 的商业模式的转向。它带来的性能提升(如10倍推理吞吐)和成本下降(1/10的Token成本),是这种专用化、系统级优化所能释放的潜力。
但它的限制也在于此。
Rubin的威力只有在处理其预设的、高度并行化的AI计算负载时才能完全释放。对于图形渲染、通用科学计算或小规模模型推理等场景,其复杂性和成本可能并不划算。它瞄准的是一个庞大但特定的“主航道”市场。
关于对现有AI硬件生态的冲击
Rubin的出现,会不会让“囤积高端GPU”作为核心竞争力的时代,开始进入倒计时?
如果说,Rubin真的能够达到市场普及,随之而来就要面对一些尴尬情况:
对于第一波靠买卖或租赁算力(如H100集群)的厂商,他们的商业模式将承受巨大压力。当新一代系统能以低得多的单位成本提供推理服务时,旧有集群的性价比优势会迅速丧失,除非他们能快速升级到新架构。
而对于那些早期投入巨资自建GPU集群的AI公司,他们的处境更为微妙。这些硬件资产短期内不会报废,依然能用于研发和现有服务。
但问题在于未来的竞争维度。
当新入场的玩家可以凭借Rubin级别的廉价算力,轻松获得与你相当的推理能力时,你之前用巨额资本构筑的算力壁垒,战略价值就会急剧缩水。竞争将更快地、更彻底地转向模型算法本身的优越性、数据的独特性和闭环,以及产品与市场的契合度。
英伟达自身的角色,也会因此在演变。它确实在向“AI时代的高通”靠拢,即提供核心的、标准化的计算模块。但Rubin所展现的集成度,又比手机SoC复杂得多,更接近于提供一整套参考设计和系统解决方案。
未来,如果其超算架构(如DGX SuperPOD)以云服务形式被大规模交付,那么它还将附加一层“运营商”的属性,直接向终端用户输出AI算力服务。
关于Token平价时代的窗口期问题
Rubin所承诺的“平价推理时代”,其窗口期的长短,取决于两个关键变量:Rubin的销量爬坡速度,以及现有巨头模型能力的迭代速度。
如果Rubin能在2026年下半年如期规模上市,并快速被主要云厂商(如AWS、Azure、GCP)部署,那么这个“平价算力”的接入点就会迅速普及。
窗口期可能并不长。在这段时间里,存量公司必须完成从“依赖硬件规模”到“依赖软件和生态优势”的关键转型。
具体来说,他们可能需要:利用现有算力优势,加速训练出具有代际差异的模型,建立足够高的算法壁垒;将业务迅速与具体商业场景深度绑定,形成数据闭环和客户粘性,让算力成本不再是决定性因素;积极探索基于现有模型的创新应用和生态,在平价算力浪潮到来前,占据用户心智和市场份额。
当大家获取先进算力的成本拉平时,那些仅靠算力堆砌而无独特技术或产品护城河的公司,优势可能很快蒸发。
关于AI泡沫与下一代种子选手
需要注意的是,Rubin的大规模投入,是为AI商业价值的全面实现,拆除了最大的成本和规模障碍,但它本身并不能自动创造价值。
简单来说,解决的是“成本可不可行”问题,而不是“需求存不存在”问题。
AI泡沫论常质疑的是:天价训练成本能否产生与之匹配的商业价值?Rubin将成本打下来,实际上是大幅降低了验证商业价值的门槛。
更多的创业团队可以用可承受的成本,去测试更激进、更复杂的AI想法。因此,接下来的逻辑不是泡沫破裂,行业可能正从依靠资本堆砌的蛮力阶段,进入一个更健康、更依赖创新而非资本的筛选阶段。
最先能有效利用Rubin级别算力的创业者,未必是现在资金最雄厚的,但一定是对AI原生应用有最深洞察、最能发挥廉价推理潜力的团队。他们可能是下一代“杀手级应用”的种子选手。
从这个角度来看,长远一些,以往算力的天价成本导致只有少数玩家能入场,他们的故事建立在“我有稀缺算力”的基础上,商业价值验证被推迟。
Rubin之后的新逻辑是,算力门槛骤降,入场玩家会激增。当然,这可能会导致大量同质化应用涌现,市场竞争会瞬间变得极为残酷。因为许多仅仅依靠“我有AI功能”的应用将迅速失去价值,因为它们无法在成本相近的情况下提供独特优势。
真正的价值创造者(拥有独特数据、精妙算法、深刻行业洞察的团队)会脱颖而出,而裸泳者会更快暴露。所以,Rubin的到来可能并不意味着泡沫结束,恰恰是一轮更剧烈的淘汰赛开始。
关于不推新显卡的深层原因
作为天才销售大师的黄仁勋,在这次CES全球大会上没有推销显卡,这件事本身是很值得讨论的,我们甚至可以合理猜测,在半导体物理边界下,已经逼近创新极限?
在传统GPU的晶体管微缩竞赛中,持续实现代际性能飞跃的难度确实在增加。与此同时,AI数据中心市场的增长曲线和利润空间,已经形成了绝对的战略引力。
在先进封装、HBM内存等产能可能依然全局紧张的背景下,英伟达选择将资源(研发、产能、市场声量)绝对优先地投入到决定其未来的AI基础设施战场,有一定的必然性。
另一方面,在过去一年里,英伟达的行业统治地位或多活动受到不少挑战,尤其是来源于谷歌这类科技公司的一些颠覆。
在缺乏制程红利或架构颠覆性突破的情况下,匆忙推出小幅升级的产品,反而可能打乱市场节奏、影响现有产品线(如RTX 40系)的销售。英伟达有资本选择等待一个更合适的发布时机。
更实际的问题
抛开以上,还有两个非常实际的问题:一是从现有架构迁移到Rubin的更新成本与收益是否匹配;二是新架构下硬件必然会存在的稳定性与鲁棒性风险。
对于从业者来说,从Blackwell或更早架构迁移到Rubin,远不止一次简单的硬件采购。
最典型的例子,集成六种尖端芯片、采用全液冷设计的Rubin系统,其单机柜或单托盘的价格必然极其昂贵,会显著高于当前一代系统。
还有他们的计算逻辑,客户不会单纯为了当前的算力付费,他们要购买一张通往下一代AI成本结构的门票。核心比较指标非“总拥有成本(TCO)”,而是 “单位智能成本(Cost Per Intelligence)”——即处理每万亿token、训练每个万亿参数模型的综合开销。
那划不划得来呢?对于极度稀缺、高速迭代的前沿模型研发(如追求AGI的实验室)和超大规模AI云服务商来说,答案很可能是肯定的。
即便硬件单价高,但若能将其服务的天量Token推理成本降低一个数量级,或在竞品之前以数月时间优势推出更强大的模型,这笔投资就能在极短时间内通过市场领先地位和更低的运营成本收回。这是为生存和领先而战。
除了这些,还有迁移与适配的隐性成本。比如,Rubin的NVFP4张量核心、新的内存层次(如由BlueField-4驱动的上下文存储平台)以及CPU-GPU协同模式,都需要对现有的深度学习框架、模型架构和调度软件进行深度优化,甚至重写部分代码。这需要投入大量工程师时间和验证成本。
决策者还要考虑什么时候回本,比如:
基于Rubin更低廉的Token成本,自己的业务量(推理请求、模型训练任务)将增长多少?新架构带来的能效提升,能节省多少电力成本?与“维持旧系统,但承担更高边际成本和逐渐丧失竞争力”的路径相比,提前投资Rubin的净现值(NPV)是否为正?
对于大多数企业,这个平衡点可能不会立即到来。
另一方面,关于稳定性与鲁棒性,是这种系统级极致创新的天然反面。
对于任一硬件工艺,复杂度激增必然带来故障点的扩散。传统的GPU集群有一两个出现问题,任务可迁移解决。但Rubin是一个超级有机体,内部(Vera CPU、Rubin GPU、NVLink 6、DPU、超级网卡)精密耦合,任何一个关键部件的异常,都可能影响整个系统的协同效率。
对于工程师来说,故障诊断难度大概率也会上升。当性能问题或错误出现时,排查的根源可能是硬件(六种芯片中的任何一种)、固件、驱动、互联协议或系统软件中的任何一环。这种深度集成使得传统“分而治之”的调试方法变得异常困难。
我们也注意到,针对这几个风险,老黄在演讲中回应了几项特性,如全链路机密计算与加密、彻底重新设计的供电与冷却、通过DPU实现“卸载”与“隔离”。
只不过,无论设计多么精妙,一套如此复杂的新系统,也必须经过大规模、长时间、多样化实际工作负载的淬火才能得到验证。
按照以往的经验,早期采用者将不可避免地承担“共同测试者”的角色,与英伟达一同发现并解决那些在实验室中无法预见的问题。
这个过程可能需要更长时间。
本文来自微信公众号 “新眸”(ID:xinmouls),作者:李小东,36氪经授权发布。















