英伟达全新开源模型:三倍吞吐、单卡可跑,还拿下推理SOTA
众所周知,老黄不仅卖铲子(GPU),还自己下场开矿(造模型)。
英伟达最新推出的Llama Nemotron Super v1.5开源模型就专为复杂推理和agnet任务量身打造。
模型在科学、数学、编程及agent任务中实现SOTA表现的同时,还将吞吐量提升至前代的3倍,且可在单卡高效运行,实现更准、更快、更轻的“既要又要还要”。
这是怎么做到的?
模型介绍
Llama Nemotron Super v1.5是Llama-3.3-Nemotron-Super-49B-V1.5的简称。它是Llama-3.3-Nemotron-Super-49B-V1的升级版本(该模型是Meta的Llama-3.3-70B-Instruct的衍生模型),专为复杂推理和智能体任务设计。
模型架构
Llama Nemotron Super v1.5采用神经架构搜索(Neural Architecture Search,NAS),使该模型在准确率和效率之间实现了良好的平衡,将吞吐量的提升有效转化为更低的运行成本。
(注:NAS的目标是通过搜索算法从大量的可能架构中找到最优的神经网络结构,利用自动化方法替代人工设计神经网络架构,从而提高模型的性能和效率。)
在Llama Nemotron Super v1.5中,NAS算法生成了非标准、非重复的网络模块(blocks)。相较于传统的Transformer,其包含以下两类变化:
- 跳过注意力机制(Skip attention):在某些模块中,直接跳过了注意力层,或者只用一个线性层来代替。
- 可变前馈网络(Variable FFN):在前馈网络(Feedforward Network)中,不同模块采用了不同的扩展/压缩比。
由此,模型通过跳过attention或改变FFN宽度以减少FLOPs,从而在资源受限时更高效地运行模型。
之后,研究团队还对原始的Llama模型(Llama 3.3 70B Instruct)进行了逐模块的蒸馏(block-wise distillation),通过对每个模块构造多个变体,并在所有模块结构中搜索组合,从而构建一个模型。
使它既能满足在单个H100 80GB显卡上的吞吐量和内存要求,又尽量减少性能损失。
训练与数据集
模型首先在FineWeb、Buzz-V1.2 和 Dolma三个数据集共400亿个token的训练数据上进行了知识蒸馏(knowledge distillation,KD),重点关注英语单轮和多轮聊天。
在后训练阶段,模型通过结合监督微调(SFT)和强化学习(RL)的方法,以进一步提升模型在代码、数学、推理和指令遵循等关键任务上的表现。
这些数据既包括来自公开语料库的题目,也包含人工合成的问答样本,其中部分题目配有开启和关闭推理的答案,旨在增强模型对推理模式的辨别能力。
英伟达表示数据集将在未来几周内发布。
总的来说,Llama Nemotron Super V1.5是一个通过NAS自动优化架构、精简计算图的 Llama 3.3 70B Instruct变体。它针对单卡运行场景做了结构简化、知识蒸馏训练与后训练,兼顾高准确性、高吞吐量与低资源占用,特别适合英语对话类任务及编程任务的部署。
此外,在部署方面,英伟达延续了其一贯的生态优势:
我们的AI模型专为在 NVIDIA GPU 加速系统上运行而设计和/或优化。通过充分利用 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),相比仅依赖 CPU 的方案,模型在训练和推理阶段实现了显著的速度提升。
该模型现已开源。开发者可以在build.nvidia.com体验Llama Nemotron Super v1.5或直接从Hugging Face下载模型。
One more thing
作为英伟达最新发布的开源大语言模型,Llama Nemotron Super v1.5隶属于英伟达Nemotron生态,该生态集成了大语言模型、训练与推理框架、优化工具和企业级部署方案,旨在实现高性能、可控性强、易于扩展的生成式 AI 应用开发。
为满足不同场景需求与用户定位,英伟达在此生态的基础上推出了三个不同定位的大语言模型系列——Nano、Super和Ultra。
其中,Nano系列针对成本效益和边缘部署,适合部署在边缘设备(如移动端、机器人、IoT设备等)或成本敏感型场景(比如本地运行、离线场景、商业小模型推理)。
Super系列则针对单个GPU上平衡的精度和计算效率,它可以在一张高性能 GPU(如 H100) 上运行,不需要多卡或大型集群。它的精度比Nano高,但比Ultra小巧,适合企业开发者或中型部署。我们上面提到的Llama Nemotron Super v1.5就属于这一系列。
Ultra则致力于数据中心的最大精度,专为在数据中心、超算集群、多张 GPU上运行而设计,面向复杂推理、大规模生成、高保真对话等对精度要求极高的任务。
目前,Nemotron已获得SAP、ServiceNow、Microsoft、Accenture、CrowdStrike、Deloitte 等企业支持或集成使用,用于构建面向企业级流程自动化和复杂问题解决的AI智能体平台。
此外,在Amazon Bedrock Marketplace中也能通过NVIDIA NIM微服务调用Nemotron模型,简化部署流程,支持云端、混合架构等多种运营方案。
参考链接
[1]https://www.marktechpost.com/2025/07/27/nvidia-ai-dev-team-releases-llama-nemotron-super-v1-5-setting-new-standards-in-reasoning-and-agentic-ai/
[2]https://developer.nvidia.com/blog/build-more-accurate-and-efficient-ai-agents-with-the-new-nvidia-llama-nemotron-super-v1-5/
[3]https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1_5
[4]https://www.nvidia.com/en-us/ai-data-science/foundation-models/nemotron/
本文来自微信公众号“量子位”(ID:QbitAI),作者:henry,36氪经授权发布。