英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍

智东西·2026年04月29日 20:54

一个模型搞定文本、视觉、语音。

智东西4月29日报道，英伟达于昨日正式推出全新多模态推理模型Nemotron 3 Nano Omni，将文本、视觉、语音三大模态能力深度融合至单一模型体系，目前可免费使用。

作为Nemotron 3系列的最新成员，Nemotron 3 Nano Omni可处理文本、图像、音频、视频、文档、图表和图形界面等多种输入，并以文本形式输出。此外，模型可根据不同任务与模态动态激活专家网络，在保证高吞吐的同时实现强多模态感知能力，使整体吞吐量达到同类开放多模态模型的9倍。

目前，该模型在MMlongbench-Doc、OCRBenchV2等文档智能榜单上占据前五。视频与音频理解任务方面，在DailyOmni、VoiceBench上拿下第一，超过Qwen3-Omni-30B-A3B-Thinking和Gemini 2.5Flash。

▲OCRBenchV2排行榜

▲DailyOmni排行榜

除准确率外，MediaPerf数据显示，其在多任务场景中实现最高吞吐量，并在视频级标注任务中具备最低推理成本。

训练数据集方面，Hugging Face显示，Nemotron 3 Nano Omni使用Qwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen3.5-397B-A17B、Qwen2.5-VL-72B-Instruct和gpt-oss-120b进行了改进。

根据海外网友实测，Nemotron 3 Nano Omni模型视频内容识别迅速精准，可快速解析演讲视频并提炼关键信息；能应答特定人物演讲中的细分议题相关问题，问答贴合原文。同时可读取、解析专业技术文档，解答模型训练类硬核技术问题，整体理解能力、多模态信息处理与专业内容解读表现不俗。

开源网址：

https://nvda.ws/420h6mR

https://openrouter.ai/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:free

官方网址：

https://build.nvidia.com/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning

01.能迅速理解视频内容定位相关片段

在实际测试中，一位海外博主上传了黄仁勋（Jensen Huang）在NVIDIA GTC 2026上的一段三分多钟的演讲视频，并直接向模型提问视频内容。Nemotron 3 Nano Omni 在短短几秒内，便完成了对画面与语音的联合理解，不仅准确概括了演讲核心观点，还能指出具体语境中的关键信息。

随后，这位博主进一步追问：“关于排行榜，黄仁勋具体说了什么？”模型在已有视频上下文的基础上，快速定位相关片段，并给出更细致的回答，体现出对长视频内容的持续记忆与跨模态检索能力。

他又将Nemotron 3 Nano Omni的技术文档直接输入模型，要求其解释模型的训练方式。面对从视频到文本的多源信息切换，模型依然能够无缝衔接，在同一推理框架下解析复杂技术细节，梳理出包括混合专家架构、数据与训练流程在内的关键逻辑。

Nemotron 3 Nano Omni主要应用场景包括计算机用户代理导航图形界面、企业分析和合规工作流程的文档智能，以及客户服务和研究应用的音视频理解。模型提供开放的权重、数据集和训练技术，可部署在本地系统、数据中心和云环境中，以满足监管、主权或数据本地化要求。

早期采用者包括Aible、富士康、Palantir和H Company，而戴尔科技、DocuSign、Infosys 和Oracle等公司正在评估该模型。Nemotron 3 模型系列在过去一年中的下载量已超过 5000 万次。

02.吞吐量为同类开放多模态模型的9倍

Nemotron 3 Nano Omni的核心亮点集中在混合型MoE架构、高效时空视觉处理以及全面的多模态能力上,可根据不同任务与模态动态激活专家网络，在保证高吞吐的同时实现强多模态感知能力，使整体吞吐量达到同类开放多模态模型的9倍。

混合型MoE核心架构创新性地将Mamba层与Transformer层深度融合，其中Mamba层负责提升序列处理效率与内存利用率，Transformer层则保障精准的推理计算，这种融合设计不仅显著提升了数据处理吞吐量，更使内存和计算效率最高提升4倍，使其在子代理角色中具备极强的适配性。

对于相同交互阈值下的视频推理，Nemotron 3 Nano Omni可维持更高的总吞吐量，与替代的开放式全向模型相比，其有效系统容量可提高约9.2倍。

对于相同交互阈值下的多文档推理，Nemotron 3 Nano Omni可维持更高的总吞吐量，与替代的开放式全向模型相比，其有效系统容量可提高约7.4倍。

从之前的 Nemotron Nano VL V2型号到 Nemotron 3 Nano Omni，多模态精度在行业领先的基准测试中均有所提高。

03.统一架构内整合多模态处理能力的开源模型

当下，智能体推理领域的开源AI模型正迎来集中爆发，市场竞争日趋激烈：Meta的Llama系列长期占据开源大语言模型赛道龙头地位；谷歌Gemini聚焦云端超大规模多模态能力，构建差异化优势；OpenAI的GPT系列则始终是商用领域的标杆之作；Deepseek上周最新发布的V4-Pro、V4-Flash，更以混合注意力架构，针对性优化长周期智能体任务，进一步丰富了市场供给。

Nemotron 3 Nano Omni的核心差异化，不在于单项性能突破，而是四大优势的独家集合：单模型统一视觉、音频、文本多模态感知、混合专家高能效适配边缘部署、开源权重开放、完全商用授权。目前暂无竞品同时具备全部特性。对标产品各有短板：谷歌端侧模型 Gemini Nano未开源，Meta Llama多模态版本无法在统一架构内整合音频处理能力。

04.结语：英伟达完善AI布局的“关键一招”

该模型的战略影响远超产品本身。若其成为智能体部署的主流选择，英伟达将实现推理GPU硬件、优化加速软件框架、自研上层模型的三位一体。竞品若基于英伟达二次开发，会进一步加深硬件依赖；即便对手自主研发模型，训练环节仍离不开英伟达GPU算力支撑。智能体AI时代全面提速，英伟达的核心目标并非单点垄断，而是渗透产业每一层核心环节、构筑不可替代性。

本文来自微信公众号 “智东西”（ID：zhidxcom），作者：徐佳扬，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍

01.能迅速理解视频内容定位相关片段

02.吞吐量为同类开放多模态模型的9倍

03.统一架构内整合多模态处理能力的开源模型

04.结语：英伟达完善AI布局的“关键一招”

最近内容

下一篇