英伟达全模态大模型来了,几秒搞定老黄3分钟演讲,吞吐量同类9倍

智东西·2026年04月29日 20:54
一个模型搞定文本、视觉、语音。

智东西4月29日报道,英伟达于昨日正式推出全新多模态推理模型Nemotron 3 Nano Omni,将文本、视觉、语音三大模态能力深度融合至单一模型体系,目前可免费使用。 

作为Nemotron 3系列的最新成员,Nemotron 3 Nano Omni可处理文本、图像、音频、视频、文档、图表和图形界面等多种输入,并以文本形式输出。此外,模型可根据不同任务与模态动态激活专家网络,在保证高吞吐的同时实现强多模态感知能力,使整体吞吐量达到同类开放多模态模型的9倍。 

目前,该模型在MMlongbench-Doc、OCRBenchV2等文档智能榜单上占据前五。视频与音频理解任务方面,在DailyOmni、VoiceBench上拿下第一,超过Qwen3-Omni-30B-A3B-Thinking和Gemini 2.5Flash。 

▲OCRBenchV2排行榜

▲DailyOmni排行榜

除准确率外,MediaPerf数据显示,其在多任务场景中实现最高吞吐量,并在视频级标注任务中具备最低推理成本。 

训练数据集方面,Hugging Face显示,Nemotron 3 Nano Omni使用Qwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen3.5-397B-A17B、Qwen2.5-VL-72B-Instruct和gpt-oss-120b进行了改进。 

根据海外网友实测,Nemotron 3 Nano Omni模型视频内容识别迅速精准,可快速解析演讲视频并提炼关键信息;能应答特定人物演讲中的细分议题相关问题,问答贴合原文。同时可读取、解析专业技术文档,解答模型训练类硬核技术问题,整体理解能力、多模态信息处理与专业内容解读表现不俗。 

开源网址:

https://nvda.ws/420h6mR 

https://openrouter.ai/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:free 

官方网址:

https://build.nvidia.com/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning 

01.能迅速理解视频内容定位相关片段

在实际测试中,一位海外博主上传了黄仁勋(Jensen Huang)在NVIDIA GTC 2026上的一段三分多钟的演讲视频,并直接向模型提问视频内容。Nemotron 3 Nano Omni 在短短几秒内,便完成了对画面与语音的联合理解,不仅准确概括了演讲核心观点,还能指出具体语境中的关键信息。 

随后,这位博主进一步追问:“关于排行榜,黄仁勋具体说了什么?”模型在已有视频上下文的基础上,快速定位相关片段,并给出更细致的回答,体现出对长视频内容的持续记忆与跨模态检索能力。 

他又将Nemotron 3 Nano Omni的技术文档直接输入模型,要求其解释模型的训练方式。面对从视频到文本的多源信息切换,模型依然能够无缝衔接,在同一推理框架下解析复杂技术细节,梳理出包括混合专家架构、数据与训练流程在内的关键逻辑。 

Nemotron 3 Nano Omni主要应用场景包括计算机用户代理导航图形界面、企业分析和合规工作流程的文档智能,以及客户服务和研究应用的音视频理解。模型提供开放的权重、数据集和训练技术,可部署在本地系统、数据中心和云环境中,以满足监管、主权或数据本地化要求。 

早期采用者包括Aible、富士康、Palantir和H Company,而戴尔科技、DocuSign、Infosys 和Oracle等公司正在评估该模型。Nemotron 3 模型系列在过去一年中的下载量已超过 5000 万次。 

02.吞吐量为同类开放多模态模型的9倍

Nemotron 3 Nano Omni的核心亮点集中在混合型MoE架构、高效时空视觉处理以及全面的多模态能力上,可根据不同任务与模态动态激活专家网络,在保证高吞吐的同时实现强多模态感知能力,使整体吞吐量达到同类开放多模态模型的9倍。 

混合型MoE核心架构创新性地将Mamba层与Transformer层深度融合,其中Mamba层负责提升序列处理效率与内存利用率,Transformer层则保障精准的推理计算,这种融合设计不仅显著提升了数据处理吞吐量,更使内存和计算效率最高提升4倍,使其在子代理角色中具备极强的适配性。 

对于相同交互阈值下的视频推理,Nemotron 3 Nano Omni可维持更高的总吞吐量,与替代的开放式全向模型相比,其有效系统容量可提高约9.2倍。 

对于相同交互阈值下的多文档推理,Nemotron 3 Nano Omni可维持更高的总吞吐量,与替代的开放式全向模型相比,其有效系统容量可提高约7.4倍。 

从之前的 Nemotron Nano VL V2型号到 Nemotron 3 Nano Omni,多模态精度在行业领先的基准测试中均有所提高。

03.统一架构内整合多模态处理能力的开源模型

当下,智能体推理领域的开源AI模型正迎来集中爆发,市场竞争日趋激烈:Meta的Llama系列长期占据开源大语言模型赛道龙头地位;谷歌Gemini聚焦云端超大规模多模态能力,构建差异化优势;OpenAI的GPT系列则始终是商用领域的标杆之作;Deepseek上周最新发布的V4-Pro、V4-Flash,更以混合注意力架构,针对性优化长周期智能体任务,进一步丰富了市场供给。 

Nemotron 3 Nano Omni的核心差异化,不在于单项性能突破,而是四大优势的独家集合:单模型统一视觉、音频、文本多模态感知、混合专家高能效适配边缘部署、开源权重开放、完全商用授权。目前暂无竞品同时具备全部特性。对标产品各有短板:谷歌端侧模型 Gemini Nano未开源,Meta Llama多模态版本无法在统一架构内整合音频处理能力。 

04.结语:英伟达完善AI布局的“关键一招”

该模型的战略影响远超产品本身。若其成为智能体部署的主流选择,英伟达将实现推理GPU硬件、优化加速软件框架、自研上层模型的三位一体。竞品若基于英伟达二次开发,会进一步加深硬件依赖;即便对手自主研发模型,训练环节仍离不开英伟达GPU算力支撑。智能体AI时代全面提速,英伟达的核心目标并非单点垄断,而是渗透产业每一层核心环节、构筑不可替代性。 

本文来自微信公众号 “智东西”(ID:zhidxcom),作者:徐 佳扬,36氪经授权发布。

+1
1

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

SEP专利池许可是否应受FRAND审查?特斯拉案挑战Avanci平台定价权。

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业