技术博客Hugging Face Blog·2026/4/28

发布 NVIDIA Nemotron 3 Nano Omni：面向文档、音频和视频智能体的长上下文多模态智能

原标题：Introducing NVIDIA Nemotron 3 Nano Omni: Long-Context Multimodal Intelligence for Documents, Audio and Video Agents

速览

NVIDIA正式推出Nemotron 3 Nano Omni模型，这是一款专为文档、音频和视频智能体设计的长上下文多模态模型。该模型旨在提升对复杂多模态数据的理解与处理能力，支持更长的上下文窗口。它的发布标志着NVIDIA在轻量化多模态AI基础设施领域的进一步拓展，有助于开发者构建更高效、精准的垂直领域智能体应用。

AI 深度解读

NVIDIA Nemotron 3 Nano Omni 深度解读：面向文档、音频和视频代理的长上下文多模态智能

背景

随着人工智能从单一的文本或视觉任务向更复杂的现实世界应用演进，多模态大模型（Multimodal Large Language Models, MLLMs）的能力边界正在被不断拓展。NVIDIA 此前推出的 Nemotron 系列已经在视觉-语言系统上建立了强大的基础，特别是 Nemotron Nano V2 VL 模型在效率与性能之间取得了良好平衡。然而，现实世界的应用场景往往不再局限于静态图像与文本的交互，而是涉及复杂的文档分析、长音频处理、视频理解以及基于图形用户界面（GUI）的智能体操作。

为了应对这些挑战，NVIDIA 推出了 Nemotron 3 Nano Omni。这标志着 Nemotron 多模态产品线的一次重大升级，从单一的“视觉-语言”系统扩展为涵盖文本、图像、视频和音频的“全模态”（Omni-modal）模型。该模型旨在解决真实世界中高价值、长上下文、多模态交织的复杂推理任务，特别是在文档智能、自动语音识别（ASR）、音视频联合理解以及代理式计算机使用（Agentic Computer Use）等领域。

核心内容

Nemotron 3 Nano Omni 是一个全新的全模态理解模型，其设计初衷是为了处理现实世界中的文档分析、多图像推理、自动语音识别、长音视频理解、代理式计算机使用以及通用推理任务。它在架构、训练方法和性能指标上均进行了显著革新。

性能表现与基准测试

Nemotron 3 Nano Omni 在多个关键领域的基准测试中取得了领先成绩：

文档智能：在 MMlongbench-Doc 和 OCRBenchV2 等复杂文档智能排行榜上，其准确率处于行业顶尖水平。
音视频理解：在 WorldSense 和 DailyOmni 等视频和音频排行榜上名列前茅。
音频理解：在 VoiceBench 上实现了最高的准确率。
效率指标：在 MediaPerf 上被评为最具成本效益的开源视频理解模型。

与同类的开源全模态模型（如 Qwen3-Omni）相比，Nemotron 3 Nano Omni 在许多领域均表现出色。特别是在系统效率方面，相较于具有相同交互性的其他开源全模态模型，它在多文档用例中的系统效率提高了 7.4 倍，在视频用例中提高了 9.2 倍。相比替代方案，它在多模态用例中可提供高达 9 倍的吞吐量，单流推理速度提升 2.9 倍。

五大核心应用场景

该模型主要面向以下五类工作负载：

现实世界文档分析：这不仅仅是光学字符识别（OCR）。该模型专为处理长篇幅、杂乱但高价值的文档而设计，其理解能力依赖于对布局、表格、图表、公式、章节结构以及跨页引用的综合把握。典型应用场景包括合同、技术论文、报告、手册、多页表单或合规数据包。模型能够处理超过 100 页的文档。
自动语音识别（ASR）：具备强大的语音理解能力，能够在多样化的音频条件下实现高质量转录。它支持长音频处理，能够应对不同说话人、口音和背景噪声。这些能力可集成到更广泛的工作流中，将口语内容转录、分析，并结合其他模态进行摘要、问答和跨模态推理。
长音视频理解：许多企业和开发者工作流依赖于混合音频和视觉证据，例如带旁白的屏幕录制、培训视频、带有幻灯片的会议、教程、产品演示、客户支持录屏以及长视频档案。Nemotron 3 Nano Omni 被设计为能够对这些输入进行联合推理。
代理式计算机使用（Agentic Computer Use）：该模型专门针对代理式计算机使用进行了训练，使其能够协助图形用户界面（GUI）环境中的任务。其能力包括解释截图、监控用户界面状态、将推理基于屏幕视觉内容，并辅助进行动作选择或工作流自动化。
通用多模态推理：模型不仅限于感知，更擅长需要综合长上下文窗口、多模态和结构化/半结构化证据的推理密集型任务。它能够执行多步推理、进行计算，并连接来自文本、图像、表格和其他输入的信号，以得出连贯且有据可依的答案。

模型架构与创新技术

Nemotron 3 Nano Omni 采用统一的编码器-投影器-解码器设计。其语言骨干网为 Nemotron 3 Nano 30B-A3B，配合 C-RADIOv4-H 视觉编码器和 Parakeet-TDT-0.6B-v2 音频编码器。特定模态的编码器通过轻量级投影器连接到 LLM 骨干网。

混合 Mamba-Transformer-MoE 骨干网：骨干网交错排列了三个关键组件：用于高效长上下文处理的 23 层 Mamba 选择性状态空间层；具有 128 个专家、Top-6 路由和共享专家的 23 层 MoE（混合专家）层，以提供条件容量；以及 6 层分组查询注意力（GQA）层，以保持强大的全局交互性和表达能力。这种设计结合了状态空间模型、注意力和 MoE，在保持强大推理性能的同时，使其适用于长多模态上下文。
动态分辨率处理：在视觉侧，Nemotron 3 Nano Omni 取代了 v2 模型中的分块策略，采用原生纵横比的动态分辨率处理。每张图片可以使用可变数量的 16x16 补丁表示，每张图片最少 1,024 个，最多 13,312 个视觉补丁（相当于 512x512 到 1840x1840 的正方形图像）。这种灵活性对于处理高分辨率、复杂的视觉输入（如 OCR 密集型文档、财务表格、幻灯片、研究图表、截图和 GUI 布局）至关重要，能够同时理解细节和整体结构。
Conv3D 时间压缩：针对视频，模型使用专用的 Conv3D 管状嵌入路径。它不是独立嵌入每一帧，而是将每对连续帧融合成一个单一的“管状块”（tubelet），从而将语言模型需要关注的视觉令牌数量减半。这使得在相同的令牌预算下可以处理双倍的帧数，或在相同帧数下减少一半的令牌。
EVS（高效视频采样）： EVS 是一个在推理时启用的重要功能，用于在视觉编码器之后丢弃冗余的视频令牌，从而降低延迟并提高吞吐量，同时保持准确性。它保留视频的第一帧，对于后续帧，EVS 保留视频发生变化的“动态”令牌，而丢弃与前一帧没有变化的“静态”令牌。EVS 与 Conv3D 结合使用，实现了更优越的压缩效果。
原生音频输入：音频侧由 Parakeet-TDT-0.6B-v2 提供支持，通过其自己的 2 层 MLP 投影器连接到骨干网。音频采样率为 16 kHz，模型训练输入长达 1,200 秒（20 分钟），而 LLM 的最大上下文长度支持 5 小时以上。这代表了传统 VLM 管道的转变，允许在共享的多模态序列中进行原生音频处理，使音频、视觉和文本令牌能够被联合建模。这对于带旁白的屏幕录制、语音改变视觉含义的视频问答、长篇幅指导或会议内容以及需要时间接地多模态推理的任务至关重要。

关键要点

全模态扩展：Nemotron 3 Nano Omni 将 Nemotron 多模态产品线从强大的视觉-语言系统扩展为涵盖文本、图像、视频和音频的更广泛模型。
行业领先性能：在 MMlongbench-Doc、OCRBenchV2、WorldSense、DailyOmni 和 VoiceBench 等关键基准测试中取得最佳或领先成绩，并在 MediaPerf 上被评为最具成本效益的开源视频理解模型。
极致效率：相比具有相同交互性的其他开源全模态

查看原文 →huggingface.co