技术博客arXiv cs.CL·1 小时前

Nemotron 3 Ultra：开源高效混合Mamba-Transformer智能体推理模型

原标题：Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

速览

英伟达推出Nemotron 3 Ultra，这是一个拥有5500亿总参数和550亿激活参数的混合Mamba-Attention语言模型。该模型在20万亿文本token上预训练，并采用LatentMoE、MTP及NVFP4等关键技术，实现了100万token的长上下文支持。其推理吞吐量较当前顶尖开源大模型提升约6倍，且精度持平，专为长周期自主智能体任务设计。目前，基础模型、后训练模型、量化检查点及训练数据已开源至HuggingFace。

AI 深度解读

Nemotron 3 Ultra：面向智能体推理的开源高效混合 Mamba-Transformer 模型深度解读

背景

随着大语言模型（LLM）在复杂任务中的表现日益增强，尤其是“智能体”（Agentic）应用——即能够自主规划、执行多步操作并与环境交互的 AI 系统——对模型提出了前所未有的要求。这类任务通常涉及长周期的上下文依赖、复杂的逻辑推理以及高昂的计算成本。

目前，虽然主流开源模型在准确率上取得了显著进步，但在推理吞吐量（Inference Throughput）和上下文长度支持上仍存在瓶颈。传统的 Transformer 架构在处理超长上下文时，注意力机制的计算复杂度呈二次方增长，导致推理速度受限。与此同时，混合架构（Hybrid Architectures）如结合 Mamba（状态空间模型）与 Transformer 的技术，因其线性复杂度的优势，成为提升效率的关键方向。

在此背景下，NVIDIA 发布了 Nemotron 3 Ultra。该模型旨在解决上述痛点，通过结合先进的混合架构、高效的训练策略以及针对智能体场景优化的后训练技术，实现高准确率与高推理效率的平衡。

核心内容

Nemotron 3 Ultra 是一款由 NVIDIA 开发的开源大型语言模型，其核心设计理念是“开放、高效、面向智能体推理”。以下是该模型的技术细节与训练流程详解：

1. 模型架构与规模

混合架构：Nemotron 3 Ultra 采用了 Mixture-of-Experts (MoE) 混合 Mamba-Attention 架构。这种设计结合了 Mamba 在处理序列数据时的高效线性复杂度优势，以及 Transformer 在捕捉全局依赖关系上的强大能力。
参数规模：模型总参数量为 5500 亿（550B），但通过 MoE 机制，每次推理仅激活 550 亿（55B） 参数。这种稀疏激活机制大幅降低了计算资源需求，同时保持了大模型的表达能力。

2. 预训练阶段

数据规模：模型在 20 万亿（20T） 文本 token 上进行了预训练。这一庞大的数据集确保了模型在通用知识和语言理解上的深厚基础。
上下文扩展：预训练后，模型通过特定技术将上下文窗口（Context Length）扩展至 100 万（1M）tokens。这一特性对于需要处理长文档、长代码库或长期对话历史的智能体任务至关重要。

3. 后训练（Post-Training）流程

为了提升模型的推理能力和指令遵循能力，Nemotron 3 Ultra 经历了复杂的后训练阶段，包括：

监督微调（SFT）：使用高质量指令数据对模型进行微调，使其更好地响应用户需求。
强化学习（RL）：引入多环境强化学习验证（RLVR, Reinforcement Learning with Verifiable Rewards），通过奖励信号优化模型的决策路径和逻辑推理能力。
多教师在线策略蒸馏（MOPD）：采用 Multi-teacher On-Policy Distillation 技术，从多个教师模型中提取知识，进一步提升模型性能。

4. 关键技术突破

Nemotron 3 Ultra 集成了多项前沿技术以优化性能：

LatentMoE：一种改进的混合专家机制，可能涉及潜在空间中的专家选择或激活策略，以优化稀疏性。
多令牌预测（MTP, Multi Token Prediction）：在训练过程中预测多个后续 token，而非仅下一个 token，有助于加速收敛并提升生成效率。
NVFP4 预训练：采用 NVIDIA 定制的 FP4（4位浮点数）精度进行预训练。这是一种极致的量化技术，能够在几乎不损失精度的情况下，大幅降低内存占用和计算量，从而提升吞吐量。
推理预算控制（Reasoning Budget Control）：针对智能体任务，模型具备控制推理资源分配的能力，避免在简单任务上过度消耗算力，或在复杂任务上算力不足。

5. 性能表现

推理吞吐量：与当前最先进的公开可用 LLM 相比，Nemotron 3 Ultra 的推理吞吐量提高了约 6 倍。
准确率：在保持高吞吐量的同时，模型在各项基准测试中达到了同等甚至领先的准确率水平。
适用场景：高准确率、高吞吐量以及 1M 的长上下文窗口，使其成为运行长期、自主智能体任务（Long-running autonomous agentic tasks）的理想选择。

6. 开源资源

NVIDIA 在 Hugging Face 上开源了以下内容：

基础模型（Base）检查点
后训练模型（Post-trained）检查点
量化模型检查点
训练数据
训练配方（Recipe）

关键要点

架构创新：采用 5500 亿总参数、550 亿激活参数的 MoE 混合 Mamba-Transformer 架构，兼顾了模型容量与推理效率。
极致效率：通过 NVFP4 预训练和 MTP 等技术，实现了比现有先进公开 LLM 高约 6 倍的推理吞吐量。
超长上下文：支持 100 万 tokens 的上下文窗口，能够处理极长的文档、代码或对话历史。
智能体优化：专为 Agentic Reasoning（智能体推理）设计，集成了多环境 RLVR 和推理预算控制，适合自主、长期的任务执行。
全链路开源：在 Hugging Face 开源了基础、后训练、量化模型及训练数据与配方，促进了社区研究和应用开发。
多阶段训练：结合了 20T token 预训练、SFT、RL 和 MOPD 蒸馏，确保了模型在通用能力和特定任务上的高性能。

意义与影响

Nemotron 3 Ultra 的发布标志着开源大模型在“效率”与“能力”平衡上的又一里程碑。其意义主要体现在以下几个方面：

推动智能体（Agent）落地：智能体应用对实时性和长上下文有极高要求。Nemotron 3 Ultra 的高吞吐量和 1M 上下文窗口，直接解决了智能体在处理复杂、长周期任务时的性能瓶颈，使得在资源受限环境下部署大型智能体成为可能。
混合架构的实用化验证：该模型成功证明了 Mamba 与 Transformer 混合架构在超大规模语言模型中的可行性。相比纯 Transformer，混合架构在保持精度的同时显著降低了计算复杂度，为未来模型架构演进提供了重要参考。
量化技术的突破：NVFP4 预训练技术的应用，展示了极低精度量化在保持模型性能方面的巨大潜力。这不仅降低了推理成本，也为在边缘设备或大规模集群中部署超大模型提供了新路径。
开源生态的贡献：通过开源模型、数据及训练配方，NVIDIA 降低了研究人员和企业开发者的门槛，加速了基于高效大模型的创新应用开发，有助于构建更加开放和协作的 AI 生态系统。

综上所述，Nemotron 3 Ultra 不仅是一个性能强大的语言模型，更是面向下一代智能体应用的基础设施，其技术路线对行业具有深远的指导意义。

查看原文 →arxiv.org