← 返回信息流
技术博客arXiv cs.CL·1 小时前

Nemotron 3 Ultra:开源高效混合Mamba-Transformer智能体推理模型

原标题:Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

速览

英伟达推出Nemotron 3 Ultra,这是一个拥有5500亿总参数和550亿激活参数的混合Mamba-Attention语言模型。该模型在20万亿文本token上预训练,并采用LatentMoE、MTP及NVFP4等关键技术,实现了100万token的长上下文支持。其推理吞吐量较当前顶尖开源大模型提升约6倍,且精度持平,专为长周期自主智能体任务设计。目前,基础模型、后训练模型、量化检查点及训练数据已开源至HuggingFace。

AI 深度解读

Nemotron 3 Ultra:面向智能体推理的开源高效混合 Mamba-Transformer 模型深度解读

背景

随着大语言模型(LLM)在复杂任务中的表现日益增强,尤其是“智能体”(Agentic)应用——即能够自主规划、执行多步操作并与环境交互的 AI 系统——对模型提出了前所未有的要求。这类任务通常涉及长周期的上下文依赖、复杂的逻辑推理以及高昂的计算成本。

目前,虽然主流开源模型在准确率上取得了显著进步,但在推理吞吐量(Inference Throughput)和上下文长度支持上仍存在瓶颈。传统的 Transformer 架构在处理超长上下文时,注意力机制的计算复杂度呈二次方增长,导致推理速度受限。与此同时,混合架构(Hybrid Architectures)如结合 Mamba(状态空间模型)与 Transformer 的技术,因其线性复杂度的优势,成为提升效率的关键方向。

在此背景下,NVIDIA 发布了 Nemotron 3 Ultra。该模型旨在解决上述痛点,通过结合先进的混合架构、高效的训练策略以及针对智能体场景优化的后训练技术,实现高准确率与高推理效率的平衡。

核心内容

Nemotron 3 Ultra 是一款由 NVIDIA 开发的开源大型语言模型,其核心设计理念是“开放、高效、面向智能体推理”。以下是该模型的技术细节与训练流程详解:

1. 模型架构与规模

  • 混合架构:Nemotron 3 Ultra 采用了 Mixture-of-Experts (MoE) 混合 Mamba-Attention 架构。这种设计结合了 Mamba 在处理序列数据时的高效线性复杂度优势,以及 Transformer 在捕捉全局依赖关系上的强大能力。
  • 参数规模:模型总参数量为 5500 亿(550B),但通过 MoE 机制,每次推理仅激活 550 亿(55B) 参数。这种稀疏激活机制大幅降低了计算资源需求,同时保持了大模型的表达能力。

2. 预训练阶段

  • 数据规模:模型在 20 万亿(20T) 文本 token 上进行了预训练。这一庞大的数据集确保了模型在通用知识和语言理解上的深厚基础。
  • 上下文扩展:预训练后,模型通过特定技术将上下文窗口(Context Length)扩展至 100 万(1M)tokens。这一特性对于需要处理长文档、长代码库或长期对话历史的智能体任务至关重要。

3. 后训练(Post-Training)流程

为了提升模型的推理能力和指令遵循能力,Nemotron 3 Ultra 经历了复杂的后训练阶段,包括:

  • 监督微调(SFT):使用高质量指令数据对模型进行微调,使其更好地响应用户需求。
  • 强化学习(RL):引入多环境强化学习验证(RLVR, Reinforcement Learning with Verifiable Rewards),通过奖励信号优化模型的决策路径和逻辑推理能力。
  • 多教师在线策略蒸馏(MOPD):采用 Multi-teacher On-Policy Distillation 技术,从多个教师模型中提取知识,进一步提升模型性能。

4. 关键技术突破

Nemotron 3 Ultra 集成了多项前沿技术以优化性能:

  • LatentMoE:一种改进的混合专家机制,可能涉及潜在空间中的专家选择或激活策略,以优化稀疏性。
  • 多令牌预测(MTP, Multi Token Prediction):在训练过程中预测多个后续 token,而非仅下一个 token,有助于加速收敛并提升生成效率。
  • NVFP4 预训练:采用 NVIDIA 定制的 FP4(4位浮点数)精度进行预训练。这是一种极致的量化技术,能够在几乎不损失精度的情况下,大幅降低内存占用和计算量,从而提升吞吐量。
  • 推理预算控制(Reasoning Budget Control):针对智能体任务,模型具备控制推理资源分配的能力,避免在简单任务上过度消耗算力,或在复杂任务上算力不足。

5. 性能表现

  • 推理吞吐量:与当前最先进的公开可用 LLM 相比,Nemotron 3 Ultra 的推理吞吐量提高了约 6 倍
  • 准确率:在保持高吞吐量的同时,模型在各项基准测试中达到了同等甚至领先的准确率水平。
  • 适用场景:高准确率、高吞吐量以及 1M 的长上下文窗口,使其成为运行长期、自主智能体任务(Long-running autonomous agentic tasks)的理想选择。

6. 开源资源

NVIDIA 在 Hugging Face 上开源了以下内容:

  • 基础模型(Base)检查点
  • 后训练模型(Post-trained)检查点
  • 量化模型检查点
  • 训练数据
  • 训练配方(Recipe)

关键要点

  • 架构创新:采用 5500 亿总参数、550 亿激活参数的 MoE 混合 Mamba-Transformer 架构,兼顾了模型容量与推理效率。
  • 极致效率:通过 NVFP4 预训练和 MTP 等技术,实现了比现有先进公开 LLM 高约 6 倍的推理吞吐量。
  • 超长上下文:支持 100 万 tokens 的上下文窗口,能够处理极长的文档、代码或对话历史。
  • 智能体优化:专为 Agentic Reasoning(智能体推理)设计,集成了多环境 RLVR 和推理预算控制,适合自主、长期的任务执行。
  • 全链路开源:在 Hugging Face 开源了基础、后训练、量化模型及训练数据与配方,促进了社区研究和应用开发。
  • 多阶段训练:结合了 20T token 预训练、SFT、RL 和 MOPD 蒸馏,确保了模型在通用能力和特定任务上的高性能。

意义与影响

Nemotron 3 Ultra 的发布标志着开源大模型在“效率”与“能力”平衡上的又一里程碑。其意义主要体现在以下几个方面:

  1. 推动智能体(Agent)落地:智能体应用对实时性和长上下文有极高要求。Nemotron 3 Ultra 的高吞吐量和 1M 上下文窗口,直接解决了智能体在处理复杂、长周期任务时的性能瓶颈,使得在资源受限环境下部署大型智能体成为可能。
  2. 混合架构的实用化验证:该模型成功证明了 Mamba 与 Transformer 混合架构在超大规模语言模型中的可行性。相比纯 Transformer,混合架构在保持精度的同时显著降低了计算复杂度,为未来模型架构演进提供了重要参考。
  3. 量化技术的突破:NVFP4 预训练技术的应用,展示了极低精度量化在保持模型性能方面的巨大潜力。这不仅降低了推理成本,也为在边缘设备或大规模集群中部署超大模型提供了新路径。
  4. 开源生态的贡献:通过开源模型、数据及训练配方,NVIDIA 降低了研究人员和企业开发者的门槛,加速了基于高效大模型的创新应用开发,有助于构建更加开放和协作的 AI 生态系统。

综上所述,Nemotron 3 Ultra 不仅是一个性能强大的语言模型,更是面向下一代智能体应用的基础设施,其技术路线对行业具有深远的指导意义。

查看原文 →arxiv.org