迈向光速文本生成:Nemotron-Labs扩散语言模型
速览
Nemotron-Labs发布了一种基于扩散过程的新型语言模型,旨在突破传统自回归生成的速度瓶颈。该模型通过并行去噪机制,实现了接近光速的文本生成效率。这一进展有望大幅降低大模型推理延迟,推动实时AI应用的落地。
AI 深度解读
迈向光速文本生成:Nemotron-Labs 扩散语言模型深度解读
背景
大型语言模型(LLMs)已成为代码生成、数学解题、摘要生成、文档理解以及众多开发者工作流中的默认接口。然而,在这些模型底层,许多 LLM 仍然采用相同的方式生成文本:一次生成一个 token,且每个 token 都依赖于之前出现的 token。因此,这些模型被称为自回归(Autoregressive, AR)模型,因为它们会消耗自身的输出。
自回归(AR)方法取得了显著成功。它训练稳定、部署简单,并推动了现代语言建模的许多进展。但它也设定了一个硬性限制:每生成一个新 token 都需要进行一次完整的模型前向传播,且在计算开始前,必须将所有权重从内存中加载。对于构建延迟敏感型应用的开发者,或尝试运行较小 batch size、更充分利用现代 GPU 的开发者而言,逐 token 生成可能导致性能潜力未被完全释放,因为 GPU 的大部分时间都花费在内存操作上,而非计算上。
此外,一旦自回归模型生成了某个 token,该 token 即为最终结果,模型本身不具备修订先前 token 的能力。因此,错误可能会在生成过程中传播。
Nemotron-Labs Diffusion 开辟了一条新路径:扩散语言模型(Diffusion Language Models, DLM)。这类模型通过并行生成多个 token,然后在多个步骤中迭代优化生成的 token。这不仅使模型能更好地利用现代 GPU 的计算模式,提供显著的运行时性能优势,还能修订已生成的 token,使其更适合修订现有文本和处理“中间填充”(fill-in-the-middle)任务。这种“生成-优化”属性还提供了内置的推理预算控制方式。通过减少优化步骤数,可以在运行时降低这些模型的计算需求。
核心内容
Nemotron-Labs Diffusion 系列包含 3B、8B 和 14B 规模的文本模型,均基于商业友好的 NVIDIA Nemotron 开源模型许可证发布。此外,还发布了一个 8B 规模的视觉语言模型(VLM),基于 NVIDIA 源代码许可证发布,提供了广泛的研究灵活性。该系列同时发布了基础模型和经过指令微调的聊天变体。NVIDIA 还通过 NVIDIA Megatron Bridge 框架发布了训练这些模型的代码。
单一模型中的三种生成模式
Nemotron-Labs Diffusion 的设计理念基于一个简单的想法:自回归和扩散生成不应是独立的模型家族,而应成为同一模型的能力。该模型支持三种生成模式:
- 自回归模式(Autoregressive mode):像标准的从左到右的 LLM 一样运行。这保持了与开发者已熟悉的生成工作流的兼容性。
- 扩散模式(Diffusion mode):以块(block)为单位生成,通过多个步骤逐步生成 token。
- 自推测模式(Self-speculation mode):利用扩散机制草拟多个候选 token,然后使用自回归解码对其进行验证。这种模式结合了扩散式草拟的速度潜力和 AR 验证的可靠性。
这种灵活设计是关键开发者功能,适用于对速度和准确性都有要求的工作负载,即使是在 batch size 不可预测或单个查询(batch size=1)的情况下也是如此。选择所需的推理模式在应用层面几乎不需要任何更改,因为这是一个部署时设置。因此,开发者可以无缝切换,使用他们今天使用的模型,或在各种推理模式下使用 Nemotron-Labs Diffusion 以实现超快生成速度。
性能亮点
Nemotron-Labs Diffusion 8B 相比 Qwen3 8B,平均准确率提高了 1.2%。在推理速度方面,使用每前向传播 token 数(TPF,一种衡量 token 解码效率的硬件无关指标)进行测量,扩散模式比 AR 模型高出 2.6 倍 TPF。而自推测模式进一步将这一优势推高:线性自推测达到 6 倍,二次自推测达到 6.4 倍,且在评估任务中保持了相当的准确性。
训练方法
扩散语言模型多年来一直备受期待,但历史上存在实际障碍:准确率低于强大的 AR 模型、训练更困难以及与 KV 缓存的兼容性有限。
最近的研究改变了这一方向。Efficient-DLM 表明,预训练的 AR 模型可以通过继续预训练并将注意力机制改为块状方法,转换为扩散语言模型。这种设计有助于保留 AR 模型的能力,同时启用对 KV 缓存友好的并行解码。
Nemotron-Labs Diffusion 建立在相同的实用洞察之上:在现有的 AR 模型中添加扩散能力。该模型使用联合 AR 和扩散目标进行训练,使其在初始 AR 训练期间学到的知识得以保留,同时扩散增加了并行草拟能力。该模型在 NVIDIA Nemotron 预训练数据集的 1.3T 个 token 上进行预训练,并使用 NVIDIA Nemotron 后训练数据集的 45B 个 token 进行了额外的监督微调阶段。
通过 SGLang 进行部署和推理
Nemotron-Labs Diffusion 模型的部署将很快得到 SGLang 主分支的支持。截至撰写本文时,可通过 GitHub 上的 issue tracker 请求获得推理支持。
集成令人称道之处在于,它允许通过算法配置中的一行代码,以三种不同方式服务同一个 checkpoint:
- 纯自回归(Plain autoregressive):设置
ar_mode=true,模型行为像任何其他因果语言模型(causal LM)。适合作为正确性参考,或仅用于与纯 AR 输出进行健全性检查。 - 扩散模式(FastDiffuser):这是原始吞吐量的主打功能。模型通过迭代去噪每次填充一个 32 个 token 的块,置信度阈值决定哪些 token 在每一步是“足够好”以提交的。
- 自推测模式(LinearSpec):这是我们的最爱。同一模型双向草拟一个块,然后因果地验证它;任何匹配的前缀都会被提交。在 temperature 为 0 时,输出相对于 AR 是无损的,但在 B200 上的 speedbench 数据集上达到了约 865 tok/s 的速度——在相同硬件上约为自回归基线的 4 倍。
关键要点
- 范式突破:Nemotron-Labs Diffusion 引入了扩散语言模型(DLM),打破了传统自回归模型逐 token 生成的限制,实现了并行生成与迭代优化。
- 三种模式合一:单一模型支持自回归、扩散和自推测三种生成模式,开发者可通过部署时配置无缝切换,兼顾兼容性、速度与准确性。
- 性能显著提升:
- 准确率:8B 模型相比 Qwen3 8B 平均准确率提升 1.2%。
- 速度:扩散模式推理速度是 AR 模型的 2.6 倍;自推测模式(线性/二次)分别达到 6 倍和 6.4 倍。
- 实测数据:在 B200 GPU 上,自推测模式速度约为自回归基线的 4 倍(865 tok/s)。
- 训练策略创新:基于 Efficient-DLM 的思路,通过在现有 AR 模型上进行联合 AR 和扩散目标训练,保留了 AR 能力并增强了并行草拟能力。预训练数据为 1.3T tokens,后训练数据为 45B tokens。
- 开源与工具支持:模型基于 NVIDIA Nemotron 开源许可证发布,代码通过 NVIDIA Megatron Bridge 框架开源,并即将获得 SGLang 原生支持,降低了部署门槛。
- 灵活的资源控制:扩散模型的“生成-优化”特性允许通过调整优化步骤数来控制推理预算,为延迟敏感型应用提供了更精细的性能调优手段。
意义与影响
Nemotron-Labs Diffusion 将扩散式生成带入了开发者实际可用的形式:开源模型、熟悉的 AR 兼容性、扩散解码以及自推测加速功能集于一身。对于开发者而言,这意味着在不改变应用程序架构的前提下,获得了一种新的起草、优化、验证和加速文本生成的方式。
这一进展对 AI 基础设施和开发工作流具有深远影响:
- 缓解 GPU 内存瓶颈:通过并行生成和迭代优化,DLM 能更有效地利用现代 GPU 的计算资源,减少内存带宽压力,从而在延迟敏感型应用中实现更高的吞吐量。
- 增强文本修正能力:与传统 AR 模型
