技术博客Hugging Face Blog·12 天前

迈向光速文本生成：Nemotron-Labs扩散语言模型

原标题：Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models

速览

Nemotron-Labs发布了一种基于扩散过程的新型语言模型，旨在突破传统自回归生成的速度瓶颈。该模型通过并行去噪机制，实现了接近光速的文本生成效率。这一进展有望大幅降低大模型推理延迟，推动实时AI应用的落地。

AI 深度解读

迈向光速文本生成：Nemotron-Labs 扩散语言模型深度解读

背景

大型语言模型（LLMs）已成为代码生成、数学解题、摘要生成、文档理解以及众多开发者工作流中的默认接口。然而，在这些模型底层，许多 LLM 仍然采用相同的方式生成文本：一次生成一个 token，且每个 token 都依赖于之前出现的 token。因此，这些模型被称为自回归（Autoregressive, AR）模型，因为它们会消耗自身的输出。

自回归（AR）方法取得了显著成功。它训练稳定、部署简单，并推动了现代语言建模的许多进展。但它也设定了一个硬性限制：每生成一个新 token 都需要进行一次完整的模型前向传播，且在计算开始前，必须将所有权重从内存中加载。对于构建延迟敏感型应用的开发者，或尝试运行较小 batch size、更充分利用现代 GPU 的开发者而言，逐 token 生成可能导致性能潜力未被完全释放，因为 GPU 的大部分时间都花费在内存操作上，而非计算上。

此外，一旦自回归模型生成了某个 token，该 token 即为最终结果，模型本身不具备修订先前 token 的能力。因此，错误可能会在生成过程中传播。

Nemotron-Labs Diffusion 开辟了一条新路径：扩散语言模型（Diffusion Language Models, DLM）。这类模型通过并行生成多个 token，然后在多个步骤中迭代优化生成的 token。这不仅使模型能更好地利用现代 GPU 的计算模式，提供显著的运行时性能优势，还能修订已生成的 token，使其更适合修订现有文本和处理“中间填充”（fill-in-the-middle）任务。这种“生成-优化”属性还提供了内置的推理预算控制方式。通过减少优化步骤数，可以在运行时降低这些模型的计算需求。

核心内容

Nemotron-Labs Diffusion 系列包含 3B、8B 和 14B 规模的文本模型，均基于商业友好的 NVIDIA Nemotron 开源模型许可证发布。此外，还发布了一个 8B 规模的视觉语言模型（VLM），基于 NVIDIA 源代码许可证发布，提供了广泛的研究灵活性。该系列同时发布了基础模型和经过指令微调的聊天变体。NVIDIA 还通过 NVIDIA Megatron Bridge 框架发布了训练这些模型的代码。

单一模型中的三种生成模式

Nemotron-Labs Diffusion 的设计理念基于一个简单的想法：自回归和扩散生成不应是独立的模型家族，而应成为同一模型的能力。该模型支持三种生成模式：

自回归模式（Autoregressive mode）：像标准的从左到右的 LLM 一样运行。这保持了与开发者已熟悉的生成工作流的兼容性。
扩散模式（Diffusion mode）：以块（block）为单位生成，通过多个步骤逐步生成 token。
自推测模式（Self-speculation mode）：利用扩散机制草拟多个候选 token，然后使用自回归解码对其进行验证。这种模式结合了扩散式草拟的速度潜力和 AR 验证的可靠性。

这种灵活设计是关键开发者功能，适用于对速度和准确性都有要求的工作负载，即使是在 batch size 不可预测或单个查询（batch size=1）的情况下也是如此。选择所需的推理模式在应用层面几乎不需要任何更改，因为这是一个部署时设置。因此，开发者可以无缝切换，使用他们今天使用的模型，或在各种推理模式下使用 Nemotron-Labs Diffusion 以实现超快生成速度。

性能亮点

Nemotron-Labs Diffusion 8B 相比 Qwen3 8B，平均准确率提高了 1.2%。在推理速度方面，使用每前向传播 token 数（TPF，一种衡量 token 解码效率的硬件无关指标）进行测量，扩散模式比 AR 模型高出 2.6 倍 TPF。而自推测模式进一步将这一优势推高：线性自推测达到 6 倍，二次自推测达到 6.4 倍，且在评估任务中保持了相当的准确性。

训练方法

扩散语言模型多年来一直备受期待，但历史上存在实际障碍：准确率低于强大的 AR 模型、训练更困难以及与 KV 缓存的兼容性有限。

最近的研究改变了这一方向。Efficient-DLM 表明，预训练的 AR 模型可以通过继续预训练并将注意力机制改为块状方法，转换为扩散语言模型。这种设计有助于保留 AR 模型的能力，同时启用对 KV 缓存友好的并行解码。

Nemotron-Labs Diffusion 建立在相同的实用洞察之上：在现有的 AR 模型中添加扩散能力。该模型使用联合 AR 和扩散目标进行训练，使其在初始 AR 训练期间学到的知识得以保留，同时扩散增加了并行草拟能力。该模型在 NVIDIA Nemotron 预训练数据集的 1.3T 个 token 上进行预训练，并使用 NVIDIA Nemotron 后训练数据集的 45B 个 token 进行了额外的监督微调阶段。

通过 SGLang 进行部署和推理

Nemotron-Labs Diffusion 模型的部署将很快得到 SGLang 主分支的支持。截至撰写本文时，可通过 GitHub 上的 issue tracker 请求获得推理支持。

集成令人称道之处在于，它允许通过算法配置中的一行代码，以三种不同方式服务同一个 checkpoint：

纯自回归（Plain autoregressive）：设置 ar_mode=true，模型行为像任何其他因果语言模型（causal LM）。适合作为正确性参考，或仅用于与纯 AR 输出进行健全性检查。
扩散模式（FastDiffuser）：这是原始吞吐量的主打功能。模型通过迭代去噪每次填充一个 32 个 token 的块，置信度阈值决定哪些 token 在每一步是“足够好”以提交的。
自推测模式（LinearSpec）：这是我们的最爱。同一模型双向草拟一个块，然后因果地验证它；任何匹配的前缀都会被提交。在 temperature 为 0 时，输出相对于 AR 是无损的，但在 B200 上的 speedbench 数据集上达到了约 865 tok/s 的速度——在相同硬件上约为自回归基线的 4 倍。

关键要点

范式突破：Nemotron-Labs Diffusion 引入了扩散语言模型（DLM），打破了传统自回归模型逐 token 生成的限制，实现了并行生成与迭代优化。
三种模式合一：单一模型支持自回归、扩散和自推测三种生成模式，开发者可通过部署时配置无缝切换，兼顾兼容性、速度与准确性。
性能显著提升：
- 准确率：8B 模型相比 Qwen3 8B 平均准确率提升 1.2%。
- 速度：扩散模式推理速度是 AR 模型的 2.6 倍；自推测模式（线性/二次）分别达到 6 倍和 6.4 倍。
- 实测数据：在 B200 GPU 上，自推测模式速度约为自回归基线的 4 倍（865 tok/s）。
训练策略创新：基于 Efficient-DLM 的思路，通过在现有 AR 模型上进行联合 AR 和扩散目标训练，保留了 AR 能力并增强了并行草拟能力。预训练数据为 1.3T tokens，后训练数据为 45B tokens。
开源与工具支持：模型基于 NVIDIA Nemotron 开源许可证发布，代码通过 NVIDIA Megatron Bridge 框架开源，并即将获得 SGLang 原生支持，降低了部署门槛。
灵活的资源控制：扩散模型的“生成-优化”特性允许通过调整优化步骤数来控制推理预算，为延迟敏感型应用提供了更精细的性能调优手段。

意义与影响

Nemotron-Labs Diffusion 将扩散式生成带入了开发者实际可用的形式：开源模型、熟悉的 AR 兼容性、扩散解码以及自推测加速功能集于一身。对于开发者而言，这意味着在不改变应用程序架构的前提下，获得了一种新的起草、优化、验证和加速文本生成的方式。

这一进展对 AI 基础设施和开发工作流具有深远影响：

缓解 GPU 内存瓶颈：通过并行生成和迭代优化，DLM 能更有效地利用现代 GPU 的计算资源，减少内存带宽压力，从而在延迟敏感型应用中实现更高的吞吐量。
增强文本修正能力：与传统 AR 模型

查看原文 →huggingface.co