技术博客arXiv cs.CL·3 小时前

Dynamic-dLLM：免训练加速扩散大模型推理

原标题：Dynamic-dLLM: Dynamic Cache-Budget and Adaptive Parallel Decoding for Training-Free Acceleration of Diffusion LLM

速览

扩散大模型（dLLM）因计算复杂度高且缺乏键值缓存兼容性，在长序列应用中面临挑战。Dynamic-dLLM提出动态缓存更新和自适应并行解码机制，无需训练即可优化推理效率。实验表明，该方法在保持性能的同时，平均加速超过3倍，优于现有最先进加速方案。

AI 深度解读

Dynamic-dLLM：无需训练的扩散语言模型加速新范式

背景

扩散语言模型（Diffusion Large Language Models, dLLMs）作为自回归模型（Autoregressive Models）的有力替代方案，近年来在文本生成领域展现出巨大潜力。与自回归模型不同，dLLMs 利用双向注意力机制（Bidirectional Attention Mechanisms），能够同时考虑上下文信息，从而在生成质量上表现出显著优势。

然而，dLLMs 的广泛应用面临着一个严峻的计算瓶颈：其计算复杂度随序列长度 $L$ 呈立方级增长（$O(L^3)$）。这一特性使得 dLLMs 在处理长序列或需要实时响应的应用场景时显得力不从心。造成这一问题的核心原因主要有两点：

缺乏对键值缓存（Key-Value Caching）的兼容性：传统的自回归模型可以通过缓存历史状态的键值对来避免重复计算，但 dLLMs 的去噪步骤（Denoising Steps）具有非自回归特性，难以直接应用这一优化手段。
去噪步骤的非自回归性质：dLLMs 的生成过程涉及多个去噪迭代步骤，每一步都需要对序列进行全局处理，导致计算开销巨大。

现有的加速方法通常依赖于静态缓存策略或固定的并行解码策略。这些方法未能充分考虑到 token 属性在模型不同层（Layers）和解码步骤（Decoding Steps）中的动态变化行为，因此在效率提升上遇到了天花板，难以在保持生成质量的同时实现大幅度的加速。

核心内容

针对上述挑战，研究人员提出了 Dynamic-dLLM，这是一个无需训练（Training-Free）的框架，旨在通过两个核心组件增强 dLLM 的推理效率：动态缓存更新（Dynamic Cache Updating, DCU） 和 自适应并行解码（Adaptive Parallel Decoding, APD）。

1. 动态缓存更新 (DCU)

DCU 组件的核心思想是“按需分配”。它不再对所有层和所有 token 使用统一的缓存更新预算，而是根据 token 属性在各层之间的动态变化，自适应地分配缓存更新的资源。

层间动态感知：研究指出，不同层对 token 信息的敏感度不同。DCU 通过监测 token 在层间的动态行为，识别出哪些层需要更频繁的缓存更新以维持准确性，哪些层可以容忍较低的更新频率。
预算自适应分配：基于上述感知，DCU 动态调整缓存更新的预算。对于关键层或变化剧烈的 token，分配更多的计算资源进行缓存更新；对于次要部分，则减少更新频率，从而在保证整体生成质量的前提下，显著降低计算开销。

2. 自适应并行解码 (APD)

APD 组件旨在解决去噪步骤中的并行化效率问题。传统的并行解码往往使用固定的阈值来控制生成质量与速度的平衡，而 APD 则引入了动态校准机制。

动态阈值校准：APD 能够根据当前的解码状态和生成进度，动态调整解码阈值。在生成初期或不确定性较高的阶段，可能采用更严格的阈值以保证质量；而在生成后期或确定性较高的阶段，则放宽阈值以加速生成。
质量与效率的平衡：通过这种动态校准，APD 能够在不同阶段灵活地在生成质量和推理速度之间找到最佳平衡点，避免了静态策略可能导致的“过度保守”或“质量损失”问题。

实验验证

研究人员在多个主流 dLLM 模型（如 LLaDA-8B-Instruct、LLaDA-1.5 和 Dream-v0-7B-Instruct）以及多个基准测试集（包括 MMLU、GSM8K 和 HumanEval）上对 Dynamic-dLLM 进行了广泛实验。

结果表明，Dynamic-dLLM 显著提升了推理速度，平均加速比超过 3倍，同时保持了模型原有的性能水平。与现有的最先进（State-of-the-Art）加速方法相比，Dynamic-dLLM 表现更优，并提供了一种即插即用（Plug-and-Play）的解决方案，使得 dLLM 的高效部署成为可能，而无需牺牲生成质量。

关键要点

无需训练：Dynamic-dLLM 是一个即插即用的框架，无需对基础模型进行额外的微调或训练，即可直接应用于现有的 dLLM 架构。
双重加速机制：
- DCU（动态缓存更新）：基于层间 token 动态变化，自适应分配缓存更新预算，解决长序列计算复杂度高的问题。
- APD（自适应并行解码）：动态校准解码阈值，灵活平衡生成质量与推理速度，优化去噪步骤的效率。
显著的性能提升：在 LLaDA 和 Dream 系列模型上的实验显示，Dynamic-dLLM 实现了平均超过 3倍的推理加速。
性能无损：在大幅提升速度的同时，Dynamic-dLLM 保持了模型在 MMLU、GSM8K、HumanEval 等基准测试中的原有性能水平，优于现有的静态加速方法。
开源支持：相关代码已开源，便于社区复现和进一步开发。

意义与影响

Dynamic-dLLM 的提出对于扩散语言模型的实际应用具有重要的推动作用。

首先，它解决了 dLLMs 长期以来的计算效率瓶颈。通过引入动态缓存和自适应解码机制，Dynamic-dLLM 使得 dLLMs 在处理长序列和实时生成任务时变得更加可行，拓宽了其应用场景。

其次，其“无需训练”的特性降低了部署门槛。开发者无需重新训练庞大的基础模型，即可通过简单的集成方式获得显著的性能提升，这对于工业界的快速落地至关重要。

最后，Dynamic-dLLM 为 dLLM 的优化提供了新的思路。它强调了在模型推理过程中，应充分考虑 token 属性和计算资源的动态变化，而非采用静态、一刀切的策略。这一理念可能对未来其他非自回归模型或生成式模型的加速研究产生启发，推动整个领域向更高效、更智能的推理架构发展。

查看原文 →arxiv.org