AI 资讯爱范儿·1 小时前

DeepSeek发布DSpark框架，大模型生成速度提升超60%

原标题：DeepSeeK 突然发布 DSpark，让 AI 的回答不再「挤牙膏」

速览

DeepSeek与北京大学联合发布DSpark推理加速框架，旨在解决大模型自回归生成速度慢的问题。该框架采用半自回归架构与基于置信度的调度验证机制，已在DeepSeek-V4系列模型中替代旧方案。实测显示，在相同吞吐下，单用户生成速度提升57%至85%，显著优化了实时交互体验。

AI 深度解读

背景

当前大语言模型（LLM）在生成文本时，普遍采用自回归（autoregressive）方式。这意味着模型每生成一个新的 token，都需要基于前文进行一次完整的前向计算。这种机制导致输出越长，解码步骤越多，延迟累积越严重。对于实时聊天、多轮 Agent workflow（智能体工作流）以及代码助手等高交互场景，生成速度直接决定了用户体验和 GPU 的利用率。

为了解决这一痛点，推测解码（speculative decoding）成为主流加速方案。其核心逻辑是引入一个轻量级的草稿模型（draft model）先生成一串候选 token，再由负责质量的目标模型（target model）并行验证这些候选 token。通过验证的 token 被接受，未通过则触发修正。虽然推测解码能显著提升速度，但现有方案存在明显局限：

自回归草稿模型（如 Eagle3）：生成连贯性好，但速度慢，因为仍需逐个生成候选 token。
并行草稿模型（如 DFlash）：速度快，但候选 token 间缺乏依赖关系，容易出现“后缀衰减”（suffix decay），即越往后 token 被接受概率越低，且在真实高并发服务中，验证大量低概率被接受的 token 会浪费批处理容量（batch capacity），影响整体吞吐。

DeepSeek 与北京大学团队联合发布的 DSpark 框架，旨在解决上述矛盾，特别是在生产环境中平衡生成速度与系统负载。

核心内容

DSpark 提出了一套名为“置信度调度推测解码”（Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation）的新框架，主要包含生成侧和验证侧两方面的创新。

生成侧：半自回归架构（Semi-Autoregressive Architecture）

DSpark 试图结合并行草稿模型的速度和自回归草稿模型的连贯性。

主干结构：保留并行草稿模型的主干，利用其一次性生成多个候选 token 的高速特性。
顺序模块：在输出端加入一个轻量级的顺序模块，让后续 token 能够参考前面已采样的 token，以增强块内的依赖关系。
具体实现：论文默认使用 Markov head 来建模相邻 token 间的转移关系，因其计算成本低且部署方便；同时也测试了 RNN head，但认为其收益有限且复杂度高。

这种架构的目标是：在保留并行生成速度的同时，通过轻量级顺序建模减少“后缀衰减”，提高候选 token 的整体质量。

验证侧：基于置信度调度的验证（Confidence-Scheduled Verification）

DSpark 不再机械地验证固定长度的候选块，而是根据系统状态动态调整验证策略。

置信度评分：系统为每个候选位置预测一个 confidence score，表示在前序 token 均被接受的前提下，当前 token 被接受的概率。
硬件感知前缀调度器：根据三个因素动态决定验证长度：
1. 当前系统负载。
2. 候选位置的置信度分数。
3. 引擎在不同 batch size 下的吞吐曲线（throughput curve）。
动态调整：
- 资源宽松时：验证更长的 prefix（前缀），最大化单次前向计算的有效输出。
- 负载升高时：缩短低置信度请求的验证长度，减少对 target model batch capacity 的占用，避免拖累其他用户请求。

实验与线上部署效果

离线实验：在 Qwen3-4B/8B/14B 和 Gemma4-12B 等目标模型上测试，DSpark 相比 Eagle3（自回归代表）和 DFlash（并行代表）在宏平均接受长度（macro-average accepted length）上均有显著提升。例如，在 Qwen3-14B 上，DSpark 相比 Eagle3 提升 30.0%，相比 DFlash 提升 18.3%。
任务差异：数学和代码任务的结构化特性使其接受长度（约 5.1-5.6）高于开放式聊天任务（约 3.5），验证了动态调整验证长度的必要性。
线上生产环境：DSpark 已部署于 DeepSeek-V4-Flash preview 和 DeepSeek-V4-Pro preview 的生产服务中，替代了此前的 MTP-1 方案。
- DeepSeek-V4-Flash：单用户生成速度提升 60% 至 85%。在 120 token/s/user 的严格 SLA 下，系统总吞吐名义优势达 661%。
- DeepSeek-V4-Pro：单用户生成速度提升 57% 至 78%。在 50 token/s/user 的严格目标下，名义吞吐优势达 406%。

关键要点

架构创新：DSpark 采用半自回归架构，结合并行生成的速度与轻量级顺序模块的连贯性，有效缓解了并行草稿模型的后缀衰减问题。
动态调度：引入基于置信度的验证调度机制，根据系统负载和 token 接受概率动态调整验证长度，避免了高并发下对计算资源的无效占用。
性能提升：在生产环境中，DSpark 使 DeepSeek-V4-Flash 单用户生成速度提升 60%-85%，V4-Pro 提升 57%-78%。
资源效率：通过动态调整，DSpark 在维持高吞吐的同时，显著降低了因验证低质量候选 token 造成的资源浪费，特别是在高并发、强 SLA 约束场景下优势明显。
开源贡献：DeepSeek 开源了 DSpark 的模型权重（针对 V4-Flash 和 V4-Pro preview）以及 DeepSpec 代码库（包含 Eagle3、DFlash 和 DSpark 的实现），推动了推测解码训练技术的发展。

意义与影响

DSpark 的发布标志着大模型推理加速从单纯的“模型结构优化”向“系统工程与调度优化”深化。

打破性能瓶颈：传统推测解码方案在离线基准测试中表现优异，但在真实高并发线上环境中往往因资源调度不当而失效。DSpark 通过硬件感知的动态调度，解决了这一痛点，证明了推理加速不仅是算法问题，更是系统工程问题。
降低服务成本：通过提高单位计算资源的有效输出（accepted length），DSpark 能够以更低的 GPU 成本提供同等甚至更高质量的服务，有助于降低 AI 应用的边际成本。
开源生态推动：DeepSeek 选择将这一经过生产验证的核心加速技术开源，不仅展示了其在技术上的自信，也为行业提供了可复用的最佳实践。这与部分闭源厂商形成对比，有助于加速整个 AI 基础设施的效率提升。
用户体验升级：对于终端用户而言，DSpark 意味着更流畅的实时对话体验、更快的代码生成响应以及更稳定的多轮交互能力，直接提升了 AI 产品的可用性和吸引力。

总之，DSpark 是 LLM 推理优化领域的一个重要里程碑，它展示了如何通过精细化的系统调度，将模型的理论性能转化为真实的线上生产力。

查看原文 →ifanr.com