DeepSeek发布DSpark框架,大模型生成速度提升超60%
速览
DeepSeek与北京大学联合发布DSpark推理加速框架,旨在解决大模型自回归生成速度慢的问题。该框架采用半自回归架构与基于置信度的调度验证机制,已在DeepSeek-V4系列模型中替代旧方案。实测显示,在相同吞吐下,单用户生成速度提升57%至85%,显著优化了实时交互体验。
AI 深度解读
背景
当前大语言模型(LLM)在生成文本时,普遍采用自回归(autoregressive)方式。这意味着模型每生成一个新的 token,都需要基于前文进行一次完整的前向计算。这种机制导致输出越长,解码步骤越多,延迟累积越严重。对于实时聊天、多轮 Agent workflow(智能体工作流)以及代码助手等高交互场景,生成速度直接决定了用户体验和 GPU 的利用率。
为了解决这一痛点,推测解码(speculative decoding)成为主流加速方案。其核心逻辑是引入一个轻量级的草稿模型(draft model)先生成一串候选 token,再由负责质量的目标模型(target model)并行验证这些候选 token。通过验证的 token 被接受,未通过则触发修正。虽然推测解码能显著提升速度,但现有方案存在明显局限:
- 自回归草稿模型(如 Eagle3):生成连贯性好,但速度慢,因为仍需逐个生成候选 token。
- 并行草稿模型(如 DFlash):速度快,但候选 token 间缺乏依赖关系,容易出现“后缀衰减”(suffix decay),即越往后 token 被接受概率越低,且在真实高并发服务中,验证大量低概率被接受的 token 会浪费批处理容量(batch capacity),影响整体吞吐。
DeepSeek 与北京大学团队联合发布的 DSpark 框架,旨在解决上述矛盾,特别是在生产环境中平衡生成速度与系统负载。
核心内容
DSpark 提出了一套名为“置信度调度推测解码”(Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation)的新框架,主要包含生成侧和验证侧两方面的创新。
生成侧:半自回归架构(Semi-Autoregressive Architecture)
DSpark 试图结合并行草稿模型的速度和自回归草稿模型的连贯性。
- 主干结构:保留并行草稿模型的主干,利用其一次性生成多个候选 token 的高速特性。
- 顺序模块:在输出端加入一个轻量级的顺序模块,让后续 token 能够参考前面已采样的 token,以增强块内的依赖关系。
- 具体实现:论文默认使用 Markov head 来建模相邻 token 间的转移关系,因其计算成本低且部署方便;同时也测试了 RNN head,但认为其收益有限且复杂度高。
这种架构的目标是:在保留并行生成速度的同时,通过轻量级顺序建模减少“后缀衰减”,提高候选 token 的整体质量。
验证侧:基于置信度调度的验证(Confidence-Scheduled Verification)
DSpark 不再机械地验证固定长度的候选块,而是根据系统状态动态调整验证策略。
- 置信度评分:系统为每个候选位置预测一个 confidence score,表示在前序 token 均被接受的前提下,当前 token 被接受的概率。
- 硬件感知前缀调度器:根据三个因素动态决定验证长度:
- 当前系统负载。
- 候选位置的置信度分数。
- 引擎在不同 batch size 下的吞吐曲线(throughput curve)。
- 动态调整:
- 资源宽松时:验证更长的 prefix(前缀),最大化单次前向计算的有效输出。
- 负载升高时:缩短低置信度请求的验证长度,减少对 target model batch capacity 的占用,避免拖累其他用户请求。
实验与线上部署效果
- 离线实验:在 Qwen3-4B/8B/14B 和 Gemma4-12B 等目标模型上测试,DSpark 相比 Eagle3(自回归代表)和 DFlash(并行代表)在宏平均接受长度(macro-average accepted length)上均有显著提升。例如,在 Qwen3-14B 上,DSpark 相比 Eagle3 提升 30.0%,相比 DFlash 提升 18.3%。
- 任务差异:数学和代码任务的结构化特性使其接受长度(约 5.1-5.6)高于开放式聊天任务(约 3.5),验证了动态调整验证长度的必要性。
- 线上生产环境:DSpark 已部署于 DeepSeek-V4-Flash preview 和 DeepSeek-V4-Pro preview 的生产服务中,替代了此前的 MTP-1 方案。
- DeepSeek-V4-Flash:单用户生成速度提升 60% 至 85%。在 120 token/s/user 的严格 SLA 下,系统总吞吐名义优势达 661%。
- DeepSeek-V4-Pro:单用户生成速度提升 57% 至 78%。在 50 token/s/user 的严格目标下,名义吞吐优势达 406%。
关键要点
- 架构创新:DSpark 采用半自回归架构,结合并行生成的速度与轻量级顺序模块的连贯性,有效缓解了并行草稿模型的后缀衰减问题。
- 动态调度:引入基于置信度的验证调度机制,根据系统负载和 token 接受概率动态调整验证长度,避免了高并发下对计算资源的无效占用。
- 性能提升:在生产环境中,DSpark 使 DeepSeek-V4-Flash 单用户生成速度提升 60%-85%,V4-Pro 提升 57%-78%。
- 资源效率:通过动态调整,DSpark 在维持高吞吐的同时,显著降低了因验证低质量候选 token 造成的资源浪费,特别是在高并发、强 SLA 约束场景下优势明显。
- 开源贡献:DeepSeek 开源了 DSpark 的模型权重(针对 V4-Flash 和 V4-Pro preview)以及 DeepSpec 代码库(包含 Eagle3、DFlash 和 DSpark 的实现),推动了推测解码训练技术的发展。
意义与影响
DSpark 的发布标志着大模型推理加速从单纯的“模型结构优化”向“系统工程与调度优化”深化。
- 打破性能瓶颈:传统推测解码方案在离线基准测试中表现优异,但在真实高并发线上环境中往往因资源调度不当而失效。DSpark 通过硬件感知的动态调度,解决了这一痛点,证明了推理加速不仅是算法问题,更是系统工程问题。
- 降低服务成本:通过提高单位计算资源的有效输出(accepted length),DSpark 能够以更低的 GPU 成本提供同等甚至更高质量的服务,有助于降低 AI 应用的边际成本。
- 开源生态推动:DeepSeek 选择将这一经过生产验证的核心加速技术开源,不仅展示了其在技术上的自信,也为行业提供了可复用的最佳实践。这与部分闭源厂商形成对比,有助于加速整个 AI 基础设施的效率提升。
- 用户体验升级:对于终端用户而言,DSpark 意味着更流畅的实时对话体验、更快的代码生成响应以及更稳定的多轮交互能力,直接提升了 AI 产品的可用性和吸引力。
总之,DSpark 是 LLM 推理优化领域的一个重要里程碑,它展示了如何通过精细化的系统调度,将模型的理论性能转化为真实的线上生产力。
