← 返回信息流
AI 资讯雷峰网·4 小时前

DeepSeek联合北大开源DSpark,单用户推理提速60-85%

原标题:单用户提速 60-85% !DeepSeek 联手北大开源 DSpark ,突破推理加速工程问题

速览

DeepSeek联合北京大学发布并开源DSpark推理加速框架及DeepSpec全栈推测性解码框架。该框架通过半自回归生成架构和置信度调度验证两大核心设计,有效解决推测解码中的后缀衰减与算力浪费问题。实测显示,在DeepSeek-V4-Pro-DSpark等模型上,单用户生成速度提升60%至85%,显著优化了高并发场景下的系统吞吐量。

AI 深度解读

背景

2026年6月27日,DeepSeek 联合北京大学正式发布了推理加速框架 DSpark,并同步开源了支撑该版本的全栈推测性解码框架 DeepSpec。这是 DeepSeek 在完成 500 亿元融资后首次放出的开源新成果。

在 DeepSeek-V4-Pro-DSpark 和 DeepSeek-V4-Flash-DSpark 两款模型上,DSpark 将单用户生成速度提升了 60% 至 85%。相关论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》由梁文锋本人署名,代码库、论文及模型均已开源。

需要澄清的是,DeepSeek-V4-Pro-DSpark 并非全新架构的模型,而是在 DeepSeek-V4-Pro 基础上引入了推测性解码模块。此次更新的重点在于工程落地能力的优化,而非模型本身能力的迭代,旨在通过更聪明的推理方法让用户感知到明显的速度提升。

核心内容

大语言模型生成文本时通常采用自回归方式,每生成一个新 token 都需要一次完整的前向传播,导致推理延迟随输出长度线性增长。推测性解码(Speculative Decoding)通过“小模型生成草稿、大模型并行验证”的机制,在无损生成质量的前提下提升速度。然而,早期方案面临两大瓶颈:一是自回归草稿模型速度慢;二是并行草稿模型存在“后缀衰减”问题,即越往后的 token 准确率越低,且传统“全量验证”模式会将低置信度的无效 token 送入大模型验证,造成严重的算力浪费。

DSpark 通过以下两项核心设计解决了上述问题:

1. 半自回归生成架构(解决后缀衰减) 针对并行草稿模型忽略 token 间依赖关系导致的准确率下降问题,DSpark 采用了“并行主干 + 轻量串行头”的两阶段设计:

  • 并行主干:单次前向传播输出全块的基础 Logits 与隐藏态,保留了并行架构块长大、生成速度快的优势。
  • 轻量串行模块:在并行输出基础上叠加极简的串行单元(默认采用 Markov head),为每个位置的 token 补充前缀依赖的转移偏置。这一设计修正了并行独立生成导致的语义冲突,大幅缓解了尾部 token 接受率下滑的问题。
  • 效果:串行模块开销极小,但显著提升了接受长度。在 Qwen3 系列模型上,DSpark 的平均接受长度相对 DFlash 提升 16.3%-18.4%,相对 Eagle3 提升 26.7%-30.9%。随着草稿块长增加,DSpark 的优势进一步扩大,证明了局部自回归在速度-参数效率上优于单纯堆叠并行层。

2. 置信度调度验证(解决算力浪费) 为了从源头杜绝无效 token 占用验证算力,DSpark 设计了双层置信度调度机制:

  • 置信度预判:在草稿模型中加入轻便的打分模块(置信度头 Confidence Head),实时预测候选 token 的条件接受概率。为解决 AI 打分容易“自我感觉良好”的问题,搭配了“顺序温度缩放(STS)”校准方法,将概率预估误差从 3%-8% 降低至约 1%,确保判断依据可靠。
  • 硬件感知动态调度:基于预测试的引擎吞吐曲线,将验证长度选择转化为全局吞吐量最大化问题。利用贪心算法为每个请求动态分配验证预算:
    • 低负载时:自动拉长验证块,用满空闲算力,最大化单用户生成速度。
    • 高负载时:主动裁剪低价值 token,避免资源争抢,稳住系统整体吞吐量。

关键要点

  • 性能提升显著:在 DeepSeek-V4 线上服务中,相比前代 MTP-1 基线,V4-Flash 单用户生成速度提升 60%-85%,V4-Pro 提升 57%-78%。
  • 接受长度全面领先:在数学推理、代码生成、日常对话等 9 个数据集的离线基准测试中,DSpark 的平均接受长度全面超越当前业界 SOTA 方案(如 Eagle3 和 DFlash)。
  • 动态调度适配不同场景:结构化任务(数学、代码)接受长度更高,开放对话场景相对较低。DSpark 的动态调度策略能针对不同请求类型自动调整最优验证块长,实现加速收益最大化。
  • 高并发下的稳定性:传统静态方案在高并发下容易出现速度骤降,而 DSpark 的动态调度器能随并发压力平滑调整,全程保持速度稳定,提升了用户体验的一致性。
  • 降低推理优化门槛:配套开源的 DeepSpec 全栈训练工具链,使得中小开发者和轻量化应用也能以低成本实现高速大模型推理,推动了“每个小 app 都能用上大模型”的行业落地。

意义与影响

DSpark 的出现跳出了过往推测性解码技术非此即彼的局限,通过半自回归架构补齐了并行草稿的尾部准确率短板,并通过置信度动态调度解决了传统全量验证的算力浪费问题,完成了从草稿生成到在线验证的全链路协同优化。

这一成果不仅大幅降低了推理优化的工程门槛,使得“算力花在刀刃上”成为现实,更在工业界层面证明了高效推理加速技术的可行性。它让大模型在保持高服务质量(SLA)的同时,能够支撑更高的并发容量和更低的延迟,为 AI 应用的广泛普及提供了坚实的基础设施支持。

查看原文 →leiphone.com