AI 资讯雷峰网·4 小时前

DeepSeek联合北大开源DSpark，单用户推理提速60-85%

原标题：单用户提速 60-85% ！DeepSeek 联手北大开源 DSpark ，突破推理加速工程问题

速览

DeepSeek联合北京大学发布并开源DSpark推理加速框架及DeepSpec全栈推测性解码框架。该框架通过半自回归生成架构和置信度调度验证两大核心设计，有效解决推测解码中的后缀衰减与算力浪费问题。实测显示，在DeepSeek-V4-Pro-DSpark等模型上，单用户生成速度提升60%至85%，显著优化了高并发场景下的系统吞吐量。

AI 深度解读

背景

2026年6月27日，DeepSeek 联合北京大学正式发布了推理加速框架 DSpark，并同步开源了支撑该版本的全栈推测性解码框架 DeepSpec。这是 DeepSeek 在完成 500 亿元融资后首次放出的开源新成果。

在 DeepSeek-V4-Pro-DSpark 和 DeepSeek-V4-Flash-DSpark 两款模型上，DSpark 将单用户生成速度提升了 60% 至 85%。相关论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》由梁文锋本人署名，代码库、论文及模型均已开源。

需要澄清的是，DeepSeek-V4-Pro-DSpark 并非全新架构的模型，而是在 DeepSeek-V4-Pro 基础上引入了推测性解码模块。此次更新的重点在于工程落地能力的优化，而非模型本身能力的迭代，旨在通过更聪明的推理方法让用户感知到明显的速度提升。

核心内容

大语言模型生成文本时通常采用自回归方式，每生成一个新 token 都需要一次完整的前向传播，导致推理延迟随输出长度线性增长。推测性解码（Speculative Decoding）通过“小模型生成草稿、大模型并行验证”的机制，在无损生成质量的前提下提升速度。然而，早期方案面临两大瓶颈：一是自回归草稿模型速度慢；二是并行草稿模型存在“后缀衰减”问题，即越往后的 token 准确率越低，且传统“全量验证”模式会将低置信度的无效 token 送入大模型验证，造成严重的算力浪费。

DSpark 通过以下两项核心设计解决了上述问题：

1. 半自回归生成架构（解决后缀衰减） 针对并行草稿模型忽略 token 间依赖关系导致的准确率下降问题，DSpark 采用了“并行主干 + 轻量串行头”的两阶段设计：

并行主干：单次前向传播输出全块的基础 Logits 与隐藏态，保留了并行架构块长大、生成速度快的优势。
轻量串行模块：在并行输出基础上叠加极简的串行单元（默认采用 Markov head），为每个位置的 token 补充前缀依赖的转移偏置。这一设计修正了并行独立生成导致的语义冲突，大幅缓解了尾部 token 接受率下滑的问题。
效果：串行模块开销极小，但显著提升了接受长度。在 Qwen3 系列模型上，DSpark 的平均接受长度相对 DFlash 提升 16.3%-18.4%，相对 Eagle3 提升 26.7%-30.9%。随着草稿块长增加，DSpark 的优势进一步扩大，证明了局部自回归在速度-参数效率上优于单纯堆叠并行层。

2. 置信度调度验证（解决算力浪费） 为了从源头杜绝无效 token 占用验证算力，DSpark 设计了双层置信度调度机制：

置信度预判：在草稿模型中加入轻便的打分模块（置信度头 Confidence Head），实时预测候选 token 的条件接受概率。为解决 AI 打分容易“自我感觉良好”的问题，搭配了“顺序温度缩放（STS）”校准方法，将概率预估误差从 3%-8% 降低至约 1%，确保判断依据可靠。
硬件感知动态调度：基于预测试的引擎吞吐曲线，将验证长度选择转化为全局吞吐量最大化问题。利用贪心算法为每个请求动态分配验证预算：
- 低负载时：自动拉长验证块，用满空闲算力，最大化单用户生成速度。
- 高负载时：主动裁剪低价值 token，避免资源争抢，稳住系统整体吞吐量。

关键要点

性能提升显著：在 DeepSeek-V4 线上服务中，相比前代 MTP-1 基线，V4-Flash 单用户生成速度提升 60%-85%，V4-Pro 提升 57%-78%。
接受长度全面领先：在数学推理、代码生成、日常对话等 9 个数据集的离线基准测试中，DSpark 的平均接受长度全面超越当前业界 SOTA 方案（如 Eagle3 和 DFlash）。
动态调度适配不同场景：结构化任务（数学、代码）接受长度更高，开放对话场景相对较低。DSpark 的动态调度策略能针对不同请求类型自动调整最优验证块长，实现加速收益最大化。
高并发下的稳定性：传统静态方案在高并发下容易出现速度骤降，而 DSpark 的动态调度器能随并发压力平滑调整，全程保持速度稳定，提升了用户体验的一致性。
降低推理优化门槛：配套开源的 DeepSpec 全栈训练工具链，使得中小开发者和轻量化应用也能以低成本实现高速大模型推理，推动了“每个小 app 都能用上大模型”的行业落地。

意义与影响

DSpark 的出现跳出了过往推测性解码技术非此即彼的局限，通过半自回归架构补齐了并行草稿的尾部准确率短板，并通过置信度动态调度解决了传统全量验证的算力浪费问题，完成了从草稿生成到在线验证的全链路协同优化。

这一成果不仅大幅降低了推理优化的工程门槛，使得“算力花在刀刃上”成为现实，更在工业界层面证明了高效推理加速技术的可行性。它让大模型在保持高服务质量（SLA）的同时，能够支撑更高的并发容量和更低的延迟，为 AI 应用的广泛普及提供了坚实的基础设施支持。

查看原文 →leiphone.com

DeepSeek联合北大开源DSpark，单用户推理提速60-85%

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐