AI 资讯ReadHub 科技日报·2 小时前

DeepSeek与北大开源DSpark：高并发推理速度提升60%-85%

原标题：DeepSeek 与北大联合开源 DSpark：高并发推理速度提升 60% 至 85%

速览

DeepSeek联合北京大学发布并开源了DSpark推理加速框架，旨在解决大语言模型在高并发生产环境中的效率瓶颈。该框架已部署于DeepSeek-V4-Flash及V4-Pro服务引擎，相比基线方案，同等吞吐量下单用户生成速度提升60%至85%。DSpark通过半自回归架构与置信度调度验证机制，优化了计算资源分配，在数学推理、代码生成等任务上表现优于现有草稿模型。

AI 深度解读

背景

在大语言模型（LLM）走向大规模生产部署的过程中，高并发场景下的推理效率一直是核心瓶颈。尽管推测解码（Speculative Decoding）技术已被广泛研究，但在实际工程中，候选生成的质量与验证阶段的计算资源占用往往难以平衡，导致吞吐量提升有限。

在此背景下，DeepSeek 联合北京大学发布了 DSpark 推理加速框架。该框架旨在解决上述效率瓶颈，并已成功部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 的预览版服务引擎中。目前，相关的论文、训练代码等已在 GitHub 开源，标志着这一技术从理论走向大规模工业级应用的关键一步。

核心内容

DSpark 的核心创新在于针对推测解码中的两个主要痛点——候选生成质量不足和验证阶段计算资源浪费——提出了全新的架构与机制。

首先，在架构层面，DSpark 引入了半自回归架构（Semi-autoregressive Architecture）。传统自回归模型逐 token 生成，而 DSpark 通过并行主干网络一次性产出候选位置的隐藏状态（Hidden States）和基础 logits（Logits）。为了弥补并行计算带来的前缀依赖信息缺失，框架结合了一个轻量级的顺序模块，用于注入前缀依赖。这种设计显著提升了参数效率，使得模型能够在保持生成质量的同时，大幅减少计算步骤。

其次，在验证机制上，DSpark 提出了置信度调度验证机制（Confidence-based Scheduling Verification Mechanism）。该机制基于候选位置的置信度分数，通过一个硬件感知的前缀调度器（Hardware-aware Prefix Scheduler），动态决定每个请求的验证长度。这意味着系统可以根据硬件负载和请求特性，灵活分配计算资源，从而优化整体吞吐量。

在工程实现方面，DSpark 的草稿模型采用了特定架构，并在训练阶段实现了系统级优化，以降低通信复杂度和计算内存开销。在实际系统集成中，框架通过异步调度和物理执行与逻辑序列跟踪的解耦，有效应对了复杂的工程约束。

离线基准测试显示，DSpark 在数学推理、代码生成和日常对话任务上，平均每轮接受长度（Average Acceptance Length）优于现有的自回归草稿模型 Eagle3 以及并行草稿模型 DFlash。在线实测进一步证明，DSpark 在不同引擎和服务等级协议（SLA）下均能显著提升吞吐量，且其调度器具备负载自适应的验证预算分配能力。

然而，该框架也存在局限性：在处理复杂查询时，完整初始候选块的草稿计算开销无法被完全回收，这在一定程度上限制了极端复杂场景下的性能上限。

关键要点

性能提升显著：相比单 token 推测解码基线 MTP-1，在同等吞吐量下，单用户生成速度提升了 60% 至 85%。
技术架构创新：
- 半自回归架构：并行主干网络生成候选隐藏状态和 logits，辅以轻量级顺序模块注入前缀依赖，提升参数效率。
- 置信度调度验证：基于置信度分数和硬件感知调度器，动态调整验证长度，优化资源分配。
基准测试优势：在数学推理、代码生成等任务中，DSpark 的平均每轮接受长度优于 Eagle3（自回归）和 DFlash（并行草稿模型）。
工程优化：通过训练阶段的系统优化降低通信和内存开销，并在部署中通过异步调度解耦物理执行与逻辑序列，适应生产环境约束。
实际应用状态：已部署于 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 预览版服务引擎，相关代码与论文已开源。
局限性：面对复杂查询时，初始候选块的草稿计算开销无法完全回收，存在性能瓶颈。

意义与影响

DSpark 的开源与部署，标志着大模型推理加速技术从“实验室算法”向“工业化标准”的进一步演进。

降低推理成本，提升用户体验：通过显著提升单用户生成速度（60%-85%），DSpark 直接降低了单位请求的算力成本，同时让用户感受到更流畅的交互体验。这对于高并发、低延迟要求的 C 端应用至关重要。
推动推测解码技术的工程化落地：以往推测解码往往受限于工程实现的复杂性。DSpark 通过半自回归架构和硬件感知的调度机制，提供了一套可复用、可优化的工程范式，为其他模型厂商提供了参考。
强化 DeepSeek 的技术生态壁垒：作为 DeepSeek-V4 系列模型的核心加速组件，DSpark 的独家优化加深了 DeepSeek 模型与其服务引擎之间的耦合度，有助于在激烈的 AI 基础设施竞争中保持技术领先优势。
开源社区的贡献：代码和论文的开源将促进学术界和工业界对半自回归架构及动态验证机制的进一步研究，可能催生更多高效的推理加速方案。

尽管在复杂查询场景下仍有优化空间，但 DSpark 目前的表现已证明其在主流应用场景中的巨大潜力，有望成为下一代大模型推理加速的标准配置之一。

查看原文 →readhub.cn

DeepSeek与北大开源DSpark：高并发推理速度提升60%-85%

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐