技术博客arXiv cs.CL·7 小时前

DeepSeek-V4发布：支持百万token上下文的高效MoE大模型

原标题：DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

速览

DeepSeek发布DeepSeek-V4系列预览版，包含DeepSeek-V4-Pro和DeepSeek-V4-Flash两款MoE大模型，均支持百万token上下文长度。该系列采用混合注意力架构和新型优化器，在长上下文场景中推理效率显著优于前代，DeepSeek-V4-Pro-Max模式重新定义了开源模型性能标杆。

AI 深度解读

DeepSeek-V4：迈向高效百万Token上下文智能

背景

随着大语言模型（LLM）能力的不断扩展，处理超长上下文（Long-Context）已成为衡量模型实用性的关键指标之一。然而，传统的注意力机制在处理百万级Token时，面临着计算复杂度激增、显存占用过高以及推理延迟巨大等瓶颈。尽管之前的版本（如 DeepSeek-V3.2）在长文本处理上已有显著进步，但在极端长上下文场景下的效率与成本平衡仍面临挑战。

在此背景下，DeepSeek 团队发布了 DeepSeek-V4 系列的预览版本。该系列旨在通过架构创新和优化算法，突破长上下文处理的效率极限，实现“百万Token上下文智能”的高效落地。这不仅是对现有模型能力的升级，更是为了解决实际应用中长周期任务（Long-horizon tasks）和测试时扩展（Test-time scaling）可行性问题的关键一步。

核心内容

DeepSeek-V4 系列包含两个强大的混合专家（Mixture-of-Experts, MoE）语言模型：DeepSeek-V4-Pro 和 DeepSeek-V4-Flash。这两个模型均支持长达一百万（1M）Token 的上下文窗口，并在架构、训练优化及后训练流程上进行了多项关键升级。

1. 模型规格与性能定位

DeepSeek-V4-Pro：拥有 1.6T 总参数，激活参数为 49B。作为旗舰模型，其最大推理努力模式（DeepSeek-V4-Pro-Max）重新定义了开源模型的最先进（SOTA）水平，在核心任务上超越了其前代产品。
DeepSeek-V4-Flash：拥有 284B 总参数，激活参数为 13B。该模型侧重于高效性与速度的平衡，同样支持百万级上下文。

2. 架构与优化关键技术

DeepSeek-V4 系列引入了三项核心技术升级，以解决长上下文效率问题：

混合注意力架构（Hybrid Attention Architecture）：结合了压缩稀疏注意力（Compressed Sparse Attention, CSA）和高度压缩注意力（Heavily Compressed Attention, HCA）。这种混合机制旨在显著提升长上下文场景下的处理效率，通过稀疏化和压缩策略减少冗余计算。
流形约束超连接（Manifold-Constrained Hyper-Connections, mHC）：这是一种对传统残差连接（Residual Connections）的增强机制。mHC 通过在流形约束下优化信息流动，提升了模型深层特征的学习能力和稳定性。
Muon 优化器：采用了 Muon 优化器进行训练。相比传统优化器，Muon 能够带来更快的收敛速度和更高的训练稳定性，这对于训练超大规模 MoE 模型至关重要。

3. 训练数据与后训练流程

预训练数据：两个模型均在超过 32T 多样化且高质量的 Token 数据上进行了预训练。
后训练（Post-training）：实施了一套全面的后训练流水线，旨在解锁并进一步增强模型在推理、指令遵循及长文本理解方面的能力。

4. 效率突破：百万Token上下文下的表现

DeepSeek-V4 系列在长上下文场景下展现了极高的效率，特别是在与 DeepSeek-V3.2 的对比中：

计算效率：在处理一百万Token上下文时，DeepSeek-V4-Pro 所需的单次Token推理浮点运算次数（FLOPs）仅为 DeepSeek-V3.2 的 27%。
显存效率：其 KV Cache（键值缓存）占用量仅为 DeepSeek-V3.2 的 10%。

这种显著的效率提升使得 routinely（常规地）支持百万Token上下文成为可能，从而让长周期任务和进一步的测试时扩展变得更加可行。

关键要点

双旗舰架构：DeepSeek-V4 系列包含 DeepSeek-V4-Pro（1.6T参数/49B激活）和 DeepSeek-V4-Flash（284B参数/13B激活），均支持1M上下文。
混合注意力机制：创新性地结合 CSA（压缩稀疏注意力）和 HCA（高度压缩注意力），专门优化长上下文效率。
连接方式升级：引入 mHC（流形约束超连接）替代或增强传统残差连接，提升模型稳定性。
训练优化：采用 Muon 优化器，实现更快收敛和更高训练稳定性。
极致效率：相比 V3.2，V4-Pro 在百万Token场景下推理 FLOPs 降低至 27%，KV Cache 占用降低至 10%。
SOTA 表现：DeepSeek-V4-Pro-Max 模式在核心任务上刷新了开源模型的性能纪录。
数据规模：预训练数据量超过 32T 高质量 Token。

意义与影响

DeepSeek-V4 的发布标志着大语言模型在长上下文处理上从“可用”向“高效可用”的跨越。

首先，大幅降低长文本处理成本。通过将推理 FLOPs 降低至 27% 和 KV Cache 占用降低至 10%，DeepSeek-V4 极大地降低了部署和运行超长上下文模型的硬件门槛和算力成本。这使得在消费级或中等规模硬件上处理长篇文档、代码库或长期对话历史成为可能。

其次，解锁新的应用场景。百万Token上下文的支持使得模型能够一次性处理整本图书、大型代码仓库或长达数月的交互记录，无需复杂的切片或检索增强生成（RAG）预处理，从而保持上下文的一致性和连贯性。

最后，推动测试时扩展（Test-time Scaling）的发展。高效的长上下文处理能力为更复杂的推理策略（如思维链的扩展、自我反思等）提供了基础，使得模型在推理阶段能够利用更长的上下文进行更深入的思考，从而进一步提升最终输出的质量。

随着模型检查点的公开，DeepSeek-V4 系列有望成为开源社区在长上下文智能领域的重要基准，推动整个行业向更高效、更强大的语言模型架构演进。

查看原文 →arxiv.org