技术博客Hugging Face Blog·2026/4/24

DeepSeek-V4：智能体真正可用的百万级Token上下文

原标题：DeepSeek-V4: a million-token context that agents can actually use

速览

DeepSeek-V4模型突破了上下文长度限制，支持高达百万级的Token处理。这一突破解决了长文本在智能体应用中难以有效利用的痛点。它使得AI能够真正处理复杂、长期的任务，大幅提升了智能体的实用价值。

AI 深度解读

DeepSeek-V4：让百万级上下文真正服务于智能体

背景

当前，将前沿开源模型作为智能体（Agent）运行时，面临着可预测的崩溃模式：模型中途停止、需要重新提示（reprompt）、追踪轨迹超出上下文预算、GPU 的 KV 缓存填满，或者在长任务中途工具调用往返效率急剧下降。这些瓶颈限制了智能体处理复杂、长周期任务的能力。

DeepSeek-V4 的推出旨在解决这些已知的失败场景，并为社区指明方向。其核心目标不仅是提供一个巨大的上下文窗口，更是通过架构创新和针对智能体工作负载的后训练策略，实现低成本、高性能的长上下文推理。

核心内容

1. 解决智能体的 KV 缓存痛点

拥有 100 万（1M）token 的上下文窗口仅代表容量，而非性能。对于运行长工具使用轨迹（如 SWE-bench 任务、多步浏览会话或包含数百条命令的终端会话）的智能体而言，每个工具结果都会追加到上下文中，后续每个 token 的生成都需要对之前所有 token 进行完整的注意力计算。

关键在于两个指标：**单次 token 推理的 FLOPs（浮点运算次数）**和 KV 缓存大小。这两者均随序列长度增长。DeepSeek-V4 通过架构优化显著降低了这两个指标：

推理效率：在相同硬件上，DeepSeek-V4-Pro 的单次 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%，运行速度更快。DeepSeek-V4-Flash 进一步降低至 10%。
内存占用：DeepSeek-V4-Pro 的 KV 缓存内存占用仅为 V3.2 的 10%。相比之下，若使用传统的分组查询注意力（GQA，8个头，bfloat16格式），V4 所需的缓存大小仅约为其 2%。这使得在资源受限环境下部署超大上下文处理成为可能。

2. 混合注意力机制：CSA 与 HCA

效率的提升源于将注意力机制拆分为两种机制并在层间交错使用：

压缩稀疏注意力（Compressed Sparse Attention, CSA）：
- 利用带学习位置偏置的 softmax 门控池化，沿序列维度将 KV 条目压缩 4 倍。
- 引入“闪电索引器”（Lightning Indexer，使用 FP4 精度和 ReLU 评分的多头点积），为每个查询选择 top-k 压缩块。
- 继承了 V3.2 中稀疏选择的思路，但作用于已缩短 4 倍的块上，大幅缩小了搜索空间。
- 保留一个滑动窗口分支以处理最新的未压缩 token。
重度压缩注意力（Heavily Compressed Attention, HCA）：
- 将 KV 条目压缩 128 倍，并放弃稀疏选择。
- 每个查询密集地关注每一个压缩块。由于压缩后的序列极短，密集注意力计算成本很低。
- 同样保留滑动窗口分支以处理近期信息。

层间分布：不同层承载不同的注意力模式，强制单一机制会浪费容量。在 V4-Pro 的 61 层堆栈中，第 0-1 层为 HCA，第 2-60 层交替使用 CSA 和 HCA，末尾的多步预测（MTP）块仅运行滑动窗口。

存储优化：两种路径均对大多数 KV 条目使用 FP8 存储，仅对 RoPE 维度使用 BF16。CSA 内部的闪电索引器运行在 FP4 精度下。这些存储选择与压缩率结合，共同实现了极低的 KV 缓存占用。

3. 针对智能体的后训练与基础设施变革

高效的长上下文注意力是智能体工作流的必要条件，但非充分条件。V4 在以下三个方面进行了针对性优化：

跨工具调用的交错思维（Interleaved Thinking）：
- V3.2 在收到新用户消息时会丢弃推理痕迹，导致多轮智能体工作流中模型丢失累积推理状态。
- V4 在包含工具调用的对话中，跨用户消息边界保留推理内容。模型保留所有轮次的完整推理历史，支持长周期任务的连贯思维链。
- 对于无工具使用的纯对话场景，仍保留旧行为（每轮刷新推理）以保持上下文简洁。
专用 Token 的工具调用 Schema：
- 引入 |DSML| 特殊 token 和基于 XML 的工具调用格式，相比 JSON-in-string 格式，大幅减少了因嵌套引号内容导致的转义失败。
- Schema 将字符串参数（string="true"，原样传递）与结构化参数（string="false"，以 JSON 传递）分离，消除了 JSON 格式中常见的数字和布尔值解析错误。
DSec：为 RL rollout 构建的沙箱：
- DeepSeek Elastic Compute (DSec) 是一个基于 Rust 的平台，通过单一 Python SDK 暴露四种执行底层：函数调用、容器、微虚拟机（Firecracker）和完整虚拟机（QEMU）。
- 单个集群可运行数十万个并发沙箱。
- 三大关键特性支持智能体训练：
  1. 快速镜像加载：通过分层 3FS 存储，避免 RL rollout 等待容器启动。
  2. 抢占式轨迹回放：中断的训练步骤可恢复，无需重新运行工具调用。
  3. 统一 API：训练框架无需重写即可针对函数调用或完整 VM。

4. 基准测试结果

V4-Pro-Max 在智能体基准测试中表现突出，而在通用知识和推理方面保持竞争力：

Terminal Bench 2.0：得分 67.9，领先于 GLM-5.1 (63.5) 和 K2.6 (66.7)，略低于 GPT-5.4-xHigh (75.1) 和 Gemini-3.1-Pro (68.5)。
SWE Verified：解决率 80.6，与 Opus-4.6-Max (80.8) 和 Gemini-3.1-Pro (80.6) 持平。
MCPAtlas Public：得分 73.6，仅次于 Opus-4.6-Max (73.8)。
Toolathlon：得分 51.8，领先于 K2.6 (50.0)、GLM-5.1 (40.7) 和 Gemini-3.1-Pro (48.8)。
内部研发编码基准：在涵盖 PyTorch、CUDA、Rust 和 C++ 的 30 个精选任务中，V4-Pro-Max 通过率 67%，高于 Sonnet 4.5 (47%)，略低于 Opus 4.5 (70%)。
开发者反馈：在 85 名使用 V4-Pro 作为日常主力模型的 DeepSeek 开发者调查中，52% 认为其已准备好替换当前主要编码模型，39% 倾向于同意。
长上下文检索：MRCR 8-needle 准确率在 256K token 内保持在 0.82 以上，在 1M token 时仍维持在 0.59。

关键要点

架构创新：通过交替使用 CSA（压缩稀疏注意力）和 HCA（重度压缩注意力），DeepSeek-V4 实现了极低的 KV 缓存占用（仅为传统 GQA 的 2%）和更低的推理 FLOPs，从而支持百万级上下文的高效推理。
存储优化：广泛采用 FP8 存储 KV 条目，CSA 索引器使用 FP4，进一步压缩了内存 footprint。
智能体专用优化：
- 思维链保留：在工具调用场景中跨轮次保留推理历史，避免

查看原文 →huggingface.co