← 返回信息流
技术博客Hugging Face Blog·2026/4/24

DeepSeek-V4:智能体真正可用的百万级Token上下文

原标题:DeepSeek-V4: a million-token context that agents can actually use

速览

DeepSeek-V4模型突破了上下文长度限制,支持高达百万级的Token处理。这一突破解决了长文本在智能体应用中难以有效利用的痛点。它使得AI能够真正处理复杂、长期的任务,大幅提升了智能体的实用价值。

AI 深度解读

DeepSeek-V4:让百万级上下文真正服务于智能体

背景

当前,将前沿开源模型作为智能体(Agent)运行时,面临着可预测的崩溃模式:模型中途停止、需要重新提示(reprompt)、追踪轨迹超出上下文预算、GPU 的 KV 缓存填满,或者在长任务中途工具调用往返效率急剧下降。这些瓶颈限制了智能体处理复杂、长周期任务的能力。

DeepSeek-V4 的推出旨在解决这些已知的失败场景,并为社区指明方向。其核心目标不仅是提供一个巨大的上下文窗口,更是通过架构创新和针对智能体工作负载的后训练策略,实现低成本、高性能的长上下文推理。

核心内容

1. 解决智能体的 KV 缓存痛点

拥有 100 万(1M)token 的上下文窗口仅代表容量,而非性能。对于运行长工具使用轨迹(如 SWE-bench 任务、多步浏览会话或包含数百条命令的终端会话)的智能体而言,每个工具结果都会追加到上下文中,后续每个 token 的生成都需要对之前所有 token 进行完整的注意力计算。

关键在于两个指标:**单次 token 推理的 FLOPs(浮点运算次数)**和 KV 缓存大小。这两者均随序列长度增长。DeepSeek-V4 通过架构优化显著降低了这两个指标:

  • 推理效率:在相同硬件上,DeepSeek-V4-Pro 的单次 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%,运行速度更快。DeepSeek-V4-Flash 进一步降低至 10%。
  • 内存占用:DeepSeek-V4-Pro 的 KV 缓存内存占用仅为 V3.2 的 10%。相比之下,若使用传统的分组查询注意力(GQA,8个头,bfloat16格式),V4 所需的缓存大小仅约为其 2%。这使得在资源受限环境下部署超大上下文处理成为可能。

2. 混合注意力机制:CSA 与 HCA

效率的提升源于将注意力机制拆分为两种机制并在层间交错使用:

  • 压缩稀疏注意力(Compressed Sparse Attention, CSA)

    • 利用带学习位置偏置的 softmax 门控池化,沿序列维度将 KV 条目压缩 4 倍。
    • 引入“闪电索引器”(Lightning Indexer,使用 FP4 精度和 ReLU 评分的多头点积),为每个查询选择 top-k 压缩块。
    • 继承了 V3.2 中稀疏选择的思路,但作用于已缩短 4 倍的块上,大幅缩小了搜索空间。
    • 保留一个滑动窗口分支以处理最新的未压缩 token。
  • 重度压缩注意力(Heavily Compressed Attention, HCA)

    • 将 KV 条目压缩 128 倍,并放弃稀疏选择。
    • 每个查询密集地关注每一个压缩块。由于压缩后的序列极短,密集注意力计算成本很低。
    • 同样保留滑动窗口分支以处理近期信息。

层间分布:不同层承载不同的注意力模式,强制单一机制会浪费容量。在 V4-Pro 的 61 层堆栈中,第 0-1 层为 HCA,第 2-60 层交替使用 CSA 和 HCA,末尾的多步预测(MTP)块仅运行滑动窗口。

存储优化:两种路径均对大多数 KV 条目使用 FP8 存储,仅对 RoPE 维度使用 BF16。CSA 内部的闪电索引器运行在 FP4 精度下。这些存储选择与压缩率结合,共同实现了极低的 KV 缓存占用。

3. 针对智能体的后训练与基础设施变革

高效的长上下文注意力是智能体工作流的必要条件,但非充分条件。V4 在以下三个方面进行了针对性优化:

  • 跨工具调用的交错思维(Interleaved Thinking)

    • V3.2 在收到新用户消息时会丢弃推理痕迹,导致多轮智能体工作流中模型丢失累积推理状态。
    • V4 在包含工具调用的对话中,跨用户消息边界保留推理内容。模型保留所有轮次的完整推理历史,支持长周期任务的连贯思维链。
    • 对于无工具使用的纯对话场景,仍保留旧行为(每轮刷新推理)以保持上下文简洁。
  • 专用 Token 的工具调用 Schema

    • 引入 |DSML| 特殊 token 和基于 XML 的工具调用格式,相比 JSON-in-string 格式,大幅减少了因嵌套引号内容导致的转义失败。
    • Schema 将字符串参数(string="true",原样传递)与结构化参数(string="false",以 JSON 传递)分离,消除了 JSON 格式中常见的数字和布尔值解析错误。
  • DSec:为 RL rollout 构建的沙箱

    • DeepSeek Elastic Compute (DSec) 是一个基于 Rust 的平台,通过单一 Python SDK 暴露四种执行底层:函数调用、容器、微虚拟机(Firecracker)和完整虚拟机(QEMU)。
    • 单个集群可运行数十万个并发沙箱。
    • 三大关键特性支持智能体训练:
      1. 快速镜像加载:通过分层 3FS 存储,避免 RL rollout 等待容器启动。
      2. 抢占式轨迹回放:中断的训练步骤可恢复,无需重新运行工具调用。
      3. 统一 API:训练框架无需重写即可针对函数调用或完整 VM。

4. 基准测试结果

V4-Pro-Max 在智能体基准测试中表现突出,而在通用知识和推理方面保持竞争力:

  • Terminal Bench 2.0:得分 67.9,领先于 GLM-5.1 (63.5) 和 K2.6 (66.7),略低于 GPT-5.4-xHigh (75.1) 和 Gemini-3.1-Pro (68.5)。
  • SWE Verified:解决率 80.6,与 Opus-4.6-Max (80.8) 和 Gemini-3.1-Pro (80.6) 持平。
  • MCPAtlas Public:得分 73.6,仅次于 Opus-4.6-Max (73.8)。
  • Toolathlon:得分 51.8,领先于 K2.6 (50.0)、GLM-5.1 (40.7) 和 Gemini-3.1-Pro (48.8)。
  • 内部研发编码基准:在涵盖 PyTorch、CUDA、Rust 和 C++ 的 30 个精选任务中,V4-Pro-Max 通过率 67%,高于 Sonnet 4.5 (47%),略低于 Opus 4.5 (70%)。
  • 开发者反馈:在 85 名使用 V4-Pro 作为日常主力模型的 DeepSeek 开发者调查中,52% 认为其已准备好替换当前主要编码模型,39% 倾向于同意。
  • 长上下文检索:MRCR 8-needle 准确率在 256K token 内保持在 0.82 以上,在 1M token 时仍维持在 0.59。

关键要点

  • 架构创新:通过交替使用 CSA(压缩稀疏注意力)和 HCA(重度压缩注意力),DeepSeek-V4 实现了极低的 KV 缓存占用(仅为传统 GQA 的 2%)和更低的推理 FLOPs,从而支持百万级上下文的高效推理。
  • 存储优化:广泛采用 FP8 存储 KV 条目,CSA 索引器使用 FP4,进一步压缩了内存 footprint。
  • 智能体专用优化
    • 思维链保留:在工具调用场景中跨轮次保留推理历史,避免
查看原文 →huggingface.co