创投信息钛媒体·1 天前

DeepSeek能否为中国节省万亿美元AI基建成本

原标题：Deepseek 能否为中国节省 1 万亿美元？

速览

DeepSeek V4通过长上下文压缩、按需激活专家模型及缓存复用技术，使同等硬件下的Token产能提升四倍以上。这一软硬件协同优化策略显著降低了对昂贵HBM显存的依赖，从而摊薄单Token推理成本。若该技术大规模应用，预计可为中国AI基础设施建设节省近万亿美元的投资。

AI 深度解读

DeepSeek 能否为中国节省 1 万亿美元？深度解读

背景

2026 年下半年，AI 基础设施正面临前所未有的成本压力。英伟达即将交付其迄今最强大的 AI 平台 Vera Rubin VR200 NVL72，单台整机柜物料成本高达约 780 万美元。在这笔巨额开支中，约 200 万美元并非用于 GPU 芯片或运算核心，而是用于高带宽显存（HBM4）与普通内存（LPDDR5X）。仅一年内，这部分内存成本因涨价飙升了 435%。

这一现象揭示了一个行业趋势：在 AI 硬件成本中，资金正从“负责计算的零件”大量流向“负责记忆和存储的零件”。全球数据中心为跟上算力需求，预计到 2030 年需投入约 6.7 万亿美元，其中 AI 负载部分约占 5.2 万亿美元。在此背景下，DeepSeek 提出了一种反向思路：通过软硬件融合，在不削弱竞争力的前提下，将昂贵硬件的 token 产能提升 4 倍以上，从而等效节省 75% 的硬件投资。这种效率提升若应用于中国庞大的 AI 基础设施，理论上可为行业节省接近 1 万亿美元的投资。

核心内容

DeepSeek 的核心策略被形象地比喻为对大模型这台机器动了“三刀”，旨在解决大模型运行中的两个主要成本痛点：“记性”（KV 缓存）和“身体”（模型参数权重），二者均高度依赖昂贵的高带宽显存（HBM）。

第一刀：改造注意力机制，压缩“记性” 传统大模型在生成文本时，需将前文所有中间结果暂存为 KV 缓存，导致显存随上下文长度疯狂膨胀。例如，处理 12 万字上下文可能需消耗 488GB HBM，远超单颗顶级 GPU 的显存容量。主流路线（如 MQA、GQA）通过让多个查询头共用记忆来妥协，但会损伤模型质量。 DeepSeek 选择直接改造底层逻辑，采用多头潜在注意力（MLA, Multi-head Latent Attention）。该机制通过“低秩压缩”将庞杂的记忆提炼为高度浓缩的摘要，用时再精准还原。在 DeepSeek-V2 中，此技术使 KV Cache 减少 93.3%，吞吐提升 5.76 倍且质量未受损。至 V4-Pro，在 100 万 Token 上下文场景下，其推理算力需求仅为上一代的 27%，缓存占用仅为 10%。

第二刀：混合专家架构与存储分层，优化“身体” 传统稠密模型（Dense Model）处理任何输入都需调动全部参数，如同看牙却惊动全院医生。DeepSeek 采用混合专家（MoE）架构，将模型拆分为众多“专家”，每次仅激活少数部分。例如，V4-Pro 拥有 1.6 万亿总参数，但仅激活 490 亿参数。更关键的是，DeepSeek 改变了参数存取方式。传统模型需将全部参数常驻于昂贵 HBM；DeepSeek 则将参数体系改造为“编号储物柜”，按需从便宜得多的普通内存（LPDDR）或固态硬盘中流式加载特定“格子”。这使得绝大多数暂时不用的参数无需占用最贵的显存空间。

第三刀：缓存复用，将重复计算转化为资产 DeepSeek 将“按编号取用”的逻辑延伸至计算环节，通过缓存命中机制，将已算过的结果直接复用，避免重复硬算。在 V4 的商业化定价中，缓存命中价被大幅压低，长上下文复用被直接写入价格体系。例如，在长上下文编程场景中，DeepSeek 因缓存命中优势，成本仅为 GPT-5.5 和 Claude Opus 4.7 的约 1/140。

成本效益与宏观影响 通过上述“三板斧”，DeepSeek 使同样硬件的有效 Token 产出提升至四倍。以中国日均 Token 消耗量（2026 年 3 月超 140 万亿，并快速向千万亿级推进）为基数，若采用 V4 路线，等效硬件需求可减少 75%。按每座千卡级智算中心投资约 2 亿元人民币估算，节省 1 万亿美元（约 7 万亿元人民币）相当于少建 3.5 万座此类中心，对应日均 5000 万亿 Token 的流量情景。

关键要点

成本结构转变：AI 硬件成本中，内存（HBM/LPDDR）占比急剧上升且价格波动剧烈，成为制约行业发展的关键瓶颈。
MLA 技术突破：DeepSeek 的多头潜在注意力（MLA）技术通过低秩压缩，在保持甚至提升模型质量的同时，将 KV 缓存占用降低至原来的 10% 以下，解决了长上下文下的显存瓶颈。
MoE 与存储分层协同：结合混合专家（MoE）架构与智能存储调度，DeepSeek 实现了参数的按需激活与从廉价存储（LPDDR/SSD）的动态加载，大幅降低了对 HBM 的依赖。
商业定价重构：DeepSeek 通过极低的价格差异（如缓存命中价远低于新计算价），在商业上鼓励用户复用上下文，将技术优势转化为显著的成本优势。
效率提升倍数：在长上下文场景下，DeepSeek V4 系列使同等硬件的有效 Token 吞吐提升约 4 倍，等效节省 75% 的硬件投资。
战略意义：该策略将 AI 基建的压力从“最稀缺、受制于人的尖端算力芯片”转移到“中国更具供应链优势的存储与系统工程领域”，提升了产业链安全性。

意义与影响

DeepSeek 的技术路径不仅是一次工程上的优化，更是对 AI 基础设施经济模型的重新定义。

首先，它逆转了行业过度依赖昂贵 HBM 的趋势。通过软硬件协同优化，DeepSeek 证明了可以通过算法和系统架构的创新，降低对最尖端硬件的边际依赖，从而打破“智能越强，硬件越贵”的线性增长逻辑。

其次，这对中国 AI 产业具有深远的战略意义。在尖端 GPU 芯片仍受制于人的背景下，DeepSeek 的方案将竞争焦点转移至内存管理、缓存调度及系统工程等领域。这些领域正是中国半导体产业（如长鑫存储在 DRAM 领域的突破）正在快速补齐短板的环节。这种转变使得中国 AI 基础设施从“处处受制”转向“够用且好用”，增强了供应链的自主可控能力。

最后，从宏观经济效益来看，DeepSeek 的效率提升潜力意味着未来中国无需建设同等规模的智算中心即可支撑指数级增长的 Token 需求。这不仅节省了数万亿美元的潜在硬件投资，还释放了土地、电力等关键资源，为 AI 应用的全面普及奠定了坚实的经济基础。DeepSeek 正在通过“消灭低效”，重新分配未来 AI 时代的入场券。

查看原文 →tmtpost.com