← 返回信息流
AI 资讯量子位·7 天前

DeepSeek V4芯模协同背后,国产算力生态开始飞轮加速

速览

DeepSeek V4模型展现了芯片与模型协同优化的显著优势,为国产算力发展提供了新范式。这一趋势正推动国产算力生态进入加速发展的飞轮阶段。文章指出,当前国产算力的关键在于“先用起来”,通过实际应用积累数据与经验,进而反哺技术迭代。

AI 深度解读

背景

DeepSeek V4 的发布不仅标志着模型能力的迭代,更揭示了一个深层的产业转变:国产算力生态正从过去“芯片被动适配模型”的单向奔赴,迈向“芯模协同”的新阶段。

此前,昇腾虽与多款模型进行过协同探索,但 DeepSeek V4 是首次在大规模、高强度、工程化的尺度上,验证了这种协同模式的可行性与效率。这一突破直击过去 CUDA + 英伟达体系最核心的护城河——模型、框架与芯片在长周期内的共同演化能力。

与此同时,在刚刚结束的鲲鹏昇腾开发者大会 2026 开发者圆桌会议上,来自中科院计算所、AIGCode、清华大学、中国科学技术大学以及头部股份制银行的一线开发者,分享了他们在鲲鹏昇腾平台上的实战经验。这些案例共同指向一个结论:鲲鹏昇腾正在跨越“能用”的门槛,逐步走向“好用”与“易用”。

核心内容

1. CANN 生态从“幼儿期”迈向“青年期”

过去一年,鲲鹏昇腾生态经历了高密度迭代。正如 AIGCode 创始人陈秋武所言,CANN(异构计算架构)在 2024 年初尚处“幼儿期”,如今已进入“青年期”。这一阶段的核心特征是开发者开始脱离厂商的“保姆式支持”,具备独立解决问题、贡献代码并推动迭代的能力。

目前,CANN 已有 65 个源码仓完成分层解耦,超节点架构正式落地,且 70 余款主流大模型实现了“发布即适配”。CANN 正从一个封闭的“厂商工具链”转变为可参与、可共创的开源生态。

2. 适配效率显著提升,工程门槛降低

芯片决定算力上限,而生态决定算力释放程度。过去开发者迁移至国产算力常卡在算子不支持、框架迁移困难及集群调度复杂等问题上。如今,这一状况发生根本性改变:

  • 响应速度加快: AIGCode 早期在昇腾做 MoE 预训练时,提交工单等待适配需三至四个月;而在下一代版本中,团队已能自行动手解决同类问题。
  • 生态覆盖率激增: 2024 年初,昇腾生态基础能力近乎“荒漠”;仅 8 个月后,CANN 生态覆盖率已达 80% 至 90%。
  • 迁移成本降低: 清华大学团队将气象模型迁移至鲲鹏,仅需加载几个库即可运行基线版本;中科大团队迁移高性能计算求解器,编译层面不到一周即完成。
  • 自动化辅助: Agent 技术开始介入,自动完成代码生成、示例提供及环境搭建,将过去需啃文档的流程压缩至半小时以内。

3. 性能天花板突破,生产级信任建立

适配只是第一步,性能与稳定性才是决定开发者留存的关键。

  • 算力利用率翻倍: AIGCode 在昇腾上将 MoE 模型预训练的 MFU(算力利用率)做到 65%,接近行业平均水平的两倍。这得益于昇腾超节点架构,其通过统一内存编址和高速互联,抽象化了异构通信,降低了大规模训练的系统复杂度,使流水线保持满载运行。
  • 科学计算加速: 中科大团队基于鲲鹏研发新型 LU 求解器,通过算法与硬件协同设计,将不规则计算重构为规则稠密计算,实现平均 40 多倍加速,部分场景接近 200 倍。
  • 金融级稳定性验证: 一家头部股份制银行已将 AI 推进至核心风控流程。该方案实现首 Token 响应 500 毫秒、日均处理 260 亿 Token、可用性 99.999%(全年故障时间不超过 1 分钟),四项金融级指标全部达标。

4. 开源开放驱动生态自增长

2025 年 8 月 CANN 启动全面开源,12 月底编译器、运行时等核心代码全量上线。这一举措打破了系统的“黑盒”状态,使开发者从“提需求、等适配”转变为“参与底层建设”。

  • 双向奔赴: 头部股份制银行向社区贡献上百个特性(仅 vLLM-Ascend 就贡献 34 项优化);AIGCode 等创业团队持续投入核心代码贡献。
  • 闭环形成: 硬件托住模型,模型落进产品,产品反哺生态。例如,AIGCode 在昇腾上实现高效预训练后,迅速推出智能编程工具;清华团队在鲲鹏上跑出戈登贝尔级别的科研成果。
  • 规模效应: 截至目前,鲲鹏开发者超 415 万,昇腾开发者超 410 万,openEuler 装机量超 1600 万套。生态已不再仅靠华为推动,而是出现“自增长”态势。

关键要点

  • 芯模协同新阶段: DeepSeek V4 验证了国产算力在大规模工程化场景下的芯模协同可行性,打破了英伟达体系在长周期共同演化上的护城河。
  • 生态成熟度跃迁: CANN 从“幼儿期”进入“青年期”,开发者具备独立解决工程问题及贡献代码的能力,不再依赖厂商贴身服务。
  • 适配效率质变: 主流大模型实现“发布即适配”,生态覆盖率在 8 个月内从近乎空白提升至 80%-90%;Agent 技术大幅降低重复性适配工作门槛。
  • 性能指标领先: 昇腾超节点架构助力 MoE 预训练 MFU 达到 65%(行业平均两倍);鲲鹏 LU 求解器实现最高 200 倍加速。
  • 生产级信任确立: 头部银行核心风控流程上云,实现 99.999% 可用性,证明国产算力已具备承载关键业务的能力。
  • 开源驱动自增长: CANN 核心代码全量开源,促使开发者从“用户”转变为“贡献者”,形成技术、商业、生态的完整闭环。

意义与影响

DeepSeek V4 与鲲鹏昇腾生态的协同演进,标志着国产算力正式从“可用”走向“好用”,并进入生态自增长的良性循环。

首先,打破了技术依赖的路径锁定。 过去,CUDA 生态的护城河不仅在于硬件性能,更在于模型、框架与芯片多年的共同演化。国产算力通过“芯模协同”和开源开放,正在补齐这十余年的时间差,使得开发者无需改变原有习惯即可调用硬件能力,大幅降低了迁移成本。

其次,构建了多元化的生态主体。 生态参与者不再局限于科技公司,高校、金融机构、科研单位等“非典型”算力开发者纷纷加入并贡献核心代码。这种跨行业的深度参与,证明了国产算力平台已具备成为业务首选的通用性与可靠性。

最后,形成了可持续的产业闭环。 从硬件支撑模型训练,到模型赋能产品落地,再到产品反馈反哺生态优化,鲲鹏昇腾生态已建立起自我强化的飞轮效应。这不仅提升了中国算力基础设施的自主可控能力,也为全球 AI 算力生态提供了另一种基于开源协作与软硬协同的发展范式。

查看原文 →qbitai.com