AI 资讯量子位·7 天前

DeepSeek V4芯模协同背后，国产算力生态开始飞轮加速

速览

DeepSeek V4模型展现了芯片与模型协同优化的显著优势，为国产算力发展提供了新范式。这一趋势正推动国产算力生态进入加速发展的飞轮阶段。文章指出，当前国产算力的关键在于“先用起来”，通过实际应用积累数据与经验，进而反哺技术迭代。

DeepSeek V4 的发布不仅标志着模型能力的迭代，更揭示了一个深层的产业转变：国产算力生态正从过去“芯片被动适配模型”的单向奔赴，迈向“芯模协同”的新阶段。

此前，昇腾虽与多款模型进行过协同探索，但 DeepSeek V4 是首次在大规模、高强度、工程化的尺度上，验证了这种协同模式的可行性与效率。这一突破直击过去 CUDA + 英伟达体系最核心的护城河——模型、框架与芯片在长周期内的共同演化能力。

与此同时，在刚刚结束的鲲鹏昇腾开发者大会 2026 开发者圆桌会议上，来自中科院计算所、AIGCode、清华大学、中国科学技术大学以及头部股份制银行的一线开发者，分享了他们在鲲鹏昇腾平台上的实战经验。这些案例共同指向一个结论：鲲鹏昇腾正在跨越“能用”的门槛，逐步走向“好用”与“易用”。

1. CANN 生态从“幼儿期”迈向“青年期”

过去一年，鲲鹏昇腾生态经历了高密度迭代。正如 AIGCode 创始人陈秋武所言，CANN（异构计算架构）在 2024 年初尚处“幼儿期”，如今已进入“青年期”。这一阶段的核心特征是开发者开始脱离厂商的“保姆式支持”，具备独立解决问题、贡献代码并推动迭代的能力。

目前，CANN 已有 65 个源码仓完成分层解耦，超节点架构正式落地，且 70 余款主流大模型实现了“发布即适配”。CANN 正从一个封闭的“厂商工具链”转变为可参与、可共创的开源生态。

2. 适配效率显著提升，工程门槛降低

芯片决定算力上限，而生态决定算力释放程度。过去开发者迁移至国产算力常卡在算子不支持、框架迁移困难及集群调度复杂等问题上。如今，这一状况发生根本性改变：

3. 性能天花板突破，生产级信任建立

适配只是第一步，性能与稳定性才是决定开发者留存的关键。

算力利用率翻倍： AIGCode 在昇腾上将 MoE 模型预训练的 MFU（算力利用率）做到 65%，接近行业平均水平的两倍。这得益于昇腾超节点架构，其通过统一内存编址和高速互联，抽象化了异构通信，降低了大规模训练的系统复杂度，使流水线保持满载运行。
科学计算加速： 中科大团队基于鲲鹏研发新型 LU 求解器，通过算法与硬件协同设计，将不规则计算重构为规则稠密计算，实现平均 40 多倍加速，部分场景接近 200 倍。
金融级稳定性验证： 一家头部股份制银行已将 AI 推进至核心风控流程。该方案实现首 Token 响应 500 毫秒、日均处理 260 亿 Token、可用性 99.999%（全年故障时间不超过 1 分钟），四项金融级指标全部达标。

4. 开源开放驱动生态自增长

2025 年 8 月 CANN 启动全面开源，12 月底编译器、运行时等核心代码全量上线。这一举措打破了系统的“黑盒”状态，使开发者从“提需求、等适配”转变为“参与底层建设”。

双向奔赴： 头部股份制银行向社区贡献上百个特性（仅 vLLM-Ascend 就贡献 34 项优化）；AIGCode 等创业团队持续投入核心代码贡献。
闭环形成： 硬件托住模型，模型落进产品，产品反哺生态。例如，AIGCode 在昇腾上实现高效预训练后，迅速推出智能编程工具；清华团队在鲲鹏上跑出戈登贝尔级别的科研成果。
规模效应： 截至目前，鲲鹏开发者超 415 万，昇腾开发者超 410 万，openEuler 装机量超 1600 万套。生态已不再仅靠华为推动，而是出现“自增长”态势。

DeepSeek V4 与鲲鹏昇腾生态的协同演进，标志着国产算力正式从“可用”走向“好用”，并进入生态自增长的良性循环。

首先，打破了技术依赖的路径锁定。 过去，CUDA 生态的护城河不仅在于硬件性能，更在于模型、框架与芯片多年的共同演化。国产算力通过“芯模协同”和开源开放，正在补齐这十余年的时间差，使得开发者无需改变原有习惯即可调用硬件能力，大幅降低了迁移成本。

其次，构建了多元化的生态主体。 生态参与者不再局限于科技公司，高校、金融机构、科研单位等“非典型”算力开发者纷纷加入并贡献核心代码。这种跨行业的深度参与，证明了国产算力平台已具备成为业务首选的通用性与可靠性。

最后，形成了可持续的产业闭环。 从硬件支撑模型训练，到模型赋能产品落地，再到产品反馈反哺生态优化，鲲鹏昇腾生态已建立起自我强化的飞轮效应。这不仅提升了中国算力基础设施的自主可控能力，也为全球 AI 算力生态提供了另一种基于开源协作与软硬协同的发展范式。