全球首发 | SLAI基于国产算力集群完成DeepSeek-V4-Pro全参数后训练
速览
深圳河套学院联合哈尔滨工业大学(深圳)、华为等机构,基于昇腾910C国产算力集群,全球首次完成DeepSeek-V4-Pro全参数后训练工程实践。项目仅用1个月即实现千卡集群稳定运行1500+步,模型算力利用率(MFU)超30%,关键算子效率提升14%。这标志着国产AI基础设施从推理部署迈向超大模型全参数训练,并验证了其在垂直领域模型增强中的实际价值。
AI 深度解读
背景
在人工智能技术飞速发展的当下,基于国产算力的大模型高效训练与推理已成为国家发展战略的关键议题。DeepSeek-V4-Pro 作为业界在效率和性能方面表现杰出的开源旗舰模型,其架构复杂度高、参数量巨大,对底层算力基础设施提出了严峻挑战。尽管该模型此前已在国产算力上完成了推理部署,但实现全参数后训练(Post-training)仍面临巨大技术壁垒,尚未完全实现国产化闭环。
在此背景下,深圳河套学院 AI 训练平台项目团队联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为 GTS(全球技术服务)、华为计算产品线、华为 2012 实验室以及深智城 AI 算力平台,共同发起联合攻关。旨在通过整合多方资源,攻克国产算力集群在超大模型全参数训练中的技术难题,验证国产 AI 基础设施从“推理部署”向“全参数训练”跨越的可行性。
核心内容
该项目团队在一个月内,基于千卡级昇腾 910C 国产算力集群,成功实现了 DeepSeek-V4-Pro 的全参数续训练及监督微调(SFT)稳定运行。这是公开可查范围内,业界首个由第三方机构基于国产算力集群完成的 DeepSeek-V4-Pro 全参数后训练工程实践。
技术挑战与突破 DeepSeek-V4-Pro 是一款拥有 1.6 万亿参数的 Mixture of Experts (MoE) 模型,采用了 CSA+HCA 混合稀疏注意力、mHC 连接等新机制。相比前代模型,它对国产训练框架构成了全方位挑战,主要体现在稀疏 MoE 结构带来的跨节点通信激增、混合稀疏注意力对算子效率和显存管理的极高敏感度,以及万亿参数带来的巨大显存压力(单副本需数 TB 显存)。
针对上述挑战,项目团队实现了三大关键技术突破:
- 分布式承载优化:构建了权重、梯度、激活、优化器状态的分布式承载方案,协同数据并行、张量并行、流水并行与专家并行,解决了“显存拼图”难题,确保每张卡资源的高效调度。
- 稀疏与通信适配:针对混合稀疏注意力、MoE 路由、归一化等关键算子进行深度适配,算子效率较初始版本提升约 14%。同时建立专家负载实时监控与均衡机制,避免专家负载失衡和跨节点通信风暴。
- 长稳监控体系:搭建包含 Loss 曲线、梯度范数、专家负载、显存占用及异常自动恢复在内的完整监控体系,实现了训练过程的可视、可告警、可自愈,确保了长周期训练的稳定性。
训练成果与验证
- 稳定性指标:完成 1500+ 步迭代,skipped iterations 和 NaN iterations 均为 0。在昇腾超节点上,模型算力利用率(MFU)稳定在 34.9%,整体 MFU 超 30%。
- 效率指标:单步耗时稳定在 27 秒左右,关键训练算子效率提升 14%。
- 能力验证:团队围绕工业级自动化运筹建模场景,构建了包含 3000 条高质量样本的 SFT 数据飞轮。训练后,模型在数学建模任务上表现显著增强,LM loss 收敛至 0.2056,ORGEval WL 指标提升超过 5 个百分点,证实了国产算力不仅能“训稳”,更能“训强”。
人才培养模式 该项目不仅是技术攻关,也是一次人才培养范式实验。深圳河套学院将真实训练场景作为“练兵场”,培养 42 名学生参与从数据构造、并行策略验证到长稳监控的全链路工作,形成了“青年教师指导、博士生核心攻坚、工程团队支撑”的协同机制,旨在培养懂模型、懂系统、能工程的高水平复合型 AI 人才。
关键要点
- 全球首发:这是公开可查范围内,业界首个基于国产算力集群完成的 DeepSeek-V4-Pro 全参数后训练工程实践。
- 硬件基础:基于千卡级昇腾 910C 国产算力集群,由华为 GTS、计算产品线、2012 实验室等提供技术支持。
- 核心模型:DeepSeek-V4-Pro,1.6 万亿参数 MoE 架构,采用 CSA+HCA 混合稀疏注意力等新机制。
- 训练规模:完成 1500+ 步长稳 SFT 训练,无跳过迭代和 NaN 值,单步耗时约 27 秒。
- 性能指标:整体 MFU 超 30%,在昇腾超节点上 MFU 稳定在 34.9%;关键训练算子效率提升 14%。
- 能力增益:经过数学建模领域的 SFT 后训练,模型 ORGEval WL 指标提升超 5 个百分点,验证了“训强”能力。
- 人才成果:培养 42 名学生,通过真实项目实战,实现了从“调用模型”到“理解并参与训练模型”的能力跃迁。
- 未来规划:下一步将聚焦训练效率再突破、512K 至 1M 超长上下文训练支持,以及 Agentic RL(智能体强化学习)后训练闭环的构建。
意义与影响
此次攻关的成功标志着国产 AI 基础设施正在从单纯的推理部署和轻量化微调,正式迈向超大模型全参数后训练的新阶段。其深远影响体现在以下三个维度:
- 验证国产算力全链路能力:打破了“国产算力仅能推理”的固有认知,证明了“国产开源旗舰模型 + 国产 AI 算力 + 高水平训练团队 + 国产厂商技术支持”这一四角闭环的可持续性与可靠性。国产算力已具备“能训练、能训稳、能训优”的综合实力。
- 构建可复制的工程范式:项目不仅实现了技术突破,更沉淀了一套可复现、可工程化交付的稳定训练能力。通过开源训练配置、评测脚本及技术报告,将为后续更多基于国产算力的大模型训练提供宝贵参考,降低行业门槛。
- 重塑 AI 人才培养生态:通过“以战育才”的模式,证明了在真实国产算力土壤上培养高水平 AI 人才的可行性。这不仅解决了技术攻关的人才需求,更为下一代通用人工智能的研究储备了具备系统工程素养和实战能力的青年力量,为中国 AI 产业的自主可控奠定了人才基础。
这不仅是技术上的里程碑,更是中国 AI 产业在自主算力生态建设上的一次重要宣言,预示着国产 AI 基础设施将在未来通用人工智能的征途中发挥更核心的作用。
