AI 资讯量子位·9 天前

刚刚，国产AI自己造了AI，全球首例！

速览

国产AI技术取得重大突破，成功实现自我迭代与制造，成为全球首例。该技术的训练速度比英伟达Megatron快10%，显著提升了效率。这一成果标志着国产AI在自主进化能力上达到国际领先水平。

AI 深度解读

背景

在大模型行业，随着参数规模堆叠带来的边际效益递减，研发效率与成本控制成为新的竞争焦点。过去，大模型预训练框架（如英伟达 Megatron、Meta Fairseq 等）均由人类程序员一行行编写，开发周期长且难以针对特定硬件或模型进行极致优化。与此同时，AI 辅助编程（如 GitHub Copilot、Cursor）虽已普及，但多停留在 L1（建议）或 L2（辅助具体环节）阶段，尚未触及大模型核心基础设施的自动化构建。

在此背景下，国产 AI 公司面壁智能（MiniMax）发布了全球首例由 AI 自主编写并用于训练新模型的大模型预训练框架 ForgeTrain，以及由此训练出的小尺寸模型 MiniCPM5-1B。这一成果标志着“AI 制造 AI”从概念验证走向了可复现的工程实践，并提出了全新的软件编程范式 Forge Engineering。

核心内容

1. ForgeTrain：全球首个 AI 全权编写的生产级预训练框架

面壁智能提出了一套名为 Forge Engineering 的新范式。传统软件工程追求“通用框架”以兼容多种场景，但往往牺牲了极致性能；Forge Engineering 则主张利用 AI 降低代码生产成本，为不同的模型、硬件和任务“现场锻造”专用代码，实现类似高级定制的极致优化。

构建方法论：面壁智能采用三阶段构建方法：
1. 从现有预训练框架采集关键数据，建立评测标准和 Harness（自动测试与反馈系统）。
2. 通过 Harness 构建与参考实现二进制一致的预训练框架版本。
3. 解除二进制一致限制，迭代优化直至超越参考实现。
性能表现：ForgeTrain 在功能上完全对齐英伟达 Megatron，且在相同硬件条件下，训练速度比 Megatron 快 10%。在华为昇腾平台上预训练 MiniCPM5-1B 时，相比昇腾官方框架也有 10% 的加速。这意味着在同等算力下，可节省 10% 的训练时间和成本。

2. MiniCPM5-1B：AI 训练出的高智能密度端侧模型

MiniCPM5-1B 是首个由 AI 自主编写的框架（ForgeTrain）训练出的模型，旨在证明小参数模型也能具备强大的综合能力。

模型定位：1B 参数规模，旨在平衡参数规模、部署成本与实际能力。
- FP16 精度：权重约 2GB，适合 GPU、高端笔电和服务器。
- INT4/Q4 精度：权重约 0.5GB，可部署于手机、平板、车机等端侧设备。
性能突破：
- 智能密度刷新：在 AA-Index 榜单上超越所有 2B 参数以下模型。相比 Qwen3.5-2B，MiniCPM5-1B 参数量减半且效果更优。
- 综合评测：在 MMLU-Pro、MMLU-Redux、AIME-2025/2026、BFCL-v4 等榜单中表现优异，综合知识、数学推理、代码推理及工具调用能力均处于同尺寸端侧模型领先水平。
- 智能密度趋势：大模型智能密度正以约每 3.5 个月翻一番的速度提升，不再单纯依赖参数堆叠。
应用场景：
- 桌宠与个性化交互：可常驻桌面，支持自定义人格、记忆用户偏好，成为本地轻量级智能入口。
- 开发者友好：提供完整的推理（SGLang, vLLM, llama.cpp 等）和微调（LLaMA-Factory, ms-swift 等）工具链，降低部署门槛。

3. AI 制造 AI 的演进阶段

面壁智能将“AI 制造 AI”划分为五个阶段，本次发布对应 L3-L4 阶段：

L1：AI 给建议，人类执行（如 GitHub Copilot）。
L2：AI 辅助研发，完成具体环节（如 Cursor, Claude Code）。
L3：AI 端到端产出下一代模型（ForgeTrain，本次突破点）。
L4：AI 递归自改进，改造训练管线及自身。
L5：AI 自主设定研究议程，开放式探索。

关键要点

全球首例工程化落地：这是全球首个完全由 AI 编写、可用于生产环境的大模型预训练框架，且已训练出可评测、可复现的新模型，将“AI 制造 AI”从特定环节（如写函数、调参）推进到了核心基础设施层。
性能超越行业标杆：ForgeTrain 在训练速度上比英伟达 Megatron 快 10%，在华为昇腾平台上亦实现 10% 加速，证明了 AI 生成的代码在底层优化上可达到甚至超越人类专家水平。
小模型智能密度跃升：MiniCPM5-1B 以 1B 参数规模在多项国际榜单上超越 2B 模型，验证了“智能密度”而非单纯“参数规模”是未来模型能力增长的关键指标。
编程范式变革：提出 Forge Engineering，从追求“通用框架”转向“专用代码”，利用 AI 低成本生成适配特定硬件和任务的极致优化代码，类似从工业化批量生产转向高级定制。
研发角色迁移：人类角色从“Human in the loop”（执行代码）转向“Human on the loop”（监督与设计），AI 研究员将更多专注于定义目标、搭建 Harness 及系统设计，而非编写底层 CUDA 算子。
国产算力生态破局：通过 AI 自动生成适配新硬件的预训练框架，国产芯片（如华为昇腾）有望借助 AI 生产力缩短软件生态追赶时间，弥补开发者积累不足的短板。

意义与影响

1. 大模型竞争从“拼资源”转向“拼效率”

随着 Scaling Law 边际效应递减，单纯堆砌算力、语料和参数的路径面临瓶颈。ForgeTrain 证明了通过 AI 替代重复性研发劳动，可将数周的代码开发压缩至几十分钟，显著提升研发迭代速度。在同等算力预算下，更高的研发效率成为对抗资源瓶颈、实现能力指数级攀升的核心解法。

2. 重塑 AI 研发工作流与人才需求

AI 制造 AI 的成熟将不可逆转地改变 AI 研究员的工作模式。未来的核心竞争力不再在于编写底层代码的能力，而在于系统设计、目标定义及对 AI 生成结果的监督与评估能力。这降低了大模型研发的门槛，同时也对研发人员的抽象思维和架构能力提出了更高要求。

3. 加速国产算力生态的追赶进程

国产芯片在硬件算力上正在快速追赶，但软件生态（如算子库、框架优化）的积累需要漫长的时间。ForgeTrain 提供了一种“以 AI 补人力”的新路径：通过 AI 自动生成适配国产芯片的专属预训练框架，可以极大缩短生态建设周期，帮助国产芯片在“百模大战”中通过更低的试错成本和更快的迭代速度建立竞争优势。

4. 推动端侧 AI 的普及与应用

MiniCPM5-1B 的高智能密度和低部署门槛，使得高性能 AI 能够真正落地到手机、车机等资源受限设备中。这不仅丰富了 AI 的应用场景（如个性化桌宠、本地助手），也为大模型从云端走向个人设备提供了可行的技术范式，预示着端侧智能入口时代的加速到来。

开源信息：

MiniCPM5-1B 模型：已在 Hugging Face, GitHub, ModelScope, AtomGit, 魔乐社区全面开源。
ForgeTrain 框架：预计于 5 月 26 日晚在 GitHub 开源。

查看原文 →qbitai.com