← 返回信息流
AI 资讯量子位·9 天前

刚刚,国产AI自己造了AI,全球首例!

速览

国产AI技术取得重大突破,成功实现自我迭代与制造,成为全球首例。该技术的训练速度比英伟达Megatron快10%,显著提升了效率。这一成果标志着国产AI在自主进化能力上达到国际领先水平。

AI 深度解读

背景

在大模型行业,随着参数规模堆叠带来的边际效益递减,研发效率与成本控制成为新的竞争焦点。过去,大模型预训练框架(如英伟达 Megatron、Meta Fairseq 等)均由人类程序员一行行编写,开发周期长且难以针对特定硬件或模型进行极致优化。与此同时,AI 辅助编程(如 GitHub Copilot、Cursor)虽已普及,但多停留在 L1(建议)或 L2(辅助具体环节)阶段,尚未触及大模型核心基础设施的自动化构建。

在此背景下,国产 AI 公司面壁智能(MiniMax)发布了全球首例由 AI 自主编写并用于训练新模型的大模型预训练框架 ForgeTrain,以及由此训练出的小尺寸模型 MiniCPM5-1B。这一成果标志着“AI 制造 AI”从概念验证走向了可复现的工程实践,并提出了全新的软件编程范式 Forge Engineering

核心内容

1. ForgeTrain:全球首个 AI 全权编写的生产级预训练框架

面壁智能提出了一套名为 Forge Engineering 的新范式。传统软件工程追求“通用框架”以兼容多种场景,但往往牺牲了极致性能;Forge Engineering 则主张利用 AI 降低代码生产成本,为不同的模型、硬件和任务“现场锻造”专用代码,实现类似高级定制的极致优化。

  • 构建方法论:面壁智能采用三阶段构建方法:
    1. 从现有预训练框架采集关键数据,建立评测标准和 Harness(自动测试与反馈系统)。
    2. 通过 Harness 构建与参考实现二进制一致的预训练框架版本。
    3. 解除二进制一致限制,迭代优化直至超越参考实现。
  • 性能表现:ForgeTrain 在功能上完全对齐英伟达 Megatron,且在相同硬件条件下,训练速度比 Megatron 快 10%。在华为昇腾平台上预训练 MiniCPM5-1B 时,相比昇腾官方框架也有 10% 的加速。这意味着在同等算力下,可节省 10% 的训练时间和成本。

2. MiniCPM5-1B:AI 训练出的高智能密度端侧模型

MiniCPM5-1B 是首个由 AI 自主编写的框架(ForgeTrain)训练出的模型,旨在证明小参数模型也能具备强大的综合能力。

  • 模型定位:1B 参数规模,旨在平衡参数规模、部署成本与实际能力。
    • FP16 精度:权重约 2GB,适合 GPU、高端笔电和服务器。
    • INT4/Q4 精度:权重约 0.5GB,可部署于手机、平板、车机等端侧设备。
  • 性能突破
    • 智能密度刷新:在 AA-Index 榜单上超越所有 2B 参数以下模型。相比 Qwen3.5-2B,MiniCPM5-1B 参数量减半且效果更优。
    • 综合评测:在 MMLU-Pro、MMLU-Redux、AIME-2025/2026、BFCL-v4 等榜单中表现优异,综合知识、数学推理、代码推理及工具调用能力均处于同尺寸端侧模型领先水平。
    • 智能密度趋势:大模型智能密度正以约每 3.5 个月翻一番的速度提升,不再单纯依赖参数堆叠。
  • 应用场景
    • 桌宠与个性化交互:可常驻桌面,支持自定义人格、记忆用户偏好,成为本地轻量级智能入口。
    • 开发者友好:提供完整的推理(SGLang, vLLM, llama.cpp 等)和微调(LLaMA-Factory, ms-swift 等)工具链,降低部署门槛。

3. AI 制造 AI 的演进阶段

面壁智能将“AI 制造 AI”划分为五个阶段,本次发布对应 L3-L4 阶段:

  • L1:AI 给建议,人类执行(如 GitHub Copilot)。
  • L2:AI 辅助研发,完成具体环节(如 Cursor, Claude Code)。
  • L3:AI 端到端产出下一代模型(ForgeTrain,本次突破点)。
  • L4:AI 递归自改进,改造训练管线及自身。
  • L5:AI 自主设定研究议程,开放式探索。

关键要点

  • 全球首例工程化落地:这是全球首个完全由 AI 编写、可用于生产环境的大模型预训练框架,且已训练出可评测、可复现的新模型,将“AI 制造 AI”从特定环节(如写函数、调参)推进到了核心基础设施层。
  • 性能超越行业标杆:ForgeTrain 在训练速度上比英伟达 Megatron 快 10%,在华为昇腾平台上亦实现 10% 加速,证明了 AI 生成的代码在底层优化上可达到甚至超越人类专家水平。
  • 小模型智能密度跃升:MiniCPM5-1B 以 1B 参数规模在多项国际榜单上超越 2B 模型,验证了“智能密度”而非单纯“参数规模”是未来模型能力增长的关键指标。
  • 编程范式变革:提出 Forge Engineering,从追求“通用框架”转向“专用代码”,利用 AI 低成本生成适配特定硬件和任务的极致优化代码,类似从工业化批量生产转向高级定制。
  • 研发角色迁移:人类角色从“Human in the loop”(执行代码)转向“Human on the loop”(监督与设计),AI 研究员将更多专注于定义目标、搭建 Harness 及系统设计,而非编写底层 CUDA 算子。
  • 国产算力生态破局:通过 AI 自动生成适配新硬件的预训练框架,国产芯片(如华为昇腾)有望借助 AI 生产力缩短软件生态追赶时间,弥补开发者积累不足的短板。

意义与影响

1. 大模型竞争从“拼资源”转向“拼效率”

随着 Scaling Law 边际效应递减,单纯堆砌算力、语料和参数的路径面临瓶颈。ForgeTrain 证明了通过 AI 替代重复性研发劳动,可将数周的代码开发压缩至几十分钟,显著提升研发迭代速度。在同等算力预算下,更高的研发效率成为对抗资源瓶颈、实现能力指数级攀升的核心解法。

2. 重塑 AI 研发工作流与人才需求

AI 制造 AI 的成熟将不可逆转地改变 AI 研究员的工作模式。未来的核心竞争力不再在于编写底层代码的能力,而在于系统设计、目标定义及对 AI 生成结果的监督与评估能力。这降低了大模型研发的门槛,同时也对研发人员的抽象思维和架构能力提出了更高要求。

3. 加速国产算力生态的追赶进程

国产芯片在硬件算力上正在快速追赶,但软件生态(如算子库、框架优化)的积累需要漫长的时间。ForgeTrain 提供了一种“以 AI 补人力”的新路径:通过 AI 自动生成适配国产芯片的专属预训练框架,可以极大缩短生态建设周期,帮助国产芯片在“百模大战”中通过更低的试错成本和更快的迭代速度建立竞争优势。

4. 推动端侧 AI 的普及与应用

MiniCPM5-1B 的高智能密度和低部署门槛,使得高性能 AI 能够真正落地到手机、车机等资源受限设备中。这不仅丰富了 AI 的应用场景(如个性化桌宠、本地助手),也为大模型从云端走向个人设备提供了可行的技术范式,预示着端侧智能入口时代的加速到来。

开源信息:

  • MiniCPM5-1B 模型:已在 Hugging Face, GitHub, ModelScope, AtomGit, 魔乐社区全面开源。
  • ForgeTrain 框架:预计于 5 月 26 日晚在 GitHub 开源。
查看原文 →qbitai.com