技术博客arXiv cs.AI·8 天前

MiniMax-M2 系列：极小激活释放最大现实智能

原标题：The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence

速览

MiniMax推出M2系列混合专家语言模型，核心旗舰M2拥有2299亿参数但每词元仅激活98亿。该系列专为智能体部署设计，包含智能体驱动的数据管道、可扩展的RL系统Forge及具备初步自我进化能力的M2.7检查点。实验表明，该系列在智能体编码、深度搜索、办公任务和推理基准上均达到前沿性能。

AI 深度解读

MiniMax-M2 系列：以极小激活量释放极致现实智能

背景

在大型语言模型（LLM）的发展进程中，参数规模与推理成本之间的权衡一直是行业关注的焦点。传统的密集模型（Dense Models）在每次推理时都需要激活全部参数，这导致了高昂的计算开销和延迟，限制了其在实时、高频应用场景（如智能体 Agent 部署）中的落地。

MiniMax 推出的 M2 系列模型基于一个核心假设：“极小的激活量可以释放最大的现实世界智能”。该系列模型专为 Agentic（智能体）部署而设计，旨在通过混合专家（Mixture-of-Experts, MoE）架构，在保持前沿性能的同时，大幅降低推理时的计算负载。这一技术路径不仅回应了业界对高效能 AI 的需求，也标志着模型训练与推理范式向“智能体原生”方向的深刻转变。

核心内容

MiniMax-M2 系列是一组基于混合专家架构的语言模型家族，其旗舰模型 M2 拥有 2299 亿（229.9B） 的总参数，但在处理每个 token 时，仅激活 98 亿（9.8B） 参数。这种设计使得模型在拥有巨大知识储备和推理能力的同时，实现了极高的推理效率。

M2 系列的成功建立在三个关键组件的协同作用之上：

1. 智能体驱动的数据流水线（Agent-Driven Data Pipelines）

数据是模型智能的基石。M2 系列采用了由智能体驱动的数据生成管道，专注于生产大规模、可验证的智能体轨迹数据。这些数据涵盖了两大核心领域：

智能体编程（Agentic Coding）：智能体在可执行工作空间中编写、调试和运行代码。
智能体协作（Agentic Cowork）：智能体在办公任务中进行多步骤协作。

这些数据并非简单的文本堆砌，而是“扎根”于可执行的工作空间，并辅以与工件（Artifact）对齐的奖励机制。这意味着模型不仅学习“说什么”，更学习“做什么”以及“做得对不对”，从而确保生成的轨迹具有高度的可验证性和实用性。

2. Forge：可扩展的智能体原生强化学习系统

为了训练能够处理长周期、复杂任务的智能体，MiniMax 开发了名为 Forge 的强化学习（RL）系统。Forge 具备以下显著特性：

适应长视野轨迹：专门针对长周期的智能体交互轨迹进行优化，解决了传统 RL 在处理长期依赖时的痛点。
窗口化 FIFO 调度：采用先进先出（FIFO）的窗口化调度策略，提高了训练过程的稳定性和吞吐量。
前缀树合并（Prefix-tree Merging）：通过数据结构优化，高效地合并相似的训练轨迹，提升数据利用率。
推理优化：针对推理阶段进行了底层优化，进一步降低延迟。
解耦架构：实现了训练、推理与智能体之间的清晰解耦。这种设计既支持白盒智能体（可访问内部状态），也支持黑盒智能体（仅通过 API 交互），提供了极大的部署灵活性。

3. M2.7 检查点：迈向自主进化的早期尝试

在 M2 系列的发展中，最新的 M2.7 检查点代表了一个重要的里程碑——自主进化（Self-evolution）。M2.7 开始具备初步的自主能力，能够：

自主调试训练运行：识别训练过程中的错误并尝试修复。
修改自身脚手架：能够调整自身的模型结构或配置。

这标志着模型从被动接受数据训练，向主动参与自身优化过程迈出了第一步。

关键要点

极致效率与高性能并存：旗舰模型 M2 拥有 229.9B 总参数，但单 token 激活量仅为 9.8B，实现了“小激活、大智能”。
专为智能体部署设计：从数据生成到训练系统，M2 系列全链路针对 Agentic 场景优化，而非通用对话场景。
高质量可验证数据：通过智能体驱动的数据管道，生成基于可执行工作空间的、带有工件对齐奖励的大规模轨迹数据，涵盖编程与办公协作。
创新的 Forge RL 系统：引入窗口化 FIFO 调度、前缀树合并等技术，支持长周期智能体轨迹的训练，并兼容白盒与黑盒智能体。
自主进化能力：最新的 M2.7 检查点展示了模型自主调试训练和修改自身结构的能力，开启了模型自我优化的新范式。
基准测试表现优异：在智能体编程、深度搜索、办公任务和推理基准测试中，M2 系列均展现出前沿级别的性能。

意义与影响

MiniMax-M2 系列的发布对 AI 领域具有多重深远影响：

重新定义推理成本效益：通过极低的激活参数比例，M2 系列证明了在保持甚至超越密集模型性能的同时，可以大幅降低推理成本。这对于需要大规模部署智能体的企业级应用（如自动化编程助手、智能办公代理）具有极高的商业价值。
推动智能体（Agent）技术的实用化：M2 系列不仅仅是一个语言模型，更是一套完整的智能体基础设施。其数据管道和 Forge 训练系统直接解决了智能体开发中的数据稀缺和训练不稳定问题，加速了智能体从实验室走向生产环境的进程。
开启模型自主进化的新篇章：M2.7 的自主调试和修改能力是迈向通用人工智能（AGI）的重要一步。如果模型能够自主优化其训练过程和结构，将极大减少人工干预，加速模型迭代周期，使 AI 系统具备更强的适应性和生命力。
提供灵活的开发范式：通过解耦训练、推理和智能体，并支持白盒与黑盒模式，M2 系列为开发者提供了极大的灵活性。无论是希望深度定制内部逻辑的研究者，还是希望快速集成 API 的应用开发者，都能找到合适的接入方式。

综上所述，MiniMax-M2 系列不仅在技术上实现了“小激活、大智能”的工程突破，更在方法论上为智能体 AI 的开发、训练和进化提供了全新的范式，预示着 AI 应用将更加高效、自主和智能化。

查看原文 →arxiv.org