技术博客Hugging Face Blog·3 天前

JetBrains 发布 Mellum2：一款 12B 混合专家模型

原标题：Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains

速览

JetBrains 正式发布了 Mellum2，这是一款基于混合专家（MoE）架构的 12B 参数大模型。该模型旨在通过高效的稀疏激活机制，在保持高性能的同时优化计算资源消耗。作为 JetBrains 在 AI 领域的最新成果，Mellum2 展示了其在代码生成及软件工程辅助方面的潜力。

AI 深度解读

JetBrains 发布 Mellum2：专为低延迟代码与文本任务优化的 12B MoE 模型

JetBrains 正式发布了 Mellum2，这是一款从自然语言和代码数据中从头训练的 12B（120亿）参数混合专家（Mixture-of-Experts, MoE）模型。该模型旨在解决现代 AI 系统中对高吞吐量、低延迟推理的迫切需求，特别是在软件工程和自然语言处理领域。

背景

随着 AI 系统的成熟，其架构正逐渐从单一的单体模型（Monolithic models）向更复杂的组件化系统转变。现代 AI 应用不再仅仅依赖一个大模型完成所有任务，而是需要多个模型协同工作，包括路由（Routing）、检索增强生成（RAG）、摘要、规划、验证以及工具调用等。

在这些复杂的流水线中，许多操作对延迟极其敏感，且并不需要动用参数量最大、推理最慢的前沿模型。例如，在 IDE 内部、RAG 管道或 Agent 工作流中，大量的中间步骤（如提示词分类、上下文压缩、子任务规划）只需要快速、高效的响应。

Mellum 最初是作为代码补全模型开发的。JetBrains 此次推出 Mellum2，旨在扩展其基础能力，使其能够处理更广泛的自然语言和软件工程任务，同时保持模型在推理效率和可部署性上的专注。Mellum2 被定位为一种“焦点”模型（Focal Model）：一个快速、范围明确且针对高频任务优化的模型，旨在让更大的 AI 系统栈运行得更快、更便宜、更易于控制。

核心内容

模型架构与效率

Mellum2 采用混合专家（MoE）架构。这种架构的核心优势在于，虽然模型的总容量高达 12B 参数，但在处理每个 Token 时，仅激活约 2.5B 参数。这种设计使得模型在保持强大容量的同时，显著提高了推理效率，降低了实时工作负载的服务成本。

与多模态模型不同，Mellum2 有意专注于文本和代码任务，而非多模态处理。这种专业化设计使得模型更加紧凑，特别适合软件工程工作负载。

性能表现

根据 JetBrains 发布的技术报告，Mellum2 在代码生成、推理、科学和数学基准测试中表现具有竞争力，与同规模的开源模型相当。更重要的是，其推理速度比类似规模的模型快 2 倍以上。这一性能优势使其非常适合高吞吐量的生产环境工作负载。

许可与获取

许可证：Mellum2 采用 Apache 2.0 许可证发布，允许商业和学术研究自由使用。
下载链接：模型已在 Hugging Face 开源，可通过 JetBrains Mellum 2 Collection 获取。
技术细节：完整的架构细节、训练设置、基准测试及评估方法详见技术报告：arXiv:2605.31268。

关键要点

高效推理：作为 12B 参数的 MoE 模型，Mellum2 每 Token 仅激活 2.5B 参数，实现了比同类模型快 2 倍以上的推理速度。
多场景适用：适用于路由、RAG（检索增强生成）、摘要、子智能体（Sub-agents）、高吞吐量编码功能以及私有化部署。
专注代码与文本：模型专为自然语言和代码优化，未包含多模态能力，从而保持了模型的紧凑性和在软件工程领域的专业性。
解决延迟痛点：针对多模型系统中对延迟敏感的操作（如提示词分类、工具选择、中间控制流），提供轻量级的解决方案。
开源与私有化友好：Apache 2.0 许可证支持在涉及专有代码或内部数据的私有环境中自托管部署。
定位明确：并非旨在取代所有大型前沿模型，而是作为 AI 系统栈中的“快速通道”，处理高频、中等复杂度的任务，从而优化整体系统的成本和速度。

意义与影响

Mellum2 的发布反映了 AI 工程实践的一个重要趋势：模型专业化与分层架构。

从“大而全”到“快而精”：过去，开发者倾向于使用最大的模型来处理所有任务。然而，Mellum2 证明了在特定领域（如代码和文本处理）中，通过 MoE 架构和专业化训练，小参数模型可以在保持竞争力的同时，提供极高的推理效率。
降低 AI 应用成本：对于需要频繁调用模型的生产环境（如 IDE 助手、自动化测试 Agent），使用 Mellum2 处理中间步骤可以显著减少计算资源消耗，从而降低运营成本。
增强系统可控性：通过将路由、验证、上下文准备等任务交给轻量级的 Mellum2，开发者可以更精细地控制 AI 系统的行为，避免大型模型在处理简单任务时的“过度思考”或不可预测性。
推动开源生态发展：JetBrains 作为知名的软件开发工具提供商，推出高质量、开源的代码/文本专用模型，将进一步丰富开源 AI 生态，为开发者提供经过工业界验证的高效基础模型。

总之，Mellum2 不仅是一个新的模型，更是一种架构理念的体现：在构建复杂的 AI 系统时，选择合适的模型处理合适的任务，是实现高性能、低成本 AI 应用的关键。

查看原文 →huggingface.co