技术博客Hugging Face Blog·2026/6/1

JetBrains发布120亿参数混合专家模型Mellum2

原标题：Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains

速览

JetBrains正式发布新一代代码模型Mellum2，采用120亿参数的混合专家架构。该模型针对编程辅助和代码理解任务进行了优化，旨在提升开发者的工作效率。Mellum2延续了JetBrains在AI编程工具领域的探索，为IDE集成智能功能提供更强支撑。

AI 深度解读

背景

JetBrains 近日正式发布了 Mellum2，这是一款专为低延迟文本与代码工作负载优化的开源 Mixture-of-Experts（MoE）模型。Mellum 最初是作为代码补全模型诞生的，而 Mellum2 在此基础上进行了重大扩展，将其能力覆盖到更广泛的自然语言和软件工程任务中。

现代 AI 系统正变得越来越复杂，往往需要依赖多次模型调用来完成工作，例如路由、检索、摘要、规划、验证和工具使用。这些操作对延迟非常敏感，但并不总是需要调用最大规模的模型。Mellum2 正是针对这些高频、低延迟需求的系统级工作负载而设计的，旨在为复杂的 AI 架构提供高效且可部署的模型组件。

核心内容

Mellum2 是一个拥有 120 亿（12B）参数的 Mixture-of-Experts 模型，完全基于自然语言和代码从零开始训练。其核心架构优势在于，每个 token 仅激活 25 亿（2.5B）参数，这种稀疏激活特性使其在保证高模型容量的同时，显著提升了推理效率，非常适合高吞吐、低延迟的推理场景。该模型采用 Apache 2.0 许可协议开放下载。

在性能表现上，Mellum2 在代码生成、推理、科学和数学等多项基准测试中，与同等规模的公开模型相比具有竞争力，同时实现了超过 2 倍的推理速度提升，这使其非常契合高吞吐量的生产级工作负载。

Mellum2 的架构设计具有明确的针对性：它专注于文本和代码任务，而非多模态任务。这种专业化设计使其在软件工程工作负载中保持了紧凑和高效的

查看原文 →huggingface.co

JetBrains发布120亿参数混合专家模型Mellum2

速览

AI 深度解读

背景

核心内容

相关推荐