← 返回信息流
技术博客Hugging Face Blog·2026/6/1

JetBrains发布120亿参数混合专家模型Mellum2

原标题:Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains

速览

JetBrains正式发布新一代代码模型Mellum2,采用120亿参数的混合专家架构。该模型针对编程辅助和代码理解任务进行了优化,旨在提升开发者的工作效率。Mellum2延续了JetBrains在AI编程工具领域的探索,为IDE集成智能功能提供更强支撑。

AI 深度解读

背景

JetBrains 近日正式发布了 Mellum2,这是一款专为低延迟文本与代码工作负载优化的开源 Mixture-of-Experts(MoE)模型。Mellum 最初是作为代码补全模型诞生的,而 Mellum2 在此基础上进行了重大扩展,将其能力覆盖到更广泛的自然语言和软件工程任务中。

现代 AI 系统正变得越来越复杂,往往需要依赖多次模型调用来完成工作,例如路由、检索、摘要、规划、验证和工具使用。这些操作对延迟非常敏感,但并不总是需要调用最大规模的模型。Mellum2 正是针对这些高频、低延迟需求的系统级工作负载而设计的,旨在为复杂的 AI 架构提供高效且可部署的模型组件。

核心内容

Mellum2 是一个拥有 120 亿(12B)参数的 Mixture-of-Experts 模型,完全基于自然语言和代码从零开始训练。其核心架构优势在于,每个 token 仅激活 25 亿(2.5B)参数,这种稀疏激活特性使其在保证高模型容量的同时,显著提升了推理效率,非常适合高吞吐、低延迟的推理场景。该模型采用 Apache 2.0 许可协议开放下载。

在性能表现上,Mellum2 在代码生成、推理、科学和数学等多项基准测试中,与同等规模的公开模型相比具有竞争力,同时实现了超过 2 倍的推理速度提升,这使其非常契合高吞吐量的生产级工作负载。

Mellum2 的架构设计具有明确的针对性:它专注于文本和代码任务,而非多模态任务。这种专业化设计使其在软件工程工作负载中保持了紧凑和高效的

查看原文 →huggingface.co