JetBrains 发布 Mellum2:一款 12B 混合专家模型
速览
JetBrains 正式发布了 Mellum2,这是一款基于混合专家(MoE)架构的 12B 参数大模型。该模型旨在通过高效的稀疏激活机制,在保持高性能的同时优化计算资源消耗。作为 JetBrains 在 AI 领域的最新成果,Mellum2 展示了其在代码生成及软件工程辅助方面的潜力。
AI 深度解读
JetBrains 发布 Mellum2:专为低延迟代码与文本任务优化的 12B MoE 模型
JetBrains 正式发布了 Mellum2,这是一款从自然语言和代码数据中从头训练的 12B(120亿)参数混合专家(Mixture-of-Experts, MoE)模型。该模型旨在解决现代 AI 系统中对高吞吐量、低延迟推理的迫切需求,特别是在软件工程和自然语言处理领域。
背景
随着 AI 系统的成熟,其架构正逐渐从单一的单体模型(Monolithic models)向更复杂的组件化系统转变。现代 AI 应用不再仅仅依赖一个大模型完成所有任务,而是需要多个模型协同工作,包括路由(Routing)、检索增强生成(RAG)、摘要、规划、验证以及工具调用等。
在这些复杂的流水线中,许多操作对延迟极其敏感,且并不需要动用参数量最大、推理最慢的前沿模型。例如,在 IDE 内部、RAG 管道或 Agent 工作流中,大量的中间步骤(如提示词分类、上下文压缩、子任务规划)只需要快速、高效的响应。
Mellum 最初是作为代码补全模型开发的。JetBrains 此次推出 Mellum2,旨在扩展其基础能力,使其能够处理更广泛的自然语言和软件工程任务,同时保持模型在推理效率和可部署性上的专注。Mellum2 被定位为一种“焦点”模型(Focal Model):一个快速、范围明确且针对高频任务优化的模型,旨在让更大的 AI 系统栈运行得更快、更便宜、更易于控制。
核心内容
模型架构与效率
Mellum2 采用混合专家(MoE)架构。这种架构的核心优势在于,虽然模型的总容量高达 12B 参数,但在处理每个 Token 时,仅激活约 2.5B 参数。这种设计使得模型在保持强大容量的同时,显著提高了推理效率,降低了实时工作负载的服务成本。
与多模态模型不同,Mellum2 有意专注于文本和代码任务,而非多模态处理。这种专业化设计使得模型更加紧凑,特别适合软件工程工作负载。
性能表现
根据 JetBrains 发布的技术报告,Mellum2 在代码生成、推理、科学和数学基准测试中表现具有竞争力,与同规模的开源模型相当。更重要的是,其推理速度比类似规模的模型快 2 倍以上。这一性能优势使其非常适合高吞吐量的生产环境工作负载。
许可与获取
- 许可证:Mellum2 采用 Apache 2.0 许可证发布,允许商业和学术研究自由使用。
- 下载链接:模型已在 Hugging Face 开源,可通过 JetBrains Mellum 2 Collection 获取。
- 技术细节:完整的架构细节、训练设置、基准测试及评估方法详见技术报告:arXiv:2605.31268。
关键要点
- 高效推理:作为 12B 参数的 MoE 模型,Mellum2 每 Token 仅激活 2.5B 参数,实现了比同类模型快 2 倍以上的推理速度。
- 多场景适用:适用于路由、RAG(检索增强生成)、摘要、子智能体(Sub-agents)、高吞吐量编码功能以及私有化部署。
- 专注代码与文本:模型专为自然语言和代码优化,未包含多模态能力,从而保持了模型的紧凑性和在软件工程领域的专业性。
- 解决延迟痛点:针对多模型系统中对延迟敏感的操作(如提示词分类、工具选择、中间控制流),提供轻量级的解决方案。
- 开源与私有化友好:Apache 2.0 许可证支持在涉及专有代码或内部数据的私有环境中自托管部署。
- 定位明确:并非旨在取代所有大型前沿模型,而是作为 AI 系统栈中的“快速通道”,处理高频、中等复杂度的任务,从而优化整体系统的成本和速度。
意义与影响
Mellum2 的发布反映了 AI 工程实践的一个重要趋势:模型专业化与分层架构。
- 从“大而全”到“快而精”:过去,开发者倾向于使用最大的模型来处理所有任务。然而,Mellum2 证明了在特定领域(如代码和文本处理)中,通过 MoE 架构和专业化训练,小参数模型可以在保持竞争力的同时,提供极高的推理效率。
- 降低 AI 应用成本:对于需要频繁调用模型的生产环境(如 IDE 助手、自动化测试 Agent),使用 Mellum2 处理中间步骤可以显著减少计算资源消耗,从而降低运营成本。
- 增强系统可控性:通过将路由、验证、上下文准备等任务交给轻量级的 Mellum2,开发者可以更精细地控制 AI 系统的行为,避免大型模型在处理简单任务时的“过度思考”或不可预测性。
- 推动开源生态发展:JetBrains 作为知名的软件开发工具提供商,推出高质量、开源的代码/文本专用模型,将进一步丰富开源 AI 生态,为开发者提供经过工业界验证的高效基础模型。
总之,Mellum2 不仅是一个新的模型,更是一种架构理念的体现:在构建复杂的 AI 系统时,选择合适的模型处理合适的任务,是实现高性能、低成本 AI 应用的关键。
