← 返回信息流
技术博客Hugging Face Blog·7 小时前

Cohere 发布 North Mini Code:首款面向开发者的模型

原标题:Introducing North Mini Code: Cohere’s First Model For Developers

速览

Cohere 正式发布了 North Mini Code,标志着该公司首次推出专门针对开发者群体的模型产品。该模型旨在优化代码生成与理解能力,满足开发者在编程场景下的具体需求。此举进一步丰富了 Cohere 在 AI 领域的产品矩阵,强化了其在开发者生态中的布局。

AI 深度解读

深度解读:Cohere 发布 North Mini Code,专为开发者打造的 Agentic 编码模型

背景

在生成式 AI 迅速渗透软件开发生态的今天,代码生成模型(Code LLMs)的竞争已从单纯的“代码补全”转向更复杂的“智能体(Agentic)”工作流。开发者不再仅仅需要一个能写出单行代码的助手,而是需要一个能够理解复杂工程任务、在终端环境中自主操作、调用工具并解决多步骤问题的智能体。

Cohere 作为自然语言处理领域的先驱,此前主要专注于 RAG(检索增强生成)和企业级 LLM 服务。此次发布的 North Mini Code 标志着 Cohere 正式进军开发者生态,推出了其面向开发者的首款模型。该模型基于 300 亿参数(30B)的混合专家(Mixture-of-Experts, MoE)架构,其中活跃参数仅为 30 亿(3B),旨在以较低的推理成本提供顶级的 Agentic 编码能力,并已在 Hugging Face 上以 Apache 2.0 许可证开源。

核心内容

1. 性能表现:小参数,大能量

North Mini Code 在多个权威基准测试中展现了与其参数量级不符的强大竞争力。在 Artificial Analysis 的 Coding Index 中,North Mini Code 获得了 33.4 的高分。这一成绩不仅超越了同量级的开源模型,如 Qwen3.5 (35B-A3B)、Gemma 4 (26B-A4B) 和 Devstral Small 2 (24B Dense),甚至击败了参数量大得多的模型,包括 Nemotron 3 Super (120B-A12B)、Mistral Small 4 (119B-A6B) 以及 Devstral 2 (123B)。

在 SWE-Bench Verified 和 Terminal-Bench v2 等具体任务中,North Mini Code 的 SFT 最终模型在 SWE-Bench Verified 上达到了 80.2% 的 pass@10 成绩,在 Terminal-Bench v2 上达到了 55.1% 的 pass@10 成绩。特别是在 mini-SWE-Agent 评测中,其 pass@1 成绩高达 61.0%,显示出极强的单步解决能力。

2. 架构设计:稀疏 MoE 与混合注意力

North Mini Code 采用基于 Transformer 的解码器架构,核心为稀疏混合专家(MoE)模型。其架构细节包括:

  • 注意力机制:采用交错排列的滑动窗口自注意力(Sliding-Window Self-Attention,带 RoPE 位置编码)和全局自注意力(Full Self-Attention,无位置嵌入),比例为 3:1。这种设计在保持长上下文处理能力的同时,显著降低了计算复杂度。
  • 专家结构:前馈网络(FFN)块包含 128 个专家,每个 token 激活 8 个专家。每个专家块是一个带有 SwiGLU 激活函数的 FFN 块。路由器在 top-k 选择前对 logits 应用 Sigmoid 激活函数。
  • 前置层:在稀疏层之前使用单个密集层,以增强特征提取能力。

3. 训练策略:两阶段 SFT 与 RLVR

为了打造卓越的编码能力,Cohere 设计了一套精细的后训练(Post-Training)流水线,包含两个阶段的监督微调(SFT)和一个基于可验证奖励的强化学习(RLVR)阶段。

  • 第一阶段 SFT(基础能力构建)

    • 数据构成:使用包含编程、推理和指令遵循的广泛混合数据。其中代码数据占可训练 token 的 70%,包括 43% 的 Agentic 工具使用数据和 27% 的单轮竞赛或科学编程数据。
    • 上下文长度:64K。
    • 目的:建立鲁棒的性能基线,优化采样多样性和 pass@K(高 K 值)。
  • 第二阶段 SFT(深度 Agentic 优化)

    • 数据构成:仅使用 Agentic 和推理驱动的高质量样本,共计 45 亿 token。代码数据占可训练 token 的 61%,且所有工具调用和补全均经过验证,确保可执行且正确。
    • 上下文长度:128K。
    • 多 Harness 泛化:引入少量(6%)其他基准测试 Harness 的数据(相对于 SWE-Agent 的 50%),以增强模型在不同工具环境下的泛化能力。
    • 数据清洗:通过样本级过滤移除无效工具调用、错误空格、畸形特殊符号或幻觉引用等病理现象。
  • RLVR(强化学习)

    • 将 SFT 作为 RLVR 的预热(Priming)。
    • 利用容器化的 Agentic 编码环境生成合成数据。
    • 内部数据管道使用了超过 70,000 个可验证任务,涉及约 5,000 个唯一仓库。
    • 通过与 SWE-Bench 和 SWE-Bench-Pro 的仓库源进行去重,避免评估时的数据泄露。

4. 跨 Harness 鲁棒性

现实世界中的代码智能体依赖于模型在不同工具环境(Harnesses)中的稳定性。Cohere 发现,不同的智能体框架对工具交互的定义差异巨大:

  • SWE-Agent:提供丰富的 CLI 接口,包含 bashstr_replace_editorsubmit 等专用命令。
  • mini-SWE-agent:简化为单一的 bash 工具,仅通过 shell 的标准输出提供反馈。
  • OpenCode:使用细粒度的独立工具(如 edit, grep, todowrite),返回结构化 JSON 响应。

North Mini Code 通过在第二阶段 SFT 中混合不同 Harness 的数据,实现了跨 Harness 的零成本迁移。例如,在 OpenCode 评测中性能提升了 10%,而在 SWE-Agent 上的性能保持不变。此外,对于使用纯文本聊天交互的 Terminus 2 Harness,模型通过引入少量(<20%)纯文本格式数据,也能自然泛化。这表明不同 Harness 所需的技能通常是互补的,且通过数据增强式的多样性引入,可以防止模型死记硬背固定模板,从而真正建立指令与行为之间的逻辑联系。

关键要点

  • 首款开发者模型:North Mini Code 是 Cohere 家族中首款专为开发者设计的模型,采用 Apache 2.0 开源协议。
  • 极致效率:30B 总参数,仅 3B 活跃参数,实现了 MoE 架构下的高推理效率。
  • SOTA 级性能:在 Artificial Analysis Coding Index 中得分 33.4,超越多个参数量大 4-5 倍的竞争对手,成为同尺寸类别中最强的开源编码模型之一。
  • 两阶段级联训练:采用“短上下文到长上下文”的级联 SFT 策略,先建立基础能力,再针对高质量长上下文数据进行微调,避免了数据趋势冲突。
  • RLVR 为核心:SFT 仅作为 RLVR 的预热,核心优化目标是通过可验证奖励的强化学习来提升 Agentic 编码能力。
  • 跨环境泛化:通过混合训练不同工具框架(Harnesses)的数据,模型在 SWE-Agent、OpenCode、mini-SWE-agent 等不同交互模式下均表现出优异的鲁棒性。
  • 数据质量优先:训练数据经过严格筛选,确保工具调用的可执行性和正确性,并通过去重防止数据泄露。

意义与影响

North Mini Code 的发布对开源 AI 社区和软件工程领域具有多重意义:

  1. 降低了 Agentic 编码的门槛:通过 MoE 架构,North Mini Code 在保持强大性能的同时显著降低了推理成本。这使得在本地或边缘设备上部署高性能代码智能体成为可能,促进了 AI 辅助编程工具的普及。 2
查看原文 →huggingface.co