技术博客Hugging Face Blog·7 小时前

Cohere 发布 North Mini Code：首款面向开发者的模型

原标题：Introducing North Mini Code: Cohere’s First Model For Developers

速览

Cohere 正式发布了 North Mini Code，标志着该公司首次推出专门针对开发者群体的模型产品。该模型旨在优化代码生成与理解能力，满足开发者在编程场景下的具体需求。此举进一步丰富了 Cohere 在 AI 领域的产品矩阵，强化了其在开发者生态中的布局。

AI 深度解读

深度解读：Cohere 发布 North Mini Code，专为开发者打造的 Agentic 编码模型

背景

在生成式 AI 迅速渗透软件开发生态的今天，代码生成模型（Code LLMs）的竞争已从单纯的“代码补全”转向更复杂的“智能体（Agentic）”工作流。开发者不再仅仅需要一个能写出单行代码的助手，而是需要一个能够理解复杂工程任务、在终端环境中自主操作、调用工具并解决多步骤问题的智能体。

Cohere 作为自然语言处理领域的先驱，此前主要专注于 RAG（检索增强生成）和企业级 LLM 服务。此次发布的 North Mini Code 标志着 Cohere 正式进军开发者生态，推出了其面向开发者的首款模型。该模型基于 300 亿参数（30B）的混合专家（Mixture-of-Experts, MoE）架构，其中活跃参数仅为 30 亿（3B），旨在以较低的推理成本提供顶级的 Agentic 编码能力，并已在 Hugging Face 上以 Apache 2.0 许可证开源。

核心内容

1. 性能表现：小参数，大能量

North Mini Code 在多个权威基准测试中展现了与其参数量级不符的强大竞争力。在 Artificial Analysis 的 Coding Index 中，North Mini Code 获得了 33.4 的高分。这一成绩不仅超越了同量级的开源模型，如 Qwen3.5 (35B-A3B)、Gemma 4 (26B-A4B) 和 Devstral Small 2 (24B Dense)，甚至击败了参数量大得多的模型，包括 Nemotron 3 Super (120B-A12B)、Mistral Small 4 (119B-A6B) 以及 Devstral 2 (123B)。

在 SWE-Bench Verified 和 Terminal-Bench v2 等具体任务中，North Mini Code 的 SFT 最终模型在 SWE-Bench Verified 上达到了 80.2% 的 pass@10 成绩，在 Terminal-Bench v2 上达到了 55.1% 的 pass@10 成绩。特别是在 mini-SWE-Agent 评测中，其 pass@1 成绩高达 61.0%，显示出极强的单步解决能力。

2. 架构设计：稀疏 MoE 与混合注意力

North Mini Code 采用基于 Transformer 的解码器架构，核心为稀疏混合专家（MoE）模型。其架构细节包括：

注意力机制：采用交错排列的滑动窗口自注意力（Sliding-Window Self-Attention，带 RoPE 位置编码）和全局自注意力（Full Self-Attention，无位置嵌入），比例为 3:1。这种设计在保持长上下文处理能力的同时，显著降低了计算复杂度。
专家结构：前馈网络（FFN）块包含 128 个专家，每个 token 激活 8 个专家。每个专家块是一个带有 SwiGLU 激活函数的 FFN 块。路由器在 top-k 选择前对 logits 应用 Sigmoid 激活函数。
前置层：在稀疏层之前使用单个密集层，以增强特征提取能力。

3. 训练策略：两阶段 SFT 与 RLVR

为了打造卓越的编码能力，Cohere 设计了一套精细的后训练（Post-Training）流水线，包含两个阶段的监督微调（SFT）和一个基于可验证奖励的强化学习（RLVR）阶段。

第一阶段 SFT（基础能力构建）：
- 数据构成：使用包含编程、推理和指令遵循的广泛混合数据。其中代码数据占可训练 token 的 70%，包括 43% 的 Agentic 工具使用数据和 27% 的单轮竞赛或科学编程数据。
- 上下文长度：64K。
- 目的：建立鲁棒的性能基线，优化采样多样性和 pass@K（高 K 值）。
第二阶段 SFT（深度 Agentic 优化）：
- 数据构成：仅使用 Agentic 和推理驱动的高质量样本，共计 45 亿 token。代码数据占可训练 token 的 61%，且所有工具调用和补全均经过验证，确保可执行且正确。
- 上下文长度：128K。
- 多 Harness 泛化：引入少量（6%）其他基准测试 Harness 的数据（相对于 SWE-Agent 的 50%），以增强模型在不同工具环境下的泛化能力。
- 数据清洗：通过样本级过滤移除无效工具调用、错误空格、畸形特殊符号或幻觉引用等病理现象。
RLVR（强化学习）：
- 将 SFT 作为 RLVR 的预热（Priming）。
- 利用容器化的 Agentic 编码环境生成合成数据。
- 内部数据管道使用了超过 70,000 个可验证任务，涉及约 5,000 个唯一仓库。
- 通过与 SWE-Bench 和 SWE-Bench-Pro 的仓库源进行去重，避免评估时的数据泄露。

4. 跨 Harness 鲁棒性

现实世界中的代码智能体依赖于模型在不同工具环境（Harnesses）中的稳定性。Cohere 发现，不同的智能体框架对工具交互的定义差异巨大：

SWE-Agent：提供丰富的 CLI 接口，包含 bash、str_replace_editor、submit 等专用命令。
mini-SWE-agent：简化为单一的 bash 工具，仅通过 shell 的标准输出提供反馈。
OpenCode：使用细粒度的独立工具（如 edit, grep, todowrite），返回结构化 JSON 响应。

North Mini Code 通过在第二阶段 SFT 中混合不同 Harness 的数据，实现了跨 Harness 的零成本迁移。例如，在 OpenCode 评测中性能提升了 10%，而在 SWE-Agent 上的性能保持不变。此外，对于使用纯文本聊天交互的 Terminus 2 Harness，模型通过引入少量（<20%）纯文本格式数据，也能自然泛化。这表明不同 Harness 所需的技能通常是互补的，且通过数据增强式的多样性引入，可以防止模型死记硬背固定模板，从而真正建立指令与行为之间的逻辑联系。

关键要点

首款开发者模型：North Mini Code 是 Cohere 家族中首款专为开发者设计的模型，采用 Apache 2.0 开源协议。
极致效率：30B 总参数，仅 3B 活跃参数，实现了 MoE 架构下的高推理效率。
SOTA 级性能：在 Artificial Analysis Coding Index 中得分 33.4，超越多个参数量大 4-5 倍的竞争对手，成为同尺寸类别中最强的开源编码模型之一。
两阶段级联训练：采用“短上下文到长上下文”的级联 SFT 策略，先建立基础能力，再针对高质量长上下文数据进行微调，避免了数据趋势冲突。
RLVR 为核心：SFT 仅作为 RLVR 的预热，核心优化目标是通过可验证奖励的强化学习来提升 Agentic 编码能力。
跨环境泛化：通过混合训练不同工具框架（Harnesses）的数据，模型在 SWE-Agent、OpenCode、mini-SWE-agent 等不同交互模式下均表现出优异的鲁棒性。
数据质量优先：训练数据经过严格筛选，确保工具调用的可执行性和正确性，并通过去重防止数据泄露。

意义与影响

North Mini Code 的发布对开源 AI 社区和软件工程领域具有多重意义：

降低了 Agentic 编码的门槛：通过 MoE 架构，North Mini Code 在保持强大性能的同时显著降低了推理成本。这使得在本地或边缘设备上部署高性能代码智能体成为可能，促进了 AI 辅助编程工具的普及。 2

查看原文 →huggingface.co