Cohere 发布 North Mini Code:首款面向开发者的模型
速览
Cohere 正式发布了 North Mini Code,标志着该公司首次推出专门针对开发者群体的模型产品。该模型旨在优化代码生成与理解能力,满足开发者在编程场景下的具体需求。此举进一步丰富了 Cohere 在 AI 领域的产品矩阵,强化了其在开发者生态中的布局。
AI 深度解读
深度解读:Cohere 发布 North Mini Code,专为开发者打造的 Agentic 编码模型
背景
在生成式 AI 迅速渗透软件开发生态的今天,代码生成模型(Code LLMs)的竞争已从单纯的“代码补全”转向更复杂的“智能体(Agentic)”工作流。开发者不再仅仅需要一个能写出单行代码的助手,而是需要一个能够理解复杂工程任务、在终端环境中自主操作、调用工具并解决多步骤问题的智能体。
Cohere 作为自然语言处理领域的先驱,此前主要专注于 RAG(检索增强生成)和企业级 LLM 服务。此次发布的 North Mini Code 标志着 Cohere 正式进军开发者生态,推出了其面向开发者的首款模型。该模型基于 300 亿参数(30B)的混合专家(Mixture-of-Experts, MoE)架构,其中活跃参数仅为 30 亿(3B),旨在以较低的推理成本提供顶级的 Agentic 编码能力,并已在 Hugging Face 上以 Apache 2.0 许可证开源。
核心内容
1. 性能表现:小参数,大能量
North Mini Code 在多个权威基准测试中展现了与其参数量级不符的强大竞争力。在 Artificial Analysis 的 Coding Index 中,North Mini Code 获得了 33.4 的高分。这一成绩不仅超越了同量级的开源模型,如 Qwen3.5 (35B-A3B)、Gemma 4 (26B-A4B) 和 Devstral Small 2 (24B Dense),甚至击败了参数量大得多的模型,包括 Nemotron 3 Super (120B-A12B)、Mistral Small 4 (119B-A6B) 以及 Devstral 2 (123B)。
在 SWE-Bench Verified 和 Terminal-Bench v2 等具体任务中,North Mini Code 的 SFT 最终模型在 SWE-Bench Verified 上达到了 80.2% 的 pass@10 成绩,在 Terminal-Bench v2 上达到了 55.1% 的 pass@10 成绩。特别是在 mini-SWE-Agent 评测中,其 pass@1 成绩高达 61.0%,显示出极强的单步解决能力。
2. 架构设计:稀疏 MoE 与混合注意力
North Mini Code 采用基于 Transformer 的解码器架构,核心为稀疏混合专家(MoE)模型。其架构细节包括:
- 注意力机制:采用交错排列的滑动窗口自注意力(Sliding-Window Self-Attention,带 RoPE 位置编码)和全局自注意力(Full Self-Attention,无位置嵌入),比例为 3:1。这种设计在保持长上下文处理能力的同时,显著降低了计算复杂度。
- 专家结构:前馈网络(FFN)块包含 128 个专家,每个 token 激活 8 个专家。每个专家块是一个带有 SwiGLU 激活函数的 FFN 块。路由器在 top-k 选择前对 logits 应用 Sigmoid 激活函数。
- 前置层:在稀疏层之前使用单个密集层,以增强特征提取能力。
3. 训练策略:两阶段 SFT 与 RLVR
为了打造卓越的编码能力,Cohere 设计了一套精细的后训练(Post-Training)流水线,包含两个阶段的监督微调(SFT)和一个基于可验证奖励的强化学习(RLVR)阶段。
-
第一阶段 SFT(基础能力构建):
- 数据构成:使用包含编程、推理和指令遵循的广泛混合数据。其中代码数据占可训练 token 的 70%,包括 43% 的 Agentic 工具使用数据和 27% 的单轮竞赛或科学编程数据。
- 上下文长度:64K。
- 目的:建立鲁棒的性能基线,优化采样多样性和 pass@K(高 K 值)。
-
第二阶段 SFT(深度 Agentic 优化):
- 数据构成:仅使用 Agentic 和推理驱动的高质量样本,共计 45 亿 token。代码数据占可训练 token 的 61%,且所有工具调用和补全均经过验证,确保可执行且正确。
- 上下文长度:128K。
- 多 Harness 泛化:引入少量(6%)其他基准测试 Harness 的数据(相对于 SWE-Agent 的 50%),以增强模型在不同工具环境下的泛化能力。
- 数据清洗:通过样本级过滤移除无效工具调用、错误空格、畸形特殊符号或幻觉引用等病理现象。
-
RLVR(强化学习):
- 将 SFT 作为 RLVR 的预热(Priming)。
- 利用容器化的 Agentic 编码环境生成合成数据。
- 内部数据管道使用了超过 70,000 个可验证任务,涉及约 5,000 个唯一仓库。
- 通过与 SWE-Bench 和 SWE-Bench-Pro 的仓库源进行去重,避免评估时的数据泄露。
4. 跨 Harness 鲁棒性
现实世界中的代码智能体依赖于模型在不同工具环境(Harnesses)中的稳定性。Cohere 发现,不同的智能体框架对工具交互的定义差异巨大:
- SWE-Agent:提供丰富的 CLI 接口,包含
bash、str_replace_editor、submit等专用命令。 - mini-SWE-agent:简化为单一的
bash工具,仅通过 shell 的标准输出提供反馈。 - OpenCode:使用细粒度的独立工具(如
edit,grep,todowrite),返回结构化 JSON 响应。
North Mini Code 通过在第二阶段 SFT 中混合不同 Harness 的数据,实现了跨 Harness 的零成本迁移。例如,在 OpenCode 评测中性能提升了 10%,而在 SWE-Agent 上的性能保持不变。此外,对于使用纯文本聊天交互的 Terminus 2 Harness,模型通过引入少量(<20%)纯文本格式数据,也能自然泛化。这表明不同 Harness 所需的技能通常是互补的,且通过数据增强式的多样性引入,可以防止模型死记硬背固定模板,从而真正建立指令与行为之间的逻辑联系。
关键要点
- 首款开发者模型:North Mini Code 是 Cohere 家族中首款专为开发者设计的模型,采用 Apache 2.0 开源协议。
- 极致效率:30B 总参数,仅 3B 活跃参数,实现了 MoE 架构下的高推理效率。
- SOTA 级性能:在 Artificial Analysis Coding Index 中得分 33.4,超越多个参数量大 4-5 倍的竞争对手,成为同尺寸类别中最强的开源编码模型之一。
- 两阶段级联训练:采用“短上下文到长上下文”的级联 SFT 策略,先建立基础能力,再针对高质量长上下文数据进行微调,避免了数据趋势冲突。
- RLVR 为核心:SFT 仅作为 RLVR 的预热,核心优化目标是通过可验证奖励的强化学习来提升 Agentic 编码能力。
- 跨环境泛化:通过混合训练不同工具框架(Harnesses)的数据,模型在 SWE-Agent、OpenCode、mini-SWE-agent 等不同交互模式下均表现出优异的鲁棒性。
- 数据质量优先:训练数据经过严格筛选,确保工具调用的可执行性和正确性,并通过去重防止数据泄露。
意义与影响
North Mini Code 的发布对开源 AI 社区和软件工程领域具有多重意义:
- 降低了 Agentic 编码的门槛:通过 MoE 架构,North Mini Code 在保持强大性能的同时显著降低了推理成本。这使得在本地或边缘设备上部署高性能代码智能体成为可能,促进了 AI 辅助编程工具的普及。 2
