← 返回信息流
AI 资讯VentureBeat AI·2026/1/7

Nous Research发布NousCoder-14B开源编程模型,恰逢Claude Code热度高涨

原标题:Nous Research's NousCoder-14B is an open-source coding model landing right in the Claude Code moment

速览

Nous Research发布基于Qwen3-14B微调的开源编程模型NousCoder-14B,在LiveCodeBench v6上准确率达67.87%。该模型仅用48块B200 GPU训练四天,性能匹敌或超越部分大型闭源系统。其最大亮点是公开了完整的强化学习环境和训练框架,旨在推动可复现的开源AI编程研究。

AI 深度解读

Nous Research 发布 NousCoder-14B:开源编程模型直击 Claude Code 高光时刻

背景

在 AI 辅助软件开发领域,竞争正以前所未有的速度加剧。近期,Anthropic 推出的代理式编程工具 Claude Code 自新年伊始便主导了社交媒体讨论,开发者们对其端到端软件开发能力表达了近乎狂热的赞誉。这种“窒息式”的能力展示,让业界意识到 AI 正在重塑软件编写的基础范式。

与此同时,由加密风险投资公司 Paradigm 支持的开源人工智能初创公司 Nous Research 于周一发布了一款极具竞争力的编程模型 NousCoder-14B。该模型声称在性能上匹配甚至超越了多个更大的专有系统,且仅使用 48 块 Nvidia 最新的 B200 图形处理器(GPU),在短短四天内完成训练。这一发布恰逢其时,不仅展示了开源社区在追赶商业巨头方面的潜力,也凸显了 AI 编程工具领域激烈的军备竞赛。

核心内容

NousCoder-14B 是 AI 编程助手拥挤赛道中的又一力作,但其核心亮点在于其训练效率、开源透明度以及令人瞩目的性能指标。

性能表现与基准测试

根据 Nous Research 随发布一同公开的技术报告,NousCoder-14BLiveCodeBench v6 上取得了 67.87% 的准确率。这是一个标准化的评估基准,专门测试模型在 2024 年 8 月至 2025 年 5 月期间发布的竞争性编程问题上的表现。这一成绩比其基础模型(阿里巴巴的 Qwen3-14B)提升了 7.08 个百分点。

为了理解这一成绩的意义,可以参考 Google 主要工程师 Jaana Dogan 在 X 平台上的 viral 帖子。她描述称,只需三段话的提示,Claude Code 就能在小时内生成其团队耗时一年开发的分布式代理编排系统。这种对比极具启发性:虽然 AnthropicClaude Code 通过端到端演示抓住了公众想象力,但 Nous Research 押注于通过可验证问题进行训练的开源替代方案能够缩小差距,并强调模型构建过程的透明度与原始能力同等重要。

极致的开源透明度

与许多竞争对手仅发布模型权重不同,NousCoder-14B 的发布体现了“激进”的开源精神。Nous Research 不仅发布了模型权重,还公开了完整的强化学习环境、基准测试套件以及基于其 Atropos 框架 构建的训练工具链。这意味着任何拥有足够算力的研究人员都可以复现或扩展这项工作。正如一位观察者在 X 上所言:“开源 Atropos 堆栈为可复现的奥林匹克级别推理研究提供了必要的基础设施。”

训练过程与人类能力的对比

该模型由 Nous Research 的驻留研究员 Joe Li 训练,他本人曾是一名竞争性程序员。在技术报告中,Joe Li 将模型的进步轨迹与自己在 Codeforces(一个根据比赛表现评定排名的竞争性编程平台)上的个人经历进行了类比。

  • 人类的学习曲线Joe Li 在 14 至 16 岁期间,经过近两年的持续练习,在 Codeforces 上的排名从约 1600-1750 分跃升至 2100-2200 分。
  • 模型的学习速度NousCoder-14B 在短短四天内实现了同等水平的提升。

然而,Joe Li 也指出了 AI 效率的一个关键局限性:他在两年内解决了约 1,000 个问题,而模型需要解决 24,000 个问题才能达成类似的效果。这表明,至少在样本效率方面,人类仍然是更出色的学习者。

强化学习系统的技术细节

NousCoder-14B 的训练过程揭示了研究人员如何利用强化学习提升 AI 推理能力的复杂技术:

  1. 可验证奖励机制:模型生成代码解决方案,随后在测试用例上执行。系统给予简单的二元信号:正确或错误。
  2. 基础设施支持:使用云计算平台 Modal 并行运行沙盒代码执行。每个训练问题平均包含数百个测试用例,系统必须在 15 秒和 4GB 内存限制内验证生成的代码是否产生正确输出。
  3. DAPO 算法:训练采用了 DAPO (Dynamic Sampling Policy Optimization) 技术,研究人员发现其表现略优于其他替代方案。其核心创新在于“动态采样”——丢弃那些模型要么全对、要么全错的训练示例,因为这些情况无法提供有用的梯度信号用于学习。
  4. 迭代上下文扩展:首先使用 32,000 token 的上下文窗口训练模型,然后扩展到 40,000 token。在评估阶段,将上下文进一步扩展至约 80,000 token 时取得了最佳效果,准确率达到 67.87%。
  5. 流水线并行优化:训练管道重叠了推理和验证过程。一旦模型生成解决方案,它便开始处理下一个问题,同时前一个解决方案正在被检查。结合异步训练(多个模型实例并行工作),这种流水线设计最大化了昂贵 GPU 集群的硬件利用率。

关键要点

  • 性能对标专有模型NousCoder-14BLiveCodeBench v6 上达到 67.87% 的准确率,性能匹敌或超越多个更大的专有系统。
  • 极短训练周期:仅使用 48 块 Nvidia B200 GPU,在四天时间内完成训练,展现了极高的训练效率。
  • 完全开源生态:除了模型权重,还开源了基于 Atropos 框架 的完整强化学习环境、基准测试和训练工具链,支持社区复现和研究。
  • 技术栈创新
    • 采用 DAPO (Dynamic Sampling Policy Optimization) 进行动态采样优化。
    • 使用 Modal 云平台进行并行沙盒代码执行。
    • 实施迭代上下文扩展,最终评估上下文窗口约为 80,000 tokens。
  • 样本效率差距:虽然模型在速度上远超人类(4天 vs 2年),但在样本效率上仍落后于人类(24,000 题 vs 1,000 题)。
  • 背景对比:在 AnthropicClaude Code 引发广泛关注的背景下,Nous Research 证明了开源模型在特定领域(如竞争性编程)具备强大的竞争力和可复现性。

意义与影响

NousCoder-14B 的发布不仅仅是一个新模型的推出,它标志着开源 AI 编程助手进入了一个新阶段。

首先,它挑战了“只有大型专有模型才能提供顶级编程能力”的固有观念。通过高效的训练策略和开源基础设施,Nous Research 证明了中小规模模型在特定垂直领域(如竞争性编程)可以达到与大型专有系统相媲美的水平。

其次,Atropos 框架 和完整训练环境的开源,为学术界和开源社区提供了宝贵的研究基础设施。这将促进可复现的“奥林匹克级别”推理研究,加速 AI 在复杂逻辑和代码生成领域的进步。

最后,随着 Claude Code 等商业工具迅速普及,NousCoder-14B 的出现为开发者提供了另一种选择:一个透明、可审计且可本地部署的开源替代方案。这对于关注数据隐私、成本控制以及希望深入理解模型行为的企业和研究机构来说,具有重要的战略意义。然而,正如报告所暗示的,随着 AI 编程模型的进步,数据短缺可能成为制约进一步发展的瓶颈,这将是未来研究需要面对的关键挑战。

查看原文 →venturebeat.com