Nous Research发布开源编程模型NousCoder-14B
速览
Nous Research发布基于Qwen3-14B微调的开源编程模型NousCoder-14B,在LiveCodeBench v6基准测试中准确率达67.87%。该模型在仅用48块Nvidia B200 GPU训练四天后,性能匹敌或超越多个大型专有系统。Nous Research同时开源了Atropos框架及完整训练环境,旨在推动可复现的AI编程研究。
AI 深度解读
Nous Research 发布 NousCoder-14B:开源编程模型直击 Claude Code 高光时刻
背景
Nous Research,一家由加密货币风险投资机构 Paradigm 支持的开源人工智能初创公司,于周一发布了一款具有竞争力的编程模型。该模型仅在 4 天内,利用 48 块 Nvidia 最新的 B200 图形处理器(GPU)训练而成,据称其性能匹配甚至超越了多个更大的专有系统。
这一发布恰逢其时,正值 AI 辅助软件开发领域竞争激烈的时刻。 rival Anthropic 推出的代理式编程工具 Claude Code 自新年以来一直在社交媒体讨论中占据主导地位,开发者们对其能力发表了令人惊叹的评价。这种同步发展的现象凸显了 AI 辅助软件开发的快速演变,以及大小公司为了争夺这一被许多人视为未来软件开发基础技术的激烈竞争。
核心内容
1. 性能表现与基准测试 NousCoder-14B 在 LiveCodeBench v6 上取得了 67.87% 的准确率。LiveCodeBench v6 是一个标准化评估体系,测试模型在 2024 年 8 月至 2025 年 5 月期间发布的竞争性编程问题上的表现。根据 Nous Research 随发布一同公开的技术报告,这一成绩比其基础模型(阿里巴巴的 Qwen3-14B)提高了 7.08 个百分点。
2. 行业背景:Claude Code 的现象级影响 Google 负责 Gemini API 的首席工程师 Jaana Dogan 上周在 X 平台发布了一篇病毒式传播的帖子,捕捉到了围绕 AI 编程工具的普遍情绪。她写道:“我给 Claude Code 一个问题描述,它在一个小时内生成了我们去年花了一年时间构建的东西。”她指的是一个分布式代理编排系统,而 Claude Code 仅通过三段提示词就近似实现了该系统。这种对比极具启发性:虽然 Anthropic 的 Claude Code 通过端到端软件开发演示吸引了人们的想象力,但 Nous Research 押注的是,通过可验证问题进行训练的开源替代方案可以缩小差距,并且模型构建过程的透明度与原始能力同样重要。
3. 极致的开源策略 NousCoder-14B 发布与其他竞争对手公告的区别在于其激进的开放性。Nous Research 不仅发布了模型权重(model weights),还发布了完整的强化学习环境、基准测试套件和训练框架——该框架基于公司的 Atropos 框架构建。这使得任何拥有足够算力的研究人员都可以复现或扩展这项工作。正如 X 平台上的一位观察者所指出的:“开源 Atropos 堆栈为可重现的奥林匹克级别推理研究提供了必要的基础设施。”
4. 训练过程与人类效率的对比 该模型由 Nous Research 的研究员 Joe Li 训练,他本人曾是一名竞争性程序员。Li 的技术报告揭示了一个意想不到的个人维度:他将模型的改进轨迹与自己在 Codeforces(一个竞争性编程平台)上的经历进行了比较。
- 人类 vs AI 的效率: 粗略估计显示,NousCoder-14B 的改进相当于从 Codeforces 评级 1600-1750 范围跃升至 2100-2200。Li 计算得出,这种提升在他身上花了近两年的时间(14 至 16 岁期间),而模型仅用了四天。
- 样本效率差异: Li 指出,在这两年里他解决了大约 1,000 个问题,而模型需要 24,000 个问题。人类至少在目前仍然是显著更高效的样本学习者。
5. 强化学习技术与基础设施 NousCoder-14B 的训练过程展示了研究人员如何利用强化学习提高 AI 推理能力:
- 可验证奖励(Verifiable Rewards): 模型生成代码解决方案,这些方案针对测试用例执行,模型收到简单的二元信号:正确或错误。
- 基础设施: Nous Research 使用云计算平台 Modal 并行运行沙盒代码执行。每个训练问题平均包含数百个测试用例,系统必须在 15 秒和 4GB 内存限制内验证生成的代码是否产生正确的输出。
- DAPO(动态采样策略优化): 训练采用了一种称为 DAPO 的技术,研究人员发现其在实验中略优于其他替代方案。关键创新在于“动态采样”——丢弃模型要么解决所有尝试、要么失败所有尝试的训练示例,因为这些情况无法为学习提供有用的梯度信号。
- 上下文扩展: 研究人员首先使用 32,000 个 token 的上下文窗口训练模型,然后扩展到 40,000 个 token。在评估期间,将上下文进一步扩展到约 80,000 个 token 产生了最佳结果,准确率达到 67.87%。
- 流水线优化: 训练管道重叠了推理和验证——模型生成解决方案后,立即开始处理下一个问题,同时检查前一个解决方案。这种流水线操作与异步训练(多个模型实例并行工作)相结合,最大限度地提高了昂贵 GPU 集群的硬件利用率。
关键要点
- 快速迭代与高性能: NousCoder-14B 在短短 4 天内,利用 48 块 Nvidia B200 GPU 训练完成,在 LiveCodeBench v6 上达到 67.87% 的准确率,超越了基础模型 Qwen3-14B 7.08 个百分点。
- 完全开源与可复现性: 除了模型权重,Nous Research 还开源了基于 Atropos 框架的完整强化学习环境、基准测试套件和训练工具,允许社区复现和扩展研究。
- AI 与人类学习效率的巨大差距: 虽然模型在四天内实现了相当于人类两年高强度训练的性能提升(Codeforces 评级从 ~1600 升至 ~2100),但人类解决了 1,000 个问题,而模型需要 24,000 个问题,显示人类在样本效率上仍具优势。
- 技术细节: 训练采用 DAPO(动态采样策略优化)和“可验证奖励”机制,利用 Modal 云平台进行并行沙盒执行,并通过动态采样和上下文扩展(最终达 80,000 tokens)优化性能。
- 行业竞争背景: 该发布正值 Anthropic 的 Claude Code 引发社交媒体热议之际,凸显了开源社区试图通过透明度和可复现性来竞争专有 AI 编程工具的市场态势。
意义与影响
NousCoder-14B 的发布不仅是一个技术里程碑,更是开源 AI 社区对日益增长的专有 AI 编程工具(如 Claude Code)的一种有力回应。
首先,它证明了通过精心设计的强化学习流程和充足的算力,开源模型可以在特定的编程基准测试中匹敌甚至超越大型专有系统。这对于降低 AI 开发的门槛、促进技术创新至关重要。
其次,其激进的开源策略——包括发布训练环境、基准测试和框架——为学术界和开源社区提供了宝贵的资源。这不仅促进了研究的透明度,还为其他研究人员提供了可复现的基础,有助于加速整个领域的进步。
最后,尽管 AI 在速度上取得了惊人进展,但 Joe Li 指出的样本效率差异提醒我们,人类的学习机制仍然具有独特的优势。未来的 AI 发展可能需要更多地借鉴人类的高效学习模式,而不仅仅是依赖大规模的试错。
随着 AI 辅助软件开发成为基础技术,Nous Research 的举动表明,开源社区有能力通过协作、透明和技术创新,在激烈的市场竞争中占据一席之地。
