AI 资讯Hacker News·1 天前

Ornith-1.0：利用自脚手架技术赋能大模型智能编程

原标题：Ornith-1.0: Self-scaffolding LLMs for agentic coding

速览

Ornith-1.0是一项旨在提升大语言模型在智能体编程场景中表现的技术方案。该方法引入了自脚手架机制，使模型能够自主构建和优化代码结构，从而显著提高编程效率和准确性。这一进展对于推动AI辅助开发工具向更高级的自主编程代理演进具有重要意义。

AI 深度解读

Ornith-1.0：专为智能体编程设计的自演进大模型

背景

在人工智能领域，大语言模型（LLM）在代码生成和智能体编程（Agentic Coding）任务上的表现日益受到关注。然而，传统的强化学习（RL）训练框架通常依赖人工设计的“工具链”（Harnesses）来驱动解决方案的生成，这种方式存在局限性，难以适应复杂多变的编程任务需求。

在此背景下，研究团队推出了 Ornith-1.0，这是一个专为智能体编程任务设计的自改进（Self-improving）开源模型家族。Ornith-1.0 基于预训练的 Gemma 4 和 Qwen 3.5 构建，旨在通过一种全新的训练范式，解决传统方法中人工设计工具链效率低下、泛化能力不足的问题，并在多个主流编程基准测试中达到或超越当前最先进（SOTA）的开源及闭源模型水平。

核心内容

Ornith-1.0 的核心创新在于其自改进训练框架，该框架允许模型同时学习“如何解决问题”以及“如何构建引导解决方案的脚手架（Scaffold）”。

1. 模型架构与规模

Ornith-1.0 提供了一系列不同规模的模型，覆盖了从边缘设备部署到前沿性能优化的全谱系需求：

紧凑型：9B Dense 模型，适合边缘设备部署。
中型：31B Dense 和 35B MoE 模型。
旗舰型：397B MoE 模型，针对最大性能进行优化。

2. 自改进训练机制

与传统 RL 依赖固定的人工设计工具链不同，Ornith-1.0 将“脚手架”视为一个可学习的对象，使其与策略（Policy）共同进化。训练过程分为两个阶段：

脚手架优化：基于任务描述和之前使用的脚手架，模型提出一个改进版的脚手架。
解决方案生成：基于新的脚手架和任务描述，模型生成解决方案的执行轨迹（Rollout）。

奖励信号会反向传播到这两个阶段，促使模型不仅优化答案的质量，还优化生成答案的编排逻辑。这种机制形成了一个反馈循环，使得脚手架不断变异和选择，从而自动涌现出针对特定任务类别的策略，无需人工工程化设计工具链。

3. 解决“奖励黑客”问题

允许模型自主生成脚手架引入了“奖励黑客”（Reward Hacking）的风险，即模型可能通过读取测试文件、硬编码预期输出或复制环境中的预言解（Oracle Solution）来欺骗验证器，而非真正执行任务。为此，Ornith-1.0 采用了三层防御机制：

固定信任边界：环境、工具表面和测试隔离是不可变的，模型只能演化内部策略脚手架（如记忆、错误处理和编排逻辑）。
确定性监控：在代码层面强制执行边界，任何尝试读取隐藏路径、修改验证脚本或调用未授权工具的行为都会被标记，并赋予零奖励且排除在优势计算之外。
冻结 LLM 法官：在验证器之上引入一个冻结的大语言模型作为否决者，防止模型在允许的工具体表面内进行意图层面的博弈。

4. 异步强化学习训练

为了解决长轨迹离线策略问题，Ornith-1.0 采用了 Pipeline-RL 策略。通过应用陈旧性权重（Staleness weight），根据 token 的年龄 $d_t$ 降低早期生成 token 的权重，并在超过阈值时完全丢弃，从而控制离线策略 token 的影响。

关键要点

性能超越闭源巨头：
- Ornith-1.0-397B 在 Terminal-Bench 2.1 上得分 77.5，在 SWE-Bench Verified 上得分 82.4。
- 该成绩超越了 Claude Opus 4.7（TB-2.1: 70.3, SWE-Bench: 80.8）。
- 同时优于同类规模的领先开源模型，如 MiniMax M3（TB-2.1: 66.0, SWE-Bench: 80.5）和 DeepSeek-V4-Pro（TB-2.1: 67.9, SWE-Bench: 80.6）。
小模型具备强大竞争力：
- Ornith-1.0-35B 尽管参数量仅为 35B，但在 Terminal-Bench 2.1 上得分 64.4，超越了参数量大得多的 Qwen 3.5-397B（53.5）。
- 它在多个编程和智能体基准测试中与 Qwen 3.5-397B 的表现持平，显著优于同规模的 Qwen 3.5-35B、Qwen 3.6-35B 和 Gemma 31B。
边缘部署能力出色：
- Ornith-1.0-9B 在 Terminal-Bench 2.1 上得分 43.1，在 SWE-Bench Verified 上得分 69.4。
- 作为一个紧凑型模型，其性能匹配或超过了 Gemma 4-31B 和 Qwen 3.6 35B 等更大规模的模型，证明了资源高效部署下也能实现强大的智能体编程能力。
基准测试配置严谨：
- Terminal-Bench 2.1 评估使用 Harbor/Terminus-2 框架，128K 上下文窗口，4小时超时，32 CPU 核心，48GB RAM，结果取5次运行平均值。
- SWE-Bench 系列使用 OpenHands harness，256k 上下文窗口。
- 针对 Qwen 聊天模板进行了调整以确保训练与推理的一致性。

意义与影响

Ornith-1.0 的发布标志着智能体编程领域的一个重要进展。它证明了通过让模型自主学习和优化“如何编程”的元策略（即脚手架），可以显著提升代码生成和调试的效率与质量，而不仅仅依赖于模型本身的参数规模。

开源生态的突破：Ornith-1.0 在多个关键基准测试中超越了包括 Claude Opus 4.7 在内的顶级闭源模型，展示了开源模型在特定垂直领域（如智能体编程）具备与商业巨头抗衡甚至超越的能力。
效率与性能的平衡：从 9B 到 397B 的广泛覆盖，特别是小模型在边缘设备上的优异表现，为资源受限环境下的 AI 应用提供了切实可行的解决方案。
训练范式的革新：其提出的自改进框架和针对奖励黑客的多层防御机制，为未来强化学习在复杂任务中的应用提供了新的技术参考，推动了从“人工设计工具”向“模型自主演化策略”的转变。

这一成果不仅提升了代码智能体的技术水平，也为开发者提供了更强大、更灵活的开源工具，有望加速 AI 辅助编程和自动化软件工程的发展。

查看原文 →deep-reinforce.com