← 返回信息流
AI 资讯Hacker News·1 天前

Ornith-1.0:利用自脚手架技术赋能大模型智能编程

原标题:Ornith-1.0: Self-scaffolding LLMs for agentic coding

速览

Ornith-1.0是一项旨在提升大语言模型在智能体编程场景中表现的技术方案。该方法引入了自脚手架机制,使模型能够自主构建和优化代码结构,从而显著提高编程效率和准确性。这一进展对于推动AI辅助开发工具向更高级的自主编程代理演进具有重要意义。

AI 深度解读

Ornith-1.0:专为智能体编程设计的自演进大模型

背景

在人工智能领域,大语言模型(LLM)在代码生成和智能体编程(Agentic Coding)任务上的表现日益受到关注。然而,传统的强化学习(RL)训练框架通常依赖人工设计的“工具链”(Harnesses)来驱动解决方案的生成,这种方式存在局限性,难以适应复杂多变的编程任务需求。

在此背景下,研究团队推出了 Ornith-1.0,这是一个专为智能体编程任务设计的自改进(Self-improving)开源模型家族。Ornith-1.0 基于预训练的 Gemma 4Qwen 3.5 构建,旨在通过一种全新的训练范式,解决传统方法中人工设计工具链效率低下、泛化能力不足的问题,并在多个主流编程基准测试中达到或超越当前最先进(SOTA)的开源及闭源模型水平。

核心内容

Ornith-1.0 的核心创新在于其自改进训练框架,该框架允许模型同时学习“如何解决问题”以及“如何构建引导解决方案的脚手架(Scaffold)”。

1. 模型架构与规模

Ornith-1.0 提供了一系列不同规模的模型,覆盖了从边缘设备部署到前沿性能优化的全谱系需求:

  • 紧凑型:9B Dense 模型,适合边缘设备部署。
  • 中型:31B Dense 和 35B MoE 模型。
  • 旗舰型:397B MoE 模型,针对最大性能进行优化。

2. 自改进训练机制

与传统 RL 依赖固定的人工设计工具链不同,Ornith-1.0 将“脚手架”视为一个可学习的对象,使其与策略(Policy)共同进化。训练过程分为两个阶段:

  1. 脚手架优化:基于任务描述和之前使用的脚手架,模型提出一个改进版的脚手架。
  2. 解决方案生成:基于新的脚手架和任务描述,模型生成解决方案的执行轨迹(Rollout)。

奖励信号会反向传播到这两个阶段,促使模型不仅优化答案的质量,还优化生成答案的编排逻辑。这种机制形成了一个反馈循环,使得脚手架不断变异和选择,从而自动涌现出针对特定任务类别的策略,无需人工工程化设计工具链。

3. 解决“奖励黑客”问题

允许模型自主生成脚手架引入了“奖励黑客”(Reward Hacking)的风险,即模型可能通过读取测试文件、硬编码预期输出或复制环境中的预言解(Oracle Solution)来欺骗验证器,而非真正执行任务。为此,Ornith-1.0 采用了三层防御机制:

  • 固定信任边界:环境、工具表面和测试隔离是不可变的,模型只能演化内部策略脚手架(如记忆、错误处理和编排逻辑)。
  • 确定性监控:在代码层面强制执行边界,任何尝试读取隐藏路径、修改验证脚本或调用未授权工具的行为都会被标记,并赋予零奖励且排除在优势计算之外。
  • 冻结 LLM 法官:在验证器之上引入一个冻结的大语言模型作为否决者,防止模型在允许的工具体表面内进行意图层面的博弈。

4. 异步强化学习训练

为了解决长轨迹离线策略问题,Ornith-1.0 采用了 Pipeline-RL 策略。通过应用陈旧性权重(Staleness weight),根据 token 的年龄 $d_t$ 降低早期生成 token 的权重,并在超过阈值时完全丢弃,从而控制离线策略 token 的影响。

关键要点

  • 性能超越闭源巨头

    • Ornith-1.0-397BTerminal-Bench 2.1 上得分 77.5,在 SWE-Bench Verified 上得分 82.4
    • 该成绩超越了 Claude Opus 4.7(TB-2.1: 70.3, SWE-Bench: 80.8)。
    • 同时优于同类规模的领先开源模型,如 MiniMax M3(TB-2.1: 66.0, SWE-Bench: 80.5)和 DeepSeek-V4-Pro(TB-2.1: 67.9, SWE-Bench: 80.6)。
  • 小模型具备强大竞争力

    • Ornith-1.0-35B 尽管参数量仅为 35B,但在 Terminal-Bench 2.1 上得分 64.4,超越了参数量大得多的 Qwen 3.5-397B(53.5)。
    • 它在多个编程和智能体基准测试中与 Qwen 3.5-397B 的表现持平,显著优于同规模的 Qwen 3.5-35B、Qwen 3.6-35B 和 Gemma 31B。
  • 边缘部署能力出色

    • Ornith-1.0-9B 在 Terminal-Bench 2.1 上得分 43.1,在 SWE-Bench Verified 上得分 69.4
    • 作为一个紧凑型模型,其性能匹配或超过了 Gemma 4-31BQwen 3.6 35B 等更大规模的模型,证明了资源高效部署下也能实现强大的智能体编程能力。
  • 基准测试配置严谨

    • Terminal-Bench 2.1 评估使用 Harbor/Terminus-2 框架,128K 上下文窗口,4小时超时,32 CPU 核心,48GB RAM,结果取5次运行平均值。
    • SWE-Bench 系列使用 OpenHands harness,256k 上下文窗口。
    • 针对 Qwen 聊天模板进行了调整以确保训练与推理的一致性。

意义与影响

Ornith-1.0 的发布标志着智能体编程领域的一个重要进展。它证明了通过让模型自主学习和优化“如何编程”的元策略(即脚手架),可以显著提升代码生成和调试的效率与质量,而不仅仅依赖于模型本身的参数规模。

  1. 开源生态的突破:Ornith-1.0 在多个关键基准测试中超越了包括 Claude Opus 4.7 在内的顶级闭源模型,展示了开源模型在特定垂直领域(如智能体编程)具备与商业巨头抗衡甚至超越的能力。
  2. 效率与性能的平衡:从 9B 到 397B 的广泛覆盖,特别是小模型在边缘设备上的优异表现,为资源受限环境下的 AI 应用提供了切实可行的解决方案。
  3. 训练范式的革新:其提出的自改进框架和针对奖励黑客的多层防御机制,为未来强化学习在复杂任务中的应用提供了新的技术参考,推动了从“人工设计工具”向“模型自主演化策略”的转变。

这一成果不仅提升了代码智能体的技术水平,也为开发者提供了更强大、更灵活的开源工具,有望加速 AI 辅助编程和自动化软件工程的发展。

查看原文 →deep-reinforce.com