AI 资讯Hacker News·3 小时前

Ornith-1.0：具备自我进化能力的开源智能体编程模型

原标题：Ornith-1.0: self-improving open-source models for agentic coding

速览

Ornith-1.0是一款新发布的开源模型，旨在解决智能体编程（Agentic Coding）中的复杂任务。该模型的核心特性在于其具备自我改进能力，能够通过迭代优化提升代码生成与执行效率。这一进展为开源AI编程助手提供了新的技术路径，有助于降低智能体开发门槛并提升自动化水平。

AI 深度解读

Ornith-1.0：面向智能体编程的自进化开源模型深度解读

背景

在人工智能领域，代码生成与智能体（Agentic）编程已成为大模型落地的核心场景之一。然而，现有的开源模型在复杂代码任务中，往往难以兼顾推理深度与执行效率，且在自我优化能力上存在局限。

在此背景下，Deep Reinforce AI 发布了 Ornith-1.0。这是一个专为智能体编程（Agentic Coding）设计的自进化开源模型系列。Ornith-1.0 并非简单的指令微调模型，而是通过强化学习（RL）框架，让模型不仅学习生成解决方案，更学习生成驱动这些解决方案的“脚手架”（Scaffold）。这种机制使得模型能够发现更优的搜索轨迹，从而生成更高质量的代码。该模型基于 Gemma 4 和 Qwen 3.5 进行后训练，旨在提供具有状态-of-the-art（SOTA）性能的开源编程智能体解决方案。

核心内容

Ornith-1.0 提供了一系列不同规模的模型架构，包括 9B-Dense（密集模型）、31B-Dense、35B-MoE（混合专家模型）以及 397B-MoE。所有模型均基于 Gemma 4 和 Qwen 3.5 进行后训练，并在 Terminal-Bench 2.1、SWE-Bench、NL2Repo 和 OpenClaw 等主流代码基准测试中，取得了同等规模开源模型中的最佳性能。

自进化训练框架

Ornith-1.0 的核心创新在于其自进化训练框架。它利用强化学习，联合优化“脚手架”（Scaffold）和最终的解决方案（Solution Rollouts）。通过这种方式，模型能够学会构建更好的推理结构，进而探索更有效的搜索路径，最终输出更高质量的代码结果。

推理模式与接口

Ornith-1.0 被设计为推理模型（Reasoning Model）。默认情况下，模型的回复会以 <think> ... 代码块开始，展示其思维链（Chain-of-Thought），随后才是最终答案。

推理解析：通过特定的 Serving 配置，思维链内容会被分离到 reasoning_content 字段中。
工具调用：模型生成的工具调用指令会被解析为 OpenAI 标准的 tool_calls 格式。
上下文窗口：所有模型均支持 256K（262,144 token）的超长上下文窗口。
兼容性：所有检查点均暴露 OpenAI 兼容接口，支持 vLLM、SGLang 和 Transformers 等主流推理引擎。

部署与运行要求

硬件需求：
- 9B 密集模型可运行在单张 80GB GPU 上。
- 35B 和 397B MoE 模型需通过张量并行（Tensor Parallelism）在多 GPU 节点上分片运行。
- 提供 FP8 量化版本以降低显存需求。
软件依赖：
- Transformers ≥ 5.8.1
- vLLM ≥ 0.19.1
- SGLang ≥ 0.5.9
采样参数推荐：
- 常规使用：temperature=0.6, top_p=0.95, top_k=20
- 复现基准测试：temperature=1.0, top_p=1.0

基准测试环境细节

Ornith-1.0 在多个权威基准上进行了严格评估，具体环境包括：

Terminal-Bench 2.1 (Terminus-2)：使用 Harbor/Terminus-2 框架，128K 上下文，4小时超时，32核CPU，48GB RAM，5次运行平均。
Terminal-Bench 2.1 (Claude Code)：使用 Claude Code 2.1.126，131,072 最大新 token，5次运行平均。
SWE-bench Verified/Pro/Multilingual：使用 OpenHands harness，256K 上下文。
SWE Atlas QnA/RF/TW：使用 mini-SWE-agent harness，128K 上下文，5次运行平均。
NL2Repo：400K 上下文，48K 输出，启用防黑客过滤。
ClawEval：基于真实用户任务分布的智能体代码基准，256K 上下文。

代码示例与集成

Ornith-1.0 提供了完整的集成示例，包括：

本地加载：使用 Hugging Face Transformers 库直接加载模型进行离线生成。
服务端部署：通过 vLLM 或 SGLang 启动 OpenAI 兼容服务器，支持流式传输和工具调用。
智能体集成：展示了如何通过 MCP（Model Context Protocol）服务器将 Ornith-1.0 与标准智能体框架连接，实现如“列出当前目录 Python 文件”等需要执行 Shell 命令的复杂任务。

关键要点

多架构覆盖：提供从轻量级 9B 到超大规模 397B MoE 的多种选择，兼顾边缘部署与高性能需求。
自进化机制：通过 RL 联合优化推理脚手架与最终代码，显著提升复杂任务的解决能力。
SOTA 性能：在 Terminal-Bench 2.1、SWE-Bench 等关键编程基准上，达到同等规模开源模型的最优水平。
原生推理支持：内置 <think> 标签支持，便于开发者提取思维链进行调试或分析。
无缝集成：完全兼容 OpenAI API 格式，支持 vLLM、SGLang 等主流推理后端，易于接入现有 Agent 框架。
超长上下文：统一支持 256K 上下文窗口，适合处理大型代码库和长文档。
开源许可：采用 MIT 许可证，全球可用，无地域限制。
工具调用能力：原生支持结构化工具调用，可直接驱动 Shell 命令、API 查询等外部工具。

意义与影响

Ornith-1.0 的发布标志着开源编程智能体模型迈入了一个新阶段。其核心价值在于将“推理”与“执行”深度融合，通过自进化框架解决了传统模型在复杂代码任务中容易陷入局部最优或逻辑断裂的问题。

对于开发者而言，Ornith-1.0 提供了极高的灵活性和性能上限。无论是资源受限的边缘设备（9B 模型），还是需要处理超大型代码库的企业级应用（397B MoE 模型），都能找到合适的解决方案。其 OpenAI 兼容接口和标准的工具调用格式，极大地降低了集成门槛，使得现有的智能体生态（如 AutoGen、LangChain 等）能够快速适配这一高性能模型。

此外，Ornith-1.0 对思维链（CoT）的原生支持和透明化输出，为模型的可解释性和调试提供了便利，这对于构建可靠、可审计的代码生成智能体至关重要。随着 AI 编程助手向更自主、更复杂的智能体形态演进，Ornith-1.0 为开源社区提供了一个强有力的基准和工具集。

查看原文 →github.com