技术博客arXiv cs.CL·3 小时前

AutoTrainess: Teaching Language Models to Improve Language Models Autonomously

AI 深度解读

背景

随着前沿语言模型（LMs）在软件工程及其他长程任务上展现出越来越强的能力，大模型的训练与后训练（post-training）过程却依然高度依赖人类专家的深度介入。当前的自主后训练尝试往往将其简化为一个纯粹的代码编写问题，但实际上，自主后训练是一项复杂的系统工程：它要求智能体（agent）在长达数小时的交互中，反复进行迭代规划、构建与基准对齐的数据集、运行稳定的训练作业、评估模型检查点，并妥善维护实验状态。如果让智能体在原始的 CLI（命令行界面）环境中操作，其动作空间往往定义模糊（underspecified），极易导致训练行为不可靠甚至失败。如何引导智能体自主、稳定且有效地完成整个训练闭环，成为释放大模型递归自我改进潜力的关键瓶颈。

核心内容

本文提出了 AutoTrainess，一个旨在自主改进语言模型的语言模型智能体。AutoTrainess 的核心设计在于，它将后训练所需的各项操作封装为一系列明确的代理-计算机接口（agent-computer interfaces），涵盖了规划、数据准备、训练、评估和日志记录等全流程。

不同于让智能体在原始且动作空间模糊的 CLI 环境中“盲人摸象”，AutoTrainess 将人类专家在模型训练中积累的先前经验外化（externalizes）为显式的工作流、规则和执行约束。这些结构化的先验知识就像护栏一样，引导智能体走向有效且可靠的训练行为，从而大幅降低了自主探索的随机性与崩溃风险。

为了验证 AutoTrainess 的效果，研究团队在 PostTrainBench 基准上进行了全面评估。实验结果证明了该框架的显著优势：

超越 CLI 基线：在使用 GPT-5.4 (Codex) 作为底层模型时，AutoTrainess 的平均得分达到 26.94，而仅使用 CLI 的基线得分仅为 23.21，提升显著。
跨模型与跨框架泛化：AutoTrainess 的能力不局限于特定模型或执行环境。在切换到 DeepSeek-V4-Flash (OpenCode) 组合时，该框架成功将平均得分从 12.13 大幅提升至 19.58，展现了极强的迁移与泛化能力。

关键要点

自主后训练是系统工程：自主后训练绝非单纯的代码生成，而是涉及规划、数据构建、训练执行、评估与状态维护的复杂长程任务。
接口封装替代原始 CLI：通过将训练操作封装为明确的代理-计算机接口，替代了动作空间模糊的原始 CLI 环境，大幅提升了智能体操作的可靠性。
人类经验外化作为引导：将专家经验转化为显式的工作流、规则和执行约束，为智能体提供了有效的行为引导，避免了盲目探索。
显著的基准提升与泛化能力：在 PostTrainBench 上，AutoTrainess 不仅大幅超越了 CLI

查看原文 →arxiv.org

AutoTrainess: Teaching Language Models to Improve Language Models Autonomously

AI 深度解读

背景

核心内容

关键要点

相关推荐