AutoTrainess: Teaching Language Models to Improve Language Models Autonomously
AI 深度解读
背景
随着前沿语言模型(LMs)在软件工程及其他长程任务上展现出越来越强的能力,大模型的训练与后训练(post-training)过程却依然高度依赖人类专家的深度介入。当前的自主后训练尝试往往将其简化为一个纯粹的代码编写问题,但实际上,自主后训练是一项复杂的系统工程:它要求智能体(agent)在长达数小时的交互中,反复进行迭代规划、构建与基准对齐的数据集、运行稳定的训练作业、评估模型检查点,并妥善维护实验状态。如果让智能体在原始的 CLI(命令行界面)环境中操作,其动作空间往往定义模糊(underspecified),极易导致训练行为不可靠甚至失败。如何引导智能体自主、稳定且有效地完成整个训练闭环,成为释放大模型递归自我改进潜力的关键瓶颈。
核心内容
本文提出了 AutoTrainess,一个旨在自主改进语言模型的语言模型智能体。AutoTrainess 的核心设计在于,它将后训练所需的各项操作封装为一系列明确的代理-计算机接口(agent-computer interfaces),涵盖了规划、数据准备、训练、评估和日志记录等全流程。
不同于让智能体在原始且动作空间模糊的 CLI 环境中“盲人摸象”,AutoTrainess 将人类专家在模型训练中积累的先前经验外化(externalizes)为显式的工作流、规则和执行约束。这些结构化的先验知识就像护栏一样,引导智能体走向有效且可靠的训练行为,从而大幅降低了自主探索的随机性与崩溃风险。
为了验证 AutoTrainess 的效果,研究团队在 PostTrainBench 基准上进行了全面评估。实验结果证明了该框架的显著优势:
- 超越 CLI 基线:在使用 GPT-5.4 (Codex) 作为底层模型时,AutoTrainess 的平均得分达到 26.94,而仅使用 CLI 的基线得分仅为 23.21,提升显著。
- 跨模型与跨框架泛化:AutoTrainess 的能力不局限于特定模型或执行环境。在切换到 DeepSeek-V4-Flash (OpenCode) 组合时,该框架成功将平均得分从 12.13 大幅提升至 19.58,展现了极强的迁移与泛化能力。
关键要点
- 自主后训练是系统工程:自主后训练绝非单纯的代码生成,而是涉及规划、数据构建、训练执行、评估与状态维护的复杂长程任务。
- 接口封装替代原始 CLI:通过将训练操作封装为明确的代理-计算机接口,替代了动作空间模糊的原始 CLI 环境,大幅提升了智能体操作的可靠性。
- 人类经验外化作为引导:将专家经验转化为显式的工作流、规则和执行约束,为智能体提供了有效的行为引导,避免了盲目探索。
- 显著的基准提升与泛化能力:在 PostTrainBench 上,AutoTrainess 不仅大幅超越了 CLI
查看原文 →arxiv.org
