← 返回信息流
技术博客arXiv cs.AI·1 天前

EvoTrainer:协同进化策略与训练框架实现自主智能体强化学习

原标题:EvoTrainer: Co-Evolving LLM Policies and Training Harnesses for Autonomous Agentic Reinforcement Learning

速览

EvoTrainer是一种自主训练框架,通过实证反馈协同进化大语言模型策略和训练侧框架。该框架能诊断 rollout 级证据、修订诊断、回溯测试干预并积累可复用技能。在数学推理、代码生成及软件工程任务中,其性能匹配或超越人工设计的强化学习基线,尤其在长周期智能体软件工程任务中提升显著。

AI 深度解读

EvoTrainer:协同进化 LLM 策略与训练框架,实现自主智能体强化学习

背景

当前,大语言模型(LLM)的自主训练研究大多被框定为“配方搜索”(recipe search)。在这种范式下,研究者试图通过自动化手段寻找最优的训练超参数或流程组合,但训练框架(Training Harness)本身往往保持静态。这种局限性在智能体强化学习(Agentic RL)场景中尤为显著:由于瓶颈不断转移,且奖励信号通常是标量(scalar rewards),这掩盖了模型多样化的失败模式,使得静态框架难以有效诊断和解决复杂问题。

传统的 RLHF(基于人类反馈的强化学习)或类似方法通常依赖于人工设计的奖励函数和固定的训练流程,缺乏对训练过程中动态变化的适应能力。特别是在需要长周期决策的软件工程(SWE)或复杂代码生成任务中,静态的训练策略往往无法捕捉到细微的失败原因,导致优化效率低下。

核心内容

为了解决上述问题,研究团队提出了 EvoTrainer,这是一个自主训练框架,旨在通过实证反馈(empirical feedback)协同进化 LLM 策略(Policies)和训练侧的框架(Harnesses)。

1. 协同进化机制

EvoTrainer 的核心创新在于打破了“策略”与“训练框架”之间的界限。它不仅优化模型本身的策略,还动态调整用于训练该模型的框架逻辑。具体流程包括:

  • 诊断(Diagnose):分析 rollout( rollout 指模型生成的一系列动作/输出序列)层面的证据,识别失败模式。
  • 修订诊断(Revise Diagnostics):根据分析结果修正对失败原因的理解。
  • 回溯测试干预(Backtest Interventions):在历史数据上测试新的训练策略或框架调整是否有效。
  • 积累可复用技能(Accumulate Reusable Skills):将验证有效的策略或诊断逻辑固化为可复用的模块,供后续训练使用。

2. 评估场景与结果

EvoTrainer 在三个主要领域进行了评估:

  • 数学推理
  • 竞争性编程代码生成
  • 仓库级软件工程(Repository-level Software Engineering)

实验结果显示,在相同的数据、代码库和评估协议下,EvoTrainer 的表现匹配或超过了人工设计的 RL 参考基准。其中,在长周期智能体软件工程(long-horizon agentic SWE)任务中,EvoTrainer 取得了最大的性能增益。

3. 轨迹分析洞察

通过对训练轨迹的分析,研究揭示了以下关键现象:

  • 策略分化:保留下来的策略在不同领域表现出显著差异,说明没有“万能”的训练配方。
  • 防止虚假繁荣:进化的诊断机制能够有效防止那些得分高但实际无效的分支被错误地推广(promoted),从而提高了训练的质量。
  • 技能积累效应:可复用技能的积累对后续的搜索过程产生了深远影响,使得模型在后期训练中能够更高效地利用过往经验。

关键要点

  • 超越配方搜索:自主 LLM 训练不应局限于寻找静态的训练超参数,而应走向策略与训练框架的联合进化。
  • 实证反馈驱动:EvoTrainer 通过 rollout 层面的实证证据来驱动训练框架的改进,而非依赖预设规则。
  • 解决标量奖励盲区:通过细粒度的诊断和回溯测试,解决了标量奖励掩盖多样化失败模式的问题。
  • 领域特异性进化:不同任务领域(如数学 vs. 代码生成)演化出了截然不同的训练策略,证明了协同进化的适应性。
  • 软件工程领域的显著优势:在复杂的长周期软件工程中,EvoTrainer 相比人工基准提升最大,表明其在处理复杂、多步骤任务中的潜力。
  • 可复用技能的积累:框架具备记忆和积累能力,能够将成功的干预措施转化为可复用的技能,提升长期训练效率。

意义与影响

EvoTrainer 的提出标志着自主 LLM 训练范式的一个重要转变。它挑战了传统上将训练框架视为固定基础设施的观点,证明了训练框架本身也是可以被学习和优化的变量。

对于 AI 基础设施 而言,这意味着未来的训练平台可能具备“自我改进”的能力,能够根据模型在特定任务中的表现自动调整训练逻辑,减少对人工专家经验的依赖。

对于 智能体系统(Agentic Systems) 而言,特别是在软件工程和复杂规划领域,EvoTrainer 展示了如何通过更精细的反馈机制来提升模型的长期决策能力。它表明,仅仅优化模型权重是不够的,优化“如何训练模型”的过程本身同样重要。

最后,这项研究强调了 可解释性与诊断能力 在自主训练中的核心价值。通过引入诊断和回溯测试机制,EvoTrainer 不仅提升了性能,还增强了训练过程的可理解性,有助于研究人员更好地把握模型行为的演变轨迹。

查看原文 →arxiv.org