Retrospective Progress-Aware Self-Refinement for LLM Agent Training
速览
LLM智能体在强化学习中缺乏对任务进度的元认知,阻碍了长程扩展。研究提出RePro框架,采用先执行后反思的范式,让智能体自我生成进度信号。该方法在WebShop等基准测试中显著提升了Qwen系列模型的成功率。
AI 深度解读
回顾式进度感知自我优化:LLM Agent 训练的新范式
来源:arXiv cs.CL 提交日期:2026年6月12日 论文标题:Retrospective Progress-Aware Self-Refinement for LLM Agent Training
背景
基于大语言模型(LLM)的智能体(Agent)在通过强化学习(Reinforcement Learning, RL)进行训练时,主要优化的是逐步的动作预测(step-wise action prediction)。然而,这种训练方式存在一个显著的缺陷:智能体缺乏对任务进度的“元认知意识”(metacognitive awareness)。
这种意识缺失导致了一个关键问题:随着任务时间跨度的增加(long-horizon scaling),智能体难以维持稳定的表现,从而阻碍了其在复杂、长序列任务中的扩展能力。简单来说,LLM 知道“下一步该做什么”,但往往不清楚“我现在离目标还有多远”或“我之前的步骤是否有效”。
为了解决这一问题,研究人员进行了一项试点研究,发现:
- 在线进度提示(Online progress prompting):在推理过程中直接要求模型评估当前进度,实际上会损害性能。
- 回顾式演示(Retrospective demonstrations):在任务完成后回顾并评估进度,则有助于提升性能。
然而,研究也指出,仅依靠基于结果奖励的训练(outcome-reward training)无法自发涌现出这种回顾式评估的能力。因此,需要一种新的训练框架来显式地赋予智能体这种自我反思和进度感知能力。
核心内容
针对上述挑战,论文提出了 RePro(Retrospective Progress-Aware Training,回顾式进度感知训练)框架。该框架旨在训练智能体通过“先执行、后反思”(forward-then-reflect)的 rollout 范式,自我生成进度信号。
1. 核心机制:前向执行与回顾性反思
RePro 的工作流程分为两个阶段:
- 前向执行(Forward Execution):智能体在线执行动作,生成轨迹。
- 回顾性反思(Retrospective Reflection):在轨迹完成后,结合已知的最终结果(known outcome),智能体对每一步的进度进行重新评估。这种事后评估允许智能体基于完整上下文来判断哪些步骤是有效的,哪些是偏离目标的,从而生成高质量的自我监督信号。
2. 训练阶段:回顾式预热与复合奖励优化
RePro 的训练过程分为两个关键步骤:
-
回顾式预热(Retrospection Warmup): 这是训练的初始化阶段。通过提供极少量的外部演示数据(minimal external demonstrations),教导智能体掌握“反思”的输出格式和逻辑。这一步旨在让模型学会如何结构化地表达其对任务进度的判断,而不需要大量的标注数据。
-
RePro-PO 训练: 在预热之后,进入无持续外部监督的训练阶段。该阶段使用一种**复合奖励(composite reward)**机制。这种奖励不仅关注最终任务的完成度,还整合了智能体自我生成的进度信号。通过这种方式,智能体能够在没有人工持续标注的情况下,通过自我生成的信号进行优化,从而提升其进度感知能力。
3. 实验验证
研究者在多个基准环境中对 RePro 进行了评估,包括:
- WebShop:网页购物任务。
- ALFWorld:文本交互的家务任务。
- Sokoban:推箱子谜题。
实验结果显示,RePro 显著增强了 Qwen 系列模型的性能,在成功率上实现了高达 12% 的绝对提升。
关键要点
- 痛点识别:现有基于 RL 的 LLM Agent 缺乏对任务进度的元认知,导致长序列任务扩展性差;在线进度提示无效,而回顾式评估有效。
- 方法创新:提出 RePro 框架,采用“前向执行 + 回顾性反思”的范式,让智能体在任务结束后基于完整轨迹和最终结果自我生成进度信号。
- 训练策略:
- 使用极少量外部演示进行“回顾式预热”,建立反思格式。
- 使用包含自我生成信号的复合奖励进行 RePro-PO 训练,实现无持续外部监督的自我优化。
- 性能提升:在 WebShop、ALFWorld 和 Sokoban 等任务中,Qwen 系列模型的成功率最高提升 12%。
- 独立性:该能力无法仅通过传统的基于结果奖励的训练自发获得,必须通过专门的框架显式训练。
意义与影响
RePro 框架为 LLM Agent 的训练提供了一种新的思路,即从单纯的“动作预测优化”转向“动作预测 + 进度元认知”的双重优化。
- 解决长程任务瓶颈:通过引入回顾式进度感知,智能体能够更好地理解其在长序列任务中的状态,从而改善长期规划和执行能力。这对于需要多步推理的复杂场景(如自动化工作流、复杂游戏、代码生成等)具有重要意义。
- 降低标注依赖:RePro-PO 阶段通过自我生成的信号进行训练,减少了对持续外部监督的依赖,提高了训练效率和可扩展性。
- 验证了“反思”的价值:研究证实,让模型在任务完成后进行回顾性评估,比在过程中强行插入进度提示更有效。这为未来设计更高效的 Agent 训练策略提供了实证依据。
- 通用性潜力:虽然实验集中在 WebShop、ALFWorld 和 Sokoban,但该框架的核心思想——利用完整轨迹和最终结果生成自我监督信号——可能适用于其他需要长程规划的智能体任务。
总之,RePro 通过赋予 LLM Agent 回顾式进度感知能力,弥合了短期动作预测与长期任务目标之间的差距,为构建更强大、更可靠的自主智能体迈出了重要一步。
