← 返回信息流
技术博客arXiv cs.CL·4 小时前

SENTINEL:基于失败驱动的强化学习训练工具使用智能体

原标题:SENTINEL: Failure-Driven Reinforcement Learning for Training Tool-Using Language Model Agents

速览

SENTINEL是一种基于失败驱动的强化学习框架,旨在解决工具使用语言模型智能体训练中的分布不匹配问题。该框架通过控制器分析失败轨迹、提议者生成针对性任务、求解者进行训练,将失败转化为高效的训练信号。实验表明,该方法在Tau2-Bench Retail基准上显著提升了Pass@1指标,优于通用合成任务上的强化学习方法。

AI 深度解读

SENTINEL:基于失败驱动的强化学习训练工具使用型语言模型智能体

背景

随着大语言模型(LLM)智能体在现实世界任务中的表现日益出色,多轮工具调用(Multi-turn Tool Use)已成为解决复杂问题的关键能力。然而,在实际应用中,训练出可靠且稳健的工具使用型智能体仍然面临巨大挑战。

目前,强化学习(Reinforcement Learning, RL)为提升智能体性能提供了一条基于策略(On-policy)的路径,即让智能体通过与环境的交互来自我优化。然而,这种方法的效能高度依赖于训练任务分布(Task Distribution)的质量。在传统的训练范式中,任务分布通常在训练开始前就被固定下来。随着智能体策略(Policy)能力的不断演进,固定的任务分布会逐渐与智能体当前的能力水平脱节。这导致大量计算资源被浪费在那些对智能体而言过于简单或过于困难、无法提供有效梯度信号的“无信息量”任务(Uninformative Tasks)上,从而限制了模型性能的进一步提升。

核心内容

为了解决上述问题,研究团队提出了 SENTINEL 框架。这是一个以失败为导向(Failure-Driven)的强化学习框架,其核心理念是将智能体在推理过程中产生的“失败”转化为针对性的训练信号。

SENTINEL 采用了一个 Controller(控制器)— Proposer(提议者)— Solver(求解者) 的闭环迭代机制:

  1. Controller(控制器)分析失败轨迹: 控制器负责监控智能体(Solver)的推理过程,分析那些未能成功完成任务的轨迹(Failed Trajectories)。它不仅仅是记录错误,而是深入分析这些失败案例,总结出反复出现的错误模式(Recurring Error Patterns)和智能体的薄弱环节。

  2. Proposer(提议者)生成针对性任务: 基于控制器总结出的错误模式,提议者(Proposer)负责生成可执行的、旨在“施压”(Stress)这些特定弱点的训练任务。这些任务不是随机生成的,而是专门设计用来暴露和修补智能体当前最脆弱的环节。

  3. Solver(求解者)在针对性任务上训练: 智能体(Solver)随后在这些由提议者生成的、针对其弱点的特定任务上进行强化学习训练。通过这种“哪里不会练哪里”的方式,智能体能够更高效地吸收反馈,弥补能力短板。

该框架在 Tau2-Bench Retail 基准测试上进行了验证,使用的基座模型为 Qwen3-4B-Thinking-2507。实验结果显示,SENTINEL 将模型的 Pass@1 指标从 66.4 提升到了 74.9。此外,在通用的合成任务中,SENTINEL 在 Pass@k 多项指标上也优于传统的强化学习方法。

关键要点

  • 痛点解决:解决了传统强化学习中因任务分布固定而导致的“训练效率低下”问题,避免了在无关紧要或无效任务上的资源浪费。
  • 核心机制:引入了 Controller-Proposer-Solver 的三阶段闭环,将“失败”视为宝贵的数据源,而非单纯的错误结果。
  • 自动化反馈:Controller 自动识别错误模式,Proposer 自动生成对抗性或针对性任务,实现了训练数据的自动化、动态化生成。
  • 性能提升显著:在 Qwen3-4B-Thinking-2507 模型上,Pass@1 准确率提升了 8.5 个百分点(从 66.4 至 74.9)。
  • 可扩展性:研究表明,模型失败提供了一种有效且可扩展的目标训练信号来源,适用于提升工具使用型语言模型智能体的鲁棒性。

意义与影响

SENTINEL 框架的提出标志着工具使用型智能体训练范式的一个重要转变。它证明了模型失败并非训练的终点,而是高质量训练信号的起点

  1. 从“静态分布”到“动态适应”:SENTINEL 打破了传统 RL 对静态任务分布的依赖,实现了训练分布与模型能力的动态匹配。这种自适应机制使得训练过程更加高效,能够随着模型能力的增长不断调整训练难度和方向。
  2. 提升智能体的鲁棒性:通过专门针对错误模式生成训练任务,SENTINEL 能够更有效地修补智能体的系统性缺陷,从而提升其在复杂、多轮工具调用场景下的稳定性和可靠性。
  3. 降低数据标注成本:该方法利用智能体自身的交互失败来生成训练数据,减少了对人工标注高质量失败案例的依赖,为大规模训练智能体提供了更具成本效益的方案。
  4. 推动 Agent 技术落地:随着 SENTINEL 等框架的成熟,工具使用型智能体在零售、客服、自动化运维等需要高精度工具调用的现实场景中的应用将更加可靠,加速了 AI Agent 从实验室走向工业界的关键一步。

总之,SENTINEL 通过巧妙地将失败转化为学习机会,为训练更强大、更可靠的 AI 智能体提供了一条清晰且高效的路径。

查看原文 →arxiv.org