技术博客arXiv cs.AI·3 小时前

ATOD：通过退火式多轮在线蒸馏提升智能体性能

原标题：ATOD: Annealed Turn-aware On-policy Distillation for Multi-turn Autonomous Agents

速览

针对小语言模型智能体在长周期交互任务中面临的模仿效率与奖励优化瓶颈，本文提出退火式多轮在线蒸馏（ATOD）算法。该混合算法利用退火策略，在训练早期以在线蒸馏快速逼近教师模型水平，随后逐步增强强化学习以驱动基于奖励的探索。此外，引入层级分歧不确定性重加权机制，有效增强长轨迹中的密集监督信号。实验表明，ATOD在ALFWorld等基准上显著优于现有基线，甚至超越教师模型表现。

AI 深度解读

ATOD：面向多轮自主智能体的退火回合感知在线策略蒸馏

背景

在构建能够执行长周期交互式任务的小型语言模型（Small Language Models, SLMs）智能体时，训练过程面临着双重挑战：既需要快速的模仿学习能力，又需要基于奖励驱动的持续改进能力。目前，主流的训练范式主要依赖两种技术路线，但它们各自存在明显的局限性。

第一种是在线策略蒸馏（On-policy Distillation, OPD）。该方法通过提供密集的导师（Teacher）指导，使学生在训练初期能够迅速逼近导师的行为水平，从而获得快速的性能提升。然而，一旦学生模型的行为接近导师模型，其性能增益往往会迅速饱和，导致最终的性能天花板受限，难以超越导师模型。

第二种是强化学习（Reinforcement Learning, RL）。RL 直接优化环境奖励，鼓励模型进行探索性改进，从而有望达到由奖励定义的高性能天花板。但是，由于环境反馈通常是稀疏且延迟的，RL 在训练早期的学习效率远低于 OPD，导致收敛速度慢且不稳定。

现有的研究往往难以同时兼顾这两种方法的互补优势：OPD 擅长早期快速收敛但上限低，RL 擅长后期突破上限但早期效率低。因此，如何设计一种能够显式利用这种互补性的混合算法，成为提升多轮自主智能体性能的关键问题。

核心内容

为了解决上述矛盾，研究人员提出了 ATOD（Annealed Turn-aware On-policy Distillation，退火回合感知在线策略蒸馏）。这是一种混合在线蒸馏算法，旨在通过结合 OPD 的快速模仿能力和 RL 的探索优化能力，突破传统方法的性能瓶颈。

ATOD 的核心创新主要体现在以下两个机制：

1. 退火式的 OPD-RL 调度策略（Annealed OPD-RL Schedule）

ATOD 采用了一种动态调整权重的训练调度机制，明确地利用了 OPD 和 RL 在不同训练阶段的互补性：

早期阶段（OPD 主导）： 在训练初期，算法主要依赖 OPD。此时，学生模型通过模仿导师的行为，快速建立基础能力并逼近导师水平。这一阶段利用了 OPD 提供密集监督信号的优势，确保了学习的稳定性和效率。
后期阶段（RL 逐渐增强）： 随着训练的深入，算法逐渐增强 RL 的权重。通过引入基于奖励的探索，驱动模型在导师行为的基础上进行优化，从而突破 OPD 带来的性能饱和限制，向更高的奖励定义天花板迈进。

这种“退火”式的过渡策略，使得模型既能享受早期快速收敛的红利，又能获得后期通过探索提升上限的机会。

2. 回合级分歧-不确定性重加权（Turn-level Disagreement-Uncertainty Reweighting, T-DUR）

为了进一步改善长轨迹中的密集监督效果，ATOD 引入了 T-DUR 机制。

问题背景： 在多轮对话或长任务轨迹中，并非所有回合（Turn）对最终结果的影响都相同。传统的蒸馏方法往往对所有回合一视同仁，导致高价值回合的信号被稀释。
机制原理： T-DUR 通过计算学生模型与导师模型在特定回合上的“分歧”以及模型自身的“不确定性”，来软性地放大高效用回合（High-utility turns）的权重。
作用： 这种重加权机制使得模型更加关注那些对最终任务成功与否至关重要的决策点，从而在长轨迹中提供更精准、更密集的监督信号，提升了学习效率。

关键要点

算法名称： ATOD (Annealed Turn-aware On-policy Distillation)。
核心目标： 解决小型语言模型智能体在长周期交互任务中，模仿学习（OPD）与强化学习（RL）之间的效率与上限矛盾。
主要创新点 1： 提出退火式的 OPD-RL 混合调度，早期以 OPD 快速逼近导师，后期以 RL 驱动探索以突破性能瓶颈。
主要创新点 2： 引入 T-DUR（回合级分歧-不确定性重加权），通过软性放大高价值回合的权重，优化长轨迹中的监督信号密度。
实验基准： 在 ALFWorld、WebShop 和 Search-QA 三个基准测试集上进行验证。
性能表现：
- 相比 OPD 基线，ATOD 在三种不同规模的学生模型上，平均成功率提升了 3.03 个百分点。
- 相比 GRPO（Group Relative Policy Optimization）基线，平均成功率提升了 23.62 个百分点。
- 值得注意的是，ATOD 不仅超越了传统的蒸馏和 RL 基线，其最终性能还超越了其对应的导师模型（Teacher Models），平均提升了 2.16 个百分点。

意义与影响

ATOD 的提出对于小型语言模型智能体的训练具有重要的理论和实践意义：

打破了“学生无法超越导师”的传统认知： 传统观点认为，基于模仿学习的蒸馏方法，学生模型的性能上限通常受限于导师模型。ATOD 通过引入后期 RL 的探索机制，成功实现了学生模型对导师模型的超越，证明了混合训练策略在挖掘模型潜力方面的有效性。
提供了高效的长周期任务训练范式： 通过 T-DUR 机制解决长轨迹中的监督信号稀疏问题，ATOD 为处理复杂、多步交互的自主智能体任务提供了更有效的训练方法。这对于需要多轮对话、工具调用或环境交互的实际应用场景（如自动化客服、代码生成助手、机器人控制等）具有直接的指导价值。
优化了计算资源与性能的平衡： 对于资源受限的场景，使用小型语言模型替代大型语言模型是必然趋势。ATOD 使得小型模型能够通过更高效的训练策略达到甚至超越大型模型的性能，降低了部署成本，同时保持了高性能。

总之，ATOD 通过巧妙地融合模仿学习与强化学习的优势，并引入细粒度的回合级权重调整，为下一代高效、高性能的多轮自主智能体训练提供了一种强有力的新方案。

查看原文 →arxiv.org