技术博客arXiv cs.AI·2 小时前

超越轨迹模仿：策略引导策略优化提升大模型推理能力

原标题：Beyond Trajectory Imitation: Strategy-Guided Policy Optimization for LLM Reasoning

速览

传统大模型推理能力蒸馏多依赖模仿特定解题轨迹，易导致死记硬背而缺乏泛化能力。研究提出策略引导策略优化（SGPO）框架，将实例级轨迹模仿替换为可复用的策略蒸馏。该框架通过前向KL目标选择性转移策略条件分布，并采用自适应实例级权重动态调整指导强度。实验表明，SGPO在多个数学基准上优于SFT和在线强化学习基线，有效提升了模型解决新颖问题的能力。

AI 深度解读

超越轨迹模仿：策略引导的策略优化用于大语言模型推理

背景

当前，将强大语言模型（Strong LLMs）的推理能力蒸馏到较弱模型（Weak LLMs）中，通常依赖于模仿特定的解题轨迹（Solution Trajectories）。这种基于轨迹层面的模仿，本质上是在转移“回答什么”（What to answer），而非“如何推理”（How to reason）。

这种方法的局限性在于，它鼓励弱模型记忆针对特定实例的步骤，而不是习得可迁移的解决问题技能。因此，当面对新颖问题时，模型的泛化能力往往受到限制。为了突破这一瓶颈，研究人员提出了一种新的范式：从模仿具体的解题路径，转向提炼和蒸馏通用的解题策略。

核心内容

本文提出了**策略引导的策略优化（Strategy-Guided Policy Optimization, SGPO）**框架。SGPO 的核心思想是用可复用的策略蒸馏（Reusable Strategy Distillation）取代实例级别的轨迹模仿。

1. 策略提取与轨迹构建

SGPO 首先从强模型的回答中提取结构化的策略描述（Structured Strategy Descriptions）。对于每一个问题，框架会构建两种轨迹：

自主轨迹（Autonomous Trajectories）：模型在没有外部策略指导下的自然推理过程。
策略引导轨迹（Strategy-Guided Trajectories）：模型在接收结构化策略指导下的推理过程。

通过构建这两种轨迹，框架能够直接对比模型在有无策略指导下的行为差异，从而量化策略引导的效果。

2. 蒸馏机制：如何蒸馏（How to Distill）

在训练过程中，SGPO 采用了一种令牌级别的前向 KL 散度目标函数（Token-level Forward-KL Objective）。

该目标函数旨在将策略条件化所引发的分布偏移（Distributional Shift），选择性地转移到无引导策略中。
同时，引入近端约束（Proximal Constraints）以确保训练过程的稳定性，防止模型偏离原有能力过远。
这种机制提供了一种内在的选择性蒸馏信号，优于直接的轨迹模仿。

3. 自适应权重：何时蒸馏（When to Distill）

SGPO 引入了**自适应实例级加权（Adaptive Instance-Level Weighting）**机制，动态调整策略引导的强度：

当模型的自主探索能力不足时，增强策略引导。
随着模型自身能力的提升，逐渐减少策略引导的权重。
这种机制确保了在模型能力成长的各个阶段，都能获得最优的学习信号。

关键要点

范式转变：从“模仿具体步骤”转向“蒸馏通用策略”，旨在解决弱模型泛化能力差的问题。
双重轨迹对比：通过对比自主轨迹和策略引导轨迹，精准定位策略对推理过程的贡献。
前向 KL 优化：使用令牌级别的前向 KL 散度作为蒸馏目标，结合近端约束，实现了稳定且选择性的知识转移。
动态自适应：根据模型当前的自主能力，动态调整策略引导的强度，实现“扶上马，送一程”的效果。
实验验证：在两个模型家族的四项数学基准测试中，SGPO consistently（一致地）优于监督微调（SFT）、在线强化学习（On-policy RL）以及混合策略基线。
性能提升：在 Qwen2.5-7B-Instruct 模型上，SGPO 相比最强的基线方法，平均分提升了 2.2 分。
互补扩展性：分析表明，策略蒸馏的效果与基础模型的能力呈现互补的扩展关系（Complementary Scaling），即基础模型越强，策略蒸馏带来的增益越显著或越有效。

意义与影响

SGPO 框架为大型语言模型的推理能力蒸馏提供了新的理论视角和技术路径。

首先，它揭示了传统轨迹模仿在泛化性上的根本缺陷，证明了“策略”比“轨迹”更具可迁移性。通过提取结构化的策略描述，模型学到的不再是死记硬背的解题套路，而是通用的思维模式。

其次，SGPO 在算法设计上实现了精细化控制。前向 KL 目标函数和自适应加权机制的结合，解决了蒸馏过程中常见的稳定性差和信号噪声问题。这使得弱模型能够在保持自身基础能力的同时，高效吸收强模型的推理智慧。

最后，实验结果证实了该方法的有效性。在数学推理这一对逻辑严密性要求极高的领域，SGPO 的优异表现预示着其在代码生成、复杂规划等需要多步推理的任务中具有广阔的应用前景。随着基础模型能力的不断提升，SGPO 所代表的策略蒸馏范式有望成为提升大模型推理效率的关键技术之一。

查看原文 →arxiv.org