技术博客arXiv cs.CL·2 小时前

ReRULE：基于离策略重放的LLM高效强化遗忘方法

原标题：Replay What Matters: Off-Policy Replay for Efficient LLM Reinforcement Unlearning

速览

针对LLM强化遗忘中在线策略效率低下的问题，研究提出ReRULE方法。该方法利用离策略重放技术，将难例回放至缓冲区以优化边界案例学习。实验表明，该方法在仅增加少量训练时间的情况下，显著提升了模型在保留知识上的质量。

AI 深度解读

Replay What Matters: Off-Policy Replay for Efficient LLM Reinforcement Unlearning

背景

随着大型语言模型（LLM）在各类应用场景中的普及，如何从预训练模型中移除有害或敏感知识，同时保留其通用能力，成为了一个关键的技术挑战。传统的做法是对模型进行全量重新训练（Full Retraining），但这不仅成本高昂，而且计算资源消耗巨大。因此，**LLM 非学习（LLM Unlearning）**作为一种更具成本效益的替代方案应运而生。

近期，基于强化学习（RL）的方法，如 RULE，将非学习问题重构为学习“拒绝行为”的过程。然而，这类方法通常采用在线策略（On-Policy）优化。在训练过程中，模型会反复从相同的“遗忘（forget）”和“保留/边界（retain/boundary）”提示词中进行采样。

这种机制存在一个关键的效率瓶颈：

简单案例：容易收敛的案例很快就能学会拒绝，随后提供的梯度信号变得微弱且无用。
困难案例：位于遗忘与保留边界附近的困难案例，虽然对模型学习至关重要，但在在线策略下，它们产生的低奖励 rollout（ rollout 指模型生成的一系列动作/响应）往往只被使用一次就被丢弃。

这种“一次性使用”机制导致计算资源被浪费在已收敛的简单案例上，而真正需要学习的边界案例却未能得到充分利用。

核心内容

为了解决上述效率问题，研究团队提出了 ReRULE，这是一种针对强化学习非学习的**离线策略回放（Off-Policy Replay）**增强方法。

1. 核心机制：Replay Buffer

ReRULE 的核心创新在于引入了一个回放缓冲区（Replay Buffer）。

在早期的 GRPO（Group Relative Policy Optimization，组相对策略优化）训练阶段，系统会识别并存储那些产生低奖励的困难案例 rollout 组。
在后续的训练阶段，这些存储的案例不会被丢弃，而是通过**重要性采样（Importance-Sampled）**的离线策略更新机制被重新利用。

2. 资源重定向

通过重用这些历史数据，ReRULE 将计算资源重新导向那些仍然需要学习的边界案例。这种方法避免了在线策略中因重复采样简单案例而产生的冗余计算，同时也解决了困难案例因单次使用而被浪费的问题。

3. 理论保证

从理论层面分析，研究证明 ReRULE 相比纯在线策略的 RULE 方法，能够为困难案例提供更紧密的收敛界（Tighter Convergence Bound）。这意味着模型在处理复杂边界情况时，理论上能达到更优的学习效果。

4. 实证结果

在多个基准测试中的实验数据显示：

性能提升：在 MUSE-Books 基准上，ReRULE 将保留质量（Retain Quality）从 46.3 提升至 56.2。
成本增加有限：这一性能提升仅带来了 5% 到 11% 的训练时间增加，性价比极高。
场景适应性：在较简单的 TOFU 设置中，ReRULE 的提升幅度有限。这进一步证实了其设计初衷：当困难案例与简单案例之间的差异（Hard/Easy Disparity）显著时，回放机制带来的收益最大。

关键要点

问题定义：现有的基于 RL 的 LLM 非学习方法（如 RULE）采用在线策略，导致简单案例过度采样，而关键的边界困难案例因“一次性使用”而被浪费，造成计算效率低下。
解决方案：提出 ReRULE，一种引入离线策略回放的增强方法。它利用回放缓冲区存储早期训练中的低奖励困难案例，并在后续阶段通过重要性采样进行重用。
理论优势：ReRULE 在理论上为困难案例提供了比纯在线策略更紧的收敛界，证明了其在优化边界案例学习上的有效性。
实证效果：
- 在 MUSE-Books 基准测试中，保留质量（Retain Quality）从 46.3 提升至 56.2。
- 训练时间开销仅增加 5%--11%，实现了性能与效率的良好平衡。
适用场景：该方法在困难与简单案例差异明显的场景中效果最佳；在简单场景（如 TOFU）中提升有限，符合预期。

意义与影响

ReRULE 的提出为 LLM 非学习领域提供了一个高效且实用的优化方向。

提升非学习效率：通过引入离线策略回放，解决了强化学习在非学习任务中的样本利用率问题，使得移除有害知识的过程更加经济高效。
平衡保留与遗忘：研究强调了在“遗忘”有害知识的同时“保留”通用能力的重要性。ReRULE 通过聚焦于边界案例，有助于模型更精细地掌握拒绝行为的边界，从而在减少有害输出的同时，最大限度地减少对模型通用能力的损害。
推动 RL 在非学习中的应用：该工作展示了如何将经典的强化学习技术（如回放缓冲区、重要性采样）应用于新兴的 LLM 非学习领域，为后续研究提供了新的思路和技术范式。
实际部署价值：鉴于全量重训的高成本，ReRULE 提供了一种轻量级的优化手段，使得企业或研究机构能够以更低的成本维护模型的安全性和合规性，具有重要的实际应用价值。

查看原文 →arxiv.org