技术博客arXiv cs.CL·7 小时前

超越均匀遗忘：序列偏好优化在不同偏好设置下的研究

原标题：Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings

速览

该研究通过Llama-3.1-8B-Instruct模型，在四种偏好设置下评估序列直接偏好优化（DPO）的效果。研究发现，后续训练对早期偏好的影响并非单一的均匀遗忘，而是呈现部分退化、稳定、重新分配或正向迁移等多种模式。机制诊断显示，梯度正交性并非主要驱动因素，未来对齐管道需考虑目标兼容性和信号强度。

AI 深度解读

超越均匀遗忘：不同偏好设置下序列直接偏好优化的研究

背景

在大语言模型（LLM）的对齐过程中，将模型行为与人类偏好保持一致是核心目标。然而，人类偏好往往是多维度的，既包含回答的质量、有用性，也涉及安全性、诚实性以及特定领域的风格等。为了同时优化这些多维度的行为目标，一种直观且实用的工程策略是序列优化（Sequential Optimization）：即依次应用不同的偏好优化算法，如直接偏好优化（Direct Preference Optimization, DPO），逐步引导模型。

尽管这种“分步走”的策略在工业界和学术界被广泛采用，但一个关键的理论空白依然存在：后续的训练阶段是否会导致模型均匀地遗忘早期学到的偏好？ 换句话说，当我们用新的偏好数据训练模型时，之前学到的知识是整体退化、部分保留，还是发生了复杂的重组？这种影响是固定的，还是取决于不同优化目标之间的关系（如冲突、互补或独立）？

现有的研究往往假设后续训练会对早期偏好产生负面的“灾难性遗忘”效应，或者简单地认为这种效应是均匀的。然而，这种假设忽略了目标之间的内在结构差异。本文旨在通过系统的实验，探究在四种不同的偏好设置下，序列 DPO 对模型行为的具体影响，揭示遗忘机制的复杂性。

核心内容

本研究利用 Llama-3.1-8B-Instruct 模型，结合 LoRA 适配器，在四种具有代表性的偏好设置下进行了序列 DPO 实验。这四种设置涵盖了从分布冲突到多属性交互，再到强安全信号和兼容的质量目标，旨在全面评估目标间的相互作用。

1. 实验设置与方法论

模型与配置：使用 Llama-3.1-8B-Instruct 作为基座模型，通过 LoRA 适配器进行微调。
评估基准：为了准确衡量偏好变化，研究采用固定的基座模型作为参考，并在每一个训练阶段结束后评估所有目标。这种方法避免了因参考模型漂移而导致的评估偏差。
四种偏好设置：
1. 分布冲突（Distributional Conflict）：不同偏好数据分布存在显著差异，可能导致模型在优化一个目标时偏离另一个目标的分布。
2. 多属性交互（Multi-attribute Interaction）：涉及多个维度的偏好（如有用性与安全性），考察它们之间的协同或竞争关系。
3. 强安全信号（Strong Safety Signal）：引入高强度的安全对齐数据，观察其对其他偏好（如开放性或创造力）的压制或影响。
4. 兼容的质量目标（Compatible Response-Quality Objectives）：使用相互兼容、旨在提升回答质量的目标，作为对照组。

2. 主要发现：非均匀遗忘模式

研究结果明确反驳了“后续训练导致均匀遗忘”的简单假设。序列 DPO 产生的遗忘模式并非单一，而是呈现出高度的异质性，具体表现为以下四种情况之一，取决于目标关系、信号强度和训练顺序：

部分退化（Partial Degradation）：早期学到的某些偏好确实发生了性能下降，但并非所有方面都受损。
稳定性（Stability）：在某些兼容或弱冲突的设置下，早期偏好保持相对稳定，未出现显著遗忘。
层级重分配（Pair-level Redistribution）：偏好能力在不同样本对（Preference Pairs）之间发生了重新分配，某些样本表现变好，另一些变差。
正向迁移（Positive Transfer）：在某些情况下，后续训练不仅没有遗忘早期偏好，反而提升了早期目标的表现。

3. 细粒度分析：聚合指标掩盖了真相

传统的评估通常使用聚合指标（Aggregate Metrics），如平均偏好胜率。研究发现，这些宏观指标往往掩盖了模型内部行为的异质性变化。

长度归一化的策略边际（Length-normalised Policy Margins）：通过这一微观指标进行分析，研究者发现，即使在整体指标看似稳定的情况下，不同偏好对之间的变化也可能截然不同。
四分位数分解（Quartile Decomposition）：进一步分析显示，高置信度（High-confidence）的偏好对既可能退化也可能改进，这完全取决于具体的设置。这意味着，模型并非“整体变笨”或“整体变好”，而是其决策边界在不同样本上发生了复杂的移动。

4. 机制诊断：梯度正交性

为了探究导致遗忘或迁移的根本机制，研究团队对梯度进行了诊断分析。

梯度方向：结果显示，在第二阶段（Stage 2）的梯度以及适配器更新，与前一阶段的目标在几乎所有设置下都接近正交（Near-orthogonal）。
结论：这一发现提供了有力的证据，表明**直接的梯度对抗（Direct Gradient Opposition）**并不是导致偏好退化的主要驱动因素。如果梯度直接对抗，我们应观察到显著的负相关性，但实际观察到的正交性暗示遗忘机制更为复杂，可能涉及表示空间的旋转或重构，而非简单的参数抵消。

关键要点

遗忘是非均匀的：序列 DPO 不会导致早期偏好的均匀退化。遗忘模式取决于目标间的关系，包括部分退化、稳定、重分配或正向迁移。
聚合指标的局限性：平均偏好胜率等聚合指标会掩盖模型行为的异质性。必须通过长度归一化的策略边际和四分位数分解等细粒度分析，才能看清高置信度样本的具体变化。
梯度正交性：后续训练的梯度与先前目标接近正交，表明“直接梯度对抗”不是序列遗忘的主要机制。这挑战了基于简单梯度冲突解释遗忘的传统观点。
目标兼容性与信号强度至关重要：后续对齐管道的效果高度依赖于目标之间的兼容性以及信号强度。强安全信号可能会显著压制其他属性，而兼容的质量目标则可能产生正向迁移。
训练顺序的影响：不同目标的训练顺序会改变最终结果，表明序列优化并非简单的叠加，而是存在动态的相互作用。

意义与影响

这项研究对大语言模型的对齐实践具有重要的理论和工程指导意义：

修正对齐策略假设：当前的许多对齐流水线假设后续训练会不可避免地损害早期目标，因此需要复杂的正则化或回放机制来防止遗忘。本研究指出，这种担忧在某些兼容设置下是多余的，而在冲突设置下，简单的梯度对抗解释也不足。未来的工作应更关注目标间的结构关系，而非盲目假设遗忘。
优化评估体系：呼吁社区从单一的聚合指标转向更细粒度的评估方法。仅看平均胜率可能会误导研究者，认为模型表现稳定，而实际上模型可能在关键的高置信度样本上出现了严重的退化或不可控的变化。
指导多目标优化设计：对于需要同时优化安全性、有用性和其他属性的模型，研究者应优先分析目标间的兼容性。如果目标是兼容的，序列优化可能比并行优化更简单且有效；如果存在冲突，则需要设计更复杂的机制来处理梯度正交性背后的复杂表示变化，而非仅关注梯度方向。
推动机制解释研究：既然直接梯度对抗不是主因，未来的研究应深入探索序列优化中表征空间（Representation Space）的动态变化，理解模型如何在保持知识的同时适应新的偏好分布。

总之，本文揭示了序列偏好优化的复杂性，强调了“上下文依赖”的重要性，为构建更稳健、更高效的多目标大模型对齐管道提供了新的视角。

查看原文 →arxiv.org