分布鲁棒列表式偏好优化
速览
现有偏好优化主要针对成对监督,鲁棒性多在数据集或提示级别。本文研究列表式偏好优化中的排名标签不确定性,如标注者不一致或奖励模型噪声。提出点wise总变异鲁棒Plackett-Luce目标,直接鲁棒化候选列表的排名标签。鲁棒损失可精确分解为名义PL损失和最坏情况PL修正,通过对当前隐式分数升序排序实现最坏排名,内层最大化从K!枚举降至O(K log K)。在离线固定列表设置中,鲁棒目标凸优化;在线策略诱导设置中为弱凸性。实验显示,该方法在干净标签下保持性能,在噪声下提升奖励模型和GPT-4判别器指标,使奖励模型排名候选扩展更可靠。
AI 深度解读
Distributionally Robust Listwise Preference Optimization
背景
现有的大型语言模型(LLM)对齐方法主要针对成对监督进行鲁棒性研究,将鲁棒性置于数据集、提示词或偏好对级别上。然而,在实际标注场景中,列表式偏好数据往往存在排序标签的不确定性:给定提示词和候选列表,观察到的排名可能因标注者不一致、近似平局、损失的秩向反馈或奖励模型噪声而变得模糊。
Distributionally Robust Listwise Preference Optimization 正是针对这种列表式偏好优化(Listwise Preference Optimization,简称LPO)下的排序标签不确定性问题提出。论文首次系统研究了在存在排名标签噪声的条件下,如何通过分布鲁棒优化(Distributionally Robust Optimization,DRO)框架实现列表式偏好对齐。该问题超越了传统成对方法的局限性,直接对候选列表中的排序标签进行鲁棒化建模,为在线策略对齐和离线对齐提供了更稳定的解决方案。
核心内容
论文提出了一种点wise总变分鲁棒Plackett--Luce目标函数(pointwise total-variation robust Plackett--Luce objective),该目标函数直接对给定候选列表下的排名标签施加鲁棒性约束,而非在数据集或提示词级别进行。
该鲁棒损失可以精确分解为名义(nominal)Plackett--Luce(PL)损失与最坏情况(worst-case)PL校正项两部分之和。最坏情况下的排名通过对当前隐式分数(implicit scores)进行升序排序获得,从而将内层最大化问题从枚举$K!$个排列的复杂度降至$O(K\log K)$,实现了高效求解。
该结构带来强大的离线和在线优化保证:
-
在离线固定列表设置(fixed-list setting)下,鲁棒目标函数是凸的,投影随机子梯度法(projected stochastic subgradient)在达到全局$\epsilon$-次优解时仅需$O(\epsilon^{-2})$样本复杂度。
-
在在线策略诱导设置(online policy-induced setting)下,候选列表由当前策略生成,鲁棒目标函数呈现弱凸性,可通过Moreau包络达到$\widetilde{O}(\epsilon^{-2})$的站态性(stationarity)。
实验部分验证了理论优势:在离线LLM对齐任务中,鲁棒校正项在干净标签下几乎不损失性能,在存在噪声时显著提升鲁棒性。在线对齐场景中,该方法使基于奖励模型的候选列表扩展更加可靠,同时在奖励模型评分和外部GPT-4裁判指标上均取得提升。
关键要点
- 现有鲁棒对齐方法主要处理成对监督,将鲁棒性置于数据集/提示词/成对级别;本文首次研究列表式偏好优化中的排名标签不确定性(annotator inconsistency、near-ties、lossy rankwise feedback、reward-model noise)。
- 提出点wise总变分鲁棒Plackett--Luce目标函数,直接对候选列表下的排名标签进行鲁棒化。
- 鲁棒损失可精确分解为名义PL损失 + 最坏情况PL校正项,最坏情况排名通过升序排序隐式分数获得,内层复杂度从$K!$降至$O(K\log K)$。
- 离线固定列表设置:鲁棒目标凸,投影随机子梯度法达到全局$\epsilon$-次优解样本复杂度为$O(\epsilon^{-2})$。
- 在线策略诱导设置:弱凸性,Moreau包络站态性为$\widetilde{O}(\epsilon^{-2})$。
- 实验验证:在离线对齐中鲁棒校正基本不影响干净数据性能,噪声条件下显著提升鲁棒性;在在线对齐中提升奖励模型评分和GPT-4裁判指标,增强候选列表扩展可靠性。
意义与影响
该方法为LLM对齐提供了更实用的列表式范式,解决了成对方法在真实标注噪声下的脆弱性问题。通过分布鲁棒优化与Plackett--Luce模型的结合,它实现了高效的鲁棒校正与理论保证,尤其适合在线策略学习场景下的候选列表扩展任务。实验结果表明,该方法在保持基准性能的同时显著增强了模型在噪声环境下的对齐稳定性,为后续鲁棒LLM对齐研究提供了新方向和可直接应用的优化框架。
