← 返回信息流
AI 资讯雷峰网·2 小时前

浙大等提出SelectiveRM:基于最优传输训练奖励模型以过滤噪声偏好

原标题:从最优传输角度训练奖励模型:让 RLHF 学会「忽略错误偏好」丨ICML 2026

速览

针对RLHF中偏好数据含噪声导致奖励模型学习偏差的问题,研究团队提出SelectiveRM框架。该方法基于最优传输理论,通过选择性分布对齐自动识别并排除噪声样本,实现更可靠的奖励建模。实验表明,该方法能显著提升下游RLHF策略模型的安全性与鲁棒性。

AI 深度解读

从最优传输角度训练奖励模型:让 RLHF 学会「忽略错误偏好」丨ICML 2026

背景

在大语言模型(LLM)的对齐研究中,RLHF(Reinforcement Learning from Human Feedback)、RLAIF 以及 GRPO 等方法不断推动着模型对齐能力的演进。然而,这一进程背后存在一个长期被默认却值得重新审视的前提:收集到的偏好标注能够准确反映真实的人类偏好。

现实情况并非如此。无论是人工标注、众包反馈,还是 LLM-as-a-Judge,偏好数据都不可避免地包含噪声。标注疲劳、主观分歧、随机失误以及模型幻觉等因素,都可能导致“观测偏好”偏离“真实偏好”。

这种噪声对奖励模型(Reward Model, RM)的训练构成了根本性挑战:如果监督信号本身不可靠,模型究竟应该学习什么?研究团队指出,当前主流的奖励模型训练沿用标准监督学习范式,即最小化模型预测与标注之间的点对点误差。这种做法隐含了“训练数据标签干净且可信”的强假设。在实例相关噪声(Instance-Dependent Noise)下,直接最小化经验风险不仅是在拟合真实偏好,也在拟合错误偏好。对于高噪声样本,模型的优化方向甚至会被错误标签主导,从而逐渐“记住”噪声而非人类偏好的逻辑。

更严重的是,这种偏差会在后续的 RLHF 策略优化中被放大。一旦奖励模型学错,策略模型就会利用这些错误信号,诱发 Reward Hacking(奖励黑客攻击),最终损害模型的安全性与对齐质量。团队对多个公开偏好数据集的分析显示,Noisy Preference 并非个别现象,而是系统性问题,部分数据集中的估计噪声比例甚至接近 40%–50%。

核心内容

针对上述问题,浙江大学、小红书、北京大学等机构的研究团队提出了 SelectiveRM。这是一种基于最优传输(Optimal Transport)的奖励模型训练框架,旨在重构奖励模型的训练目标,从“点对点拟合噪声偏好”转向“带选择机制的分布对齐”。

1. 从点对点拟合到分布对齐

SelectiveRM 的核心思想是将奖励模型训练重构为一个分布对齐问题,而非简单的回归任务。该方法考虑两类联合分布:

  1. 数据中的经验联合分布。
  2. 模型诱导出的联合分布。

如果奖励模型真正学到了偏好规律,这两个分布应当是对齐的。论文提出了 Joint Consistency Discrepancy,利用最优传输来衡量这两个联合分布之间的差异。与传统损失函数不同,这里的传输代价同时考量两个维度:

  • 语义距离:两个样本在语义空间中是否接近。
  • 偏好差异:它们的偏好值是否一致。

通过这种方式,模型不再逐点拟合标签,而是在全局上学习“语义-偏好”之间的一致结构。

2. 引入部分最优传输(Partial Optimal Transport)

研究团队指出,标准最优传输存在局限,因为它要求所有样本必须被匹配(严格满足“质量守恒”)。这意味着即使某些样本是带噪的错误偏好,模型也会被强迫去拟合它们。

为此,SelectiveRM 引入了 部分最优传输,构造出带有 Mass Relaxation 机制的训练目标。该机制允许传输计划只匹配一部分质量,从而将那些代价过高、与语义一致性明显冲突的样本排除在外。基于这一设计,SelectiveRM 能够:

  • 自动保留低成本、高一致性的可靠样本。
  • 忽略高成本、疑似带噪的偏好数据。

换句话说,模型不再被要求“解释所有数据”,而是允许其只向可信监督对齐。研究团队从理论上证明,SelectiveRM 所优化的是一个比标准经验风险更紧的 clean-risk 上界,为这种“选择性对齐”提供了严格的理论支撑。

3. 实验验证

研究团队在 HelpSteer、UltraFeedback 和 PKU-SafeRLHF 等多个公开偏好数据集上进行了系统实验,并与多类 Noisy Label Learning 方法进行了比较。

  • 基准对比:标准训练方式(Naive baseline)在 Noisy Preference 下表现最差,证实了“把所有偏好都当真”会显著损害奖励模型质量。现有的降噪方法(如基于噪声转移矩阵或样本筛选的方法)虽有一定改善,但提升有限。SelectiveRM 在各项指标上均取得最优结果。
  • 消融实验:验证了两个关键组件的作用。引入联合代价后,模型能更好利用语义一致性判断偏好可靠性;引入部分传输后,模型获得了自动排除高成本噪声的能力。二者协同作用带来了最佳表现。
  • 泛化能力:在 Qwen2.5 和 LLaMA2 系列不同参数规模(7B 到 72B)的模型上测试,SelectiveRM 均稳定带来性能增益,显示出良好的模型无关性。

关键要点

  • 噪声是系统性挑战:偏好数据中的噪声(Noisy Preference)普遍存在,比例可达 40%–50%,且会随 RLHF 放大导致 Reward Hacking。
  • 训练范式重构:SelectiveRM 将奖励模型训练从“点对点误差最小化”重构为“基于最优传输的分布对齐”。
  • 双重代价机制:传输代价同时考量语义距离和偏好差异,使模型学习全局的“语义-偏好”一致结构。
  • 选择性匹配:通过部分最优传输(Partial Optimal Transport)和 Mass Relaxation 机制,自动识别并排除与语义一致性冲突的高成本噪声样本。
  • 理论保证:该方法优化的是比标准经验风险更紧的 clean-risk 上界,具有严格的理论支撑。
  • 下游安全提升:由 SelectiveRM 训练的奖励模型能稳定提升策略模型在 HarmBench、FFT、DAN 等安全基准上的得分,有效抑制对抗性 Jailbreak Prompt 下的安全漏洞。

意义与影响

SelectiveRM 的价值不仅在于提升了奖励模型本身的指标,更在于其对下游 RLHF 安全性的实质性贡献。

  1. 提升下游安全性:实验表明,由 SelectiveRM 训练得到的奖励模型,能够为 GRPO 提供更干净的奖励信号,从而稳定提升策略模型的安全得分和鲁棒性。相比之下,由噪声奖励模型引导的策略更容易受到误导,暴露安全漏洞。
  2. 重新定义学习目标:这项工作重新审视了“当监督信号不可靠时,学习目标应是什么”这一根本问题。它提出,目标不应仅是“更好地拟合数据”,而应是“哪些数据值得被学习”。
  3. 新的训练范式:SelectiveRM 倡导的“选择性分布对齐”思想,为在噪声反馈下学习可靠目标提供了一种更具原则性的训练范式。它表明,奖励模型训练不应无条件相信所有观测标签,而应在结构一致性约束下,自主识别并保留更可信的监督信号。

这项研究不仅推进了 Noisy Reward Modeling 的技术边界,也为构建更安全、更可信的大语言模型对齐流程提供了重要的理论依据和方法论支持。

论文信息

  • 标题:SelectiveRM: From Point-to-Point Fitting of Noisy Preferences to Distribution Alignment with Selection Mechanism
  • 会议:ICML 2026
  • 作者:潘黎铖(第一作者,浙江大学)、李昊轩(共同通讯作者,北京大学/牛津大学)、王浩(共同通讯作者,浙江大学/小红书)
  • 机构:浙江大学、小红书、北京大学
  • 论文地址:http://arxiv.org/abs/2605.06036
查看原文 →leiphone.com