ICML 2026提出SelectiveRM:基于最优传输训练奖励模型以忽略噪声偏好
速览
针对RLHF中偏好数据普遍存在噪声的问题,浙江大学等机构提出SelectiveRM框架。该方法基于最优传输理论,通过选择性分布对齐自动识别并排除与语义一致性冲突的噪声样本。实验表明,该模型在多个数据集上优于现有降噪方法,并能显著提升下游策略模型的安全性与对齐质量。
AI 深度解读
从最优传输角度训练奖励模型:让 RLHF 学会「忽略错误偏好」丨ICML 2026
背景
在大语言模型(LLM)的对齐研究中,RLHF(Reinforcement Learning from Human Feedback)、RLAIF(Reinforcement Learning from AI Feedback)以及 GRPO(Group Relative Policy Optimization)等方法不断推动着模型对齐能力的演进。然而,这些方法在奖励模型(Reward Model, RM)训练阶段普遍隐含一个关键前提:收集到的偏好标注数据能够准确反映真实的人类偏好。
现实情况并非如此。无论是人工标注、众包反馈,还是使用 LLM-as-a-Judge 进行自动化评估,偏好数据都不可避免地包含噪声。标注疲劳、主观分歧、随机失误以及模型幻觉等因素,都可能导致“观测偏好”偏离“真实偏好”。
这种噪声带来了根本性的挑战:如果监督信号本身不可靠,奖励模型究竟应该学习什么?研究团队指出,在实例相关噪声(Instance-Dependent Noise)下,直接最小化经验风险不仅是在拟合真实偏好,同时也在拟合错误偏好。对于高噪声样本,模型的优化方向甚至会被错误标签主导,从而逐渐“记住”噪声而非学习真正的人类偏好逻辑。更严重的是,这种偏差会被后续的 RLHF 策略优化进一步放大,一旦奖励模型学错,策略模型就会利用这些错误信号诱发 Reward Hacking(奖励黑客攻击),最终损害模型的安全性与对齐质量。
团队对多个公开偏好数据集的噪声分析表明,Noisy Preference(噪声偏好)并非个别现象,而是普遍存在于人类与 LLM 标注数据中的系统性问题,部分数据集中的估计噪声比例甚至接近 40%–50%。这说明噪声偏好不是边缘问题,而是必须正面解决的核心挑战。
核心内容
针对上述问题,浙江大学、小红书、北京大学等机构的研究团队提出了 SelectiveRM,这是一种基于最优传输(Optimal Transport, OT)的奖励模型训练框架。该方法不再要求模型无条件拟合所有观测偏好,而是通过选择性分布对齐,自动识别并排除与语义一致性相冲突的噪声偏好,从而学习更可靠的奖励函数。
从点对点拟合到分布对齐
传统奖励模型训练沿用标准监督学习范式,即给定 prompt-response 对及其偏好标注,最小化模型预测与标注之间的点对点误差。SelectiveRM 将这一过程重构为一个分布对齐问题。具体而言,它考虑两类联合分布:
- 数据中的经验联合分布。
- 模型诱导出的联合分布。
如果奖励模型真正学到了偏好规律,这两个分布应当是对齐的。为此,论文提出了 Joint Consistency Discrepancy,利用最优传输来衡量这两个联合分布之间的差异。与传统损失不同,这里的传输代价同时考虑语义距离(两个样本在语义空间中是否接近)和偏好差异(它们的偏好值是否一致)。这使得模型不再只是逐点拟合标签,而是在全局上学习“语义-偏好”之间的一致结构。
引入部分最优传输机制
标准最优传输存在局限,因为它要求所有样本都必须被匹配(严格满足“质量守恒”)。这意味着即使某些样本是带噪错误偏好,模型也会被强迫去拟合它们。
为解决此问题,SelectiveRM 引入了 部分最优传输(Partial Optimal Transport),构造出带有 Mass Relaxation 机制的训练目标。该机制允许传输计划只匹配一部分质量,将那些代价过高、与语义一致性明显冲突的样本排除在外。基于这一设计,SelectiveRM 能够自动保留低成本、高一致性的可靠样本,同时忽略高成本、疑似带噪的偏好数据。换句话说,它允许模型只向可信监督对齐,而非解释所有数据。
研究团队从理论上证明,SelectiveRM 所优化的是一个比标准经验风险更紧的 clean-risk 上界,因此这种“选择性对齐”不仅有效,而且具有严格的理论支撑。
实验验证
研究团队在 HelpSteer、UltraFeedback 和 PKU-SafeRLHF 等多个公开偏好数据集上进行了系统实验,并与多类 Noisy Label Learning 方法进行了比较。结果证实:
- 标准训练方式在噪声偏好下最容易失效,Naive baseline 表现最差。
- 现有降噪方法(如基于噪声转移矩阵的统计方法或样本筛选启发式方法)提升有限,且受限于过强的噪声假设或不稳定的筛选机制。
- SelectiveRM 在各项指标上均取得最优结果。
消融实验进一步验证了方法中两个关键组件的作用:引入联合代价后,模型能更好利用语义一致性判断偏好可靠性;引入部分传输后,模型获得了自动排除高成本噪声的能力。二者结合产生了协同效应。此外,在 Qwen2.5 和 LLaMA2 系列不同参数规模(7B 到 72B)模型上的测试表明,SelectiveRM 具有良好的模型无关性与泛化能力。
关键要点
- 问题本质:奖励模型训练中的噪声偏好(Noisy Preference)是系统性问题,噪声比例在某些数据集中高达 40%–50%。直接拟合所有标签会导致模型记住噪声,进而引发下游 RLHF 中的 Reward Hacking。
- 核心创新:提出 SelectiveRM 框架,将奖励模型训练从“点对点拟合”重构为“带选择机制的分布对齐”。
- 技术路径:
- 利用 Joint Consistency Discrepancy 衡量经验分布与模型诱导分布的差异,同时考量语义距离和偏好差异。
- 引入 部分最优传输(Partial Optimal Transport) 和 Mass Relaxation 机制,允许模型忽略与语义一致性冲突的高代价样本,仅对齐可信监督信号。
- 理论保证:该方法优化的目标是一个比标准经验风险更紧的 clean-risk 上界。
- 性能表现:在多个基准数据集上优于 Naive baseline 及现有降噪方法;在 Qwen2.5 和 LLaMA2 系列模型上展现出稳定的性能增益和泛化能力。
- 下游影响:由 SelectiveRM 训练的奖励模型能显著提升策略模型在 HarmBench、FFT、DAN 等安全基准上的得分,有效抑制对抗性 Jailbreak Prompt 下的安全漏洞。
意义与影响
SelectiveRM 的价值不仅在于提升了奖励模型本身的准确性,更在于它对下游 RLHF 过程的安全性产生了深远影响。实验表明,更干净的奖励模型会直接转化为更可靠的策略优化信号。相比之下,由 Naive Reward Model 引导的策略更容易受到噪声误导,而 SelectiveRM 通过在训练阶段主动过滤冲突噪声,有效抑制了 Reward Hacking 的传播。
从更宏观的视角来看,这项工作重新审视了一个长期被忽视的问题:当监督信号本身不可靠时,学习目标不应仅仅是“更好地拟合数据”,而应进一步回答“哪些数据值得被学习”。SelectiveRM 所倡导的“选择性分布对齐”思想,为在噪声反馈下学习可靠目标提供了一种更具原则性的训练范式。它表明,奖励模型训练不应无条件相信所有观测标签,而应当在结构一致性约束下,自主识别并保留更可信的监督信号。这项工作不仅推进了 Noisy Reward Modeling 的研究,也为构建安全可信的大语言模型提供了新的方法论支持。
论文作者信息:
- 第一作者:潘黎铖(浙江大学计算机科学与技术学院博士研究生,依托小红书开展合作研究)。
- 共同通讯作者:李昊轩(北京大学数据科学专业博士研究生,牛津大学访问研究员);王浩(浙江大学工业控制技术国家重点实验室博士研究生,小红书 RedStar 实习项目成员)。
