AI 资讯雷峰网·1 天前2 源报道

ICML 2026提出SelectiveRM：基于最优传输训练奖励模型以忽略噪声偏好

原标题：从最优传输角度训练奖励模型：让 RLHF 学会「忽略错误偏好」丨ICML 2026

速览

针对RLHF中偏好数据普遍存在噪声的问题，浙江大学等机构提出SelectiveRM框架。该方法基于最优传输理论，通过选择性分布对齐自动识别并排除与语义一致性冲突的噪声样本。实验表明，该模型在多个数据集上优于现有降噪方法，并能显著提升下游策略模型的安全性与对齐质量。

AI 深度解读

从最优传输角度训练奖励模型：让 RLHF 学会「忽略错误偏好」丨ICML 2026

背景

在大语言模型（LLM）的对齐研究中，RLHF（Reinforcement Learning from Human Feedback）、RLAIF（Reinforcement Learning from AI Feedback）以及 GRPO（Group Relative Policy Optimization）等方法不断推动着模型对齐能力的演进。然而，这些方法在奖励模型（Reward Model, RM）训练阶段普遍隐含一个关键前提：收集到的偏好标注数据能够准确反映真实的人类偏好。

现实情况并非如此。无论是人工标注、众包反馈，还是使用 LLM-as-a-Judge 进行自动化评估，偏好数据都不可避免地包含噪声。标注疲劳、主观分歧、随机失误以及模型幻觉等因素，都可能导致“观测偏好”偏离“真实偏好”。

这种噪声带来了根本性的挑战：如果监督信号本身不可靠，奖励模型究竟应该学习什么？研究团队指出，在实例相关噪声（Instance-Dependent Noise）下，直接最小化经验风险不仅是在拟合真实偏好，同时也在拟合错误偏好。对于高噪声样本，模型的优化方向甚至会被错误标签主导，从而逐渐“记住”噪声而非学习真正的人类偏好逻辑。更严重的是，这种偏差会被后续的 RLHF 策略优化进一步放大，一旦奖励模型学错，策略模型就会利用这些错误信号诱发 Reward Hacking（奖励黑客攻击），最终损害模型的安全性与对齐质量。

团队对多个公开偏好数据集的噪声分析表明，Noisy Preference（噪声偏好）并非个别现象，而是普遍存在于人类与 LLM 标注数据中的系统性问题，部分数据集中的估计噪声比例甚至接近 40%–50%。这说明噪声偏好不是边缘问题，而是必须正面解决的核心挑战。

核心内容

针对上述问题，浙江大学、小红书、北京大学等机构的研究团队提出了 SelectiveRM，这是一种基于最优传输（Optimal Transport, OT）的奖励模型训练框架。该方法不再要求模型无条件拟合所有观测偏好，而是通过选择性分布对齐，自动识别并排除与语义一致性相冲突的噪声偏好，从而学习更可靠的奖励函数。

从点对点拟合到分布对齐

传统奖励模型训练沿用标准监督学习范式，即给定 prompt-response 对及其偏好标注，最小化模型预测与标注之间的点对点误差。SelectiveRM 将这一过程重构为一个分布对齐问题。具体而言，它考虑两类联合分布：

数据中的经验联合分布。
模型诱导出的联合分布。

如果奖励模型真正学到了偏好规律，这两个分布应当是对齐的。为此，论文提出了 Joint Consistency Discrepancy，利用最优传输来衡量这两个联合分布之间的差异。与传统损失不同，这里的传输代价同时考虑语义距离（两个样本在语义空间中是否接近）和偏好差异（它们的偏好值是否一致）。这使得模型不再只是逐点拟合标签，而是在全局上学习“语义-偏好”之间的一致结构。

引入部分最优传输机制

标准最优传输存在局限，因为它要求所有样本都必须被匹配（严格满足“质量守恒”）。这意味着即使某些样本是带噪错误偏好，模型也会被强迫去拟合它们。

为解决此问题，SelectiveRM 引入了 部分最优传输（Partial Optimal Transport），构造出带有 Mass Relaxation 机制的训练目标。该机制允许传输计划只匹配一部分质量，将那些代价过高、与语义一致性明显冲突的样本排除在外。基于这一设计，SelectiveRM 能够自动保留低成本、高一致性的可靠样本，同时忽略高成本、疑似带噪的偏好数据。换句话说，它允许模型只向可信监督对齐，而非解释所有数据。

研究团队从理论上证明，SelectiveRM 所优化的是一个比标准经验风险更紧的 clean-risk 上界，因此这种“选择性对齐”不仅有效，而且具有严格的理论支撑。

实验验证

研究团队在 HelpSteer、UltraFeedback 和 PKU-SafeRLHF 等多个公开偏好数据集上进行了系统实验，并与多类 Noisy Label Learning 方法进行了比较。结果证实：

标准训练方式在噪声偏好下最容易失效，Naive baseline 表现最差。
现有降噪方法（如基于噪声转移矩阵的统计方法或样本筛选启发式方法）提升有限，且受限于过强的噪声假设或不稳定的筛选机制。
SelectiveRM 在各项指标上均取得最优结果。

消融实验进一步验证了方法中两个关键组件的作用：引入联合代价后，模型能更好利用语义一致性判断偏好可靠性；引入部分传输后，模型获得了自动排除高成本噪声的能力。二者结合产生了协同效应。此外，在 Qwen2.5 和 LLaMA2 系列不同参数规模（7B 到 72B）模型上的测试表明，SelectiveRM 具有良好的模型无关性与泛化能力。

关键要点

问题本质：奖励模型训练中的噪声偏好（Noisy Preference）是系统性问题，噪声比例在某些数据集中高达 40%–50%。直接拟合所有标签会导致模型记住噪声，进而引发下游 RLHF 中的 Reward Hacking。
核心创新：提出 SelectiveRM 框架，将奖励模型训练从“点对点拟合”重构为“带选择机制的分布对齐”。
技术路径：
- 利用 Joint Consistency Discrepancy 衡量经验分布与模型诱导分布的差异，同时考量语义距离和偏好差异。
- 引入 部分最优传输（Partial Optimal Transport） 和 Mass Relaxation 机制，允许模型忽略与语义一致性冲突的高代价样本，仅对齐可信监督信号。
理论保证：该方法优化的目标是一个比标准经验风险更紧的 clean-risk 上界。
性能表现：在多个基准数据集上优于 Naive baseline 及现有降噪方法；在 Qwen2.5 和 LLaMA2 系列模型上展现出稳定的性能增益和泛化能力。
下游影响：由 SelectiveRM 训练的奖励模型能显著提升策略模型在 HarmBench、FFT、DAN 等安全基准上的得分，有效抑制对抗性 Jailbreak Prompt 下的安全漏洞。

意义与影响

SelectiveRM 的价值不仅在于提升了奖励模型本身的准确性，更在于它对下游 RLHF 过程的安全性产生了深远影响。实验表明，更干净的奖励模型会直接转化为更可靠的策略优化信号。相比之下，由 Naive Reward Model 引导的策略更容易受到噪声误导，而 SelectiveRM 通过在训练阶段主动过滤冲突噪声，有效抑制了 Reward Hacking 的传播。

从更宏观的视角来看，这项工作重新审视了一个长期被忽视的问题：当监督信号本身不可靠时，学习目标不应仅仅是“更好地拟合数据”，而应进一步回答“哪些数据值得被学习”。SelectiveRM 所倡导的“选择性分布对齐”思想，为在噪声反馈下学习可靠目标提供了一种更具原则性的训练范式。它表明，奖励模型训练不应无条件相信所有观测标签，而应当在结构一致性约束下，自主识别并保留更可信的监督信号。这项工作不仅推进了 Noisy Reward Modeling 的研究，也为构建安全可信的大语言模型提供了新的方法论支持。

论文作者信息：

第一作者：潘黎铖（浙江大学计算机科学与技术学院博士研究生，依托小红书开展合作研究）。
共同通讯作者：李昊轩（北京大学数据科学专业博士研究生，牛津大学访问研究员）；王浩（浙江大学工业控制技术国家重点实验室博士研究生，小红书 RedStar 实习项目成员）。

查看原文 →leiphone.com