AI 资讯雷峰网·2 小时前

浙大等提出SelectiveRM：基于最优传输训练奖励模型以过滤噪声偏好

原标题：从最优传输角度训练奖励模型：让 RLHF 学会「忽略错误偏好」丨ICML 2026

速览

针对RLHF中偏好数据含噪声导致奖励模型学习偏差的问题，研究团队提出SelectiveRM框架。该方法基于最优传输理论，通过选择性分布对齐自动识别并排除噪声样本，实现更可靠的奖励建模。实验表明，该方法能显著提升下游RLHF策略模型的安全性与鲁棒性。

AI 深度解读

从最优传输角度训练奖励模型：让 RLHF 学会「忽略错误偏好」丨ICML 2026

背景

在大语言模型（LLM）的对齐研究中，RLHF（Reinforcement Learning from Human Feedback）、RLAIF 以及 GRPO 等方法不断推动着模型对齐能力的演进。然而，这一进程背后存在一个长期被默认却值得重新审视的前提：收集到的偏好标注能够准确反映真实的人类偏好。

现实情况并非如此。无论是人工标注、众包反馈，还是 LLM-as-a-Judge，偏好数据都不可避免地包含噪声。标注疲劳、主观分歧、随机失误以及模型幻觉等因素，都可能导致“观测偏好”偏离“真实偏好”。

这种噪声对奖励模型（Reward Model, RM）的训练构成了根本性挑战：如果监督信号本身不可靠，模型究竟应该学习什么？研究团队指出，当前主流的奖励模型训练沿用标准监督学习范式，即最小化模型预测与标注之间的点对点误差。这种做法隐含了“训练数据标签干净且可信”的强假设。在实例相关噪声（Instance-Dependent Noise）下，直接最小化经验风险不仅是在拟合真实偏好，也在拟合错误偏好。对于高噪声样本，模型的优化方向甚至会被错误标签主导，从而逐渐“记住”噪声而非人类偏好的逻辑。

更严重的是，这种偏差会在后续的 RLHF 策略优化中被放大。一旦奖励模型学错，策略模型就会利用这些错误信号，诱发 Reward Hacking（奖励黑客攻击），最终损害模型的安全性与对齐质量。团队对多个公开偏好数据集的分析显示，Noisy Preference 并非个别现象，而是系统性问题，部分数据集中的估计噪声比例甚至接近 40%–50%。

核心内容

针对上述问题，浙江大学、小红书、北京大学等机构的研究团队提出了 SelectiveRM。这是一种基于最优传输（Optimal Transport）的奖励模型训练框架，旨在重构奖励模型的训练目标，从“点对点拟合噪声偏好”转向“带选择机制的分布对齐”。

1. 从点对点拟合到分布对齐

SelectiveRM 的核心思想是将奖励模型训练重构为一个分布对齐问题，而非简单的回归任务。该方法考虑两类联合分布：

数据中的经验联合分布。
模型诱导出的联合分布。

如果奖励模型真正学到了偏好规律，这两个分布应当是对齐的。论文提出了 Joint Consistency Discrepancy，利用最优传输来衡量这两个联合分布之间的差异。与传统损失函数不同，这里的传输代价同时考量两个维度：

语义距离：两个样本在语义空间中是否接近。
偏好差异：它们的偏好值是否一致。

通过这种方式，模型不再逐点拟合标签，而是在全局上学习“语义-偏好”之间的一致结构。

2. 引入部分最优传输（Partial Optimal Transport）

研究团队指出，标准最优传输存在局限，因为它要求所有样本必须被匹配（严格满足“质量守恒”）。这意味着即使某些样本是带噪的错误偏好，模型也会被强迫去拟合它们。

为此，SelectiveRM 引入了 部分最优传输，构造出带有 Mass Relaxation 机制的训练目标。该机制允许传输计划只匹配一部分质量，从而将那些代价过高、与语义一致性明显冲突的样本排除在外。基于这一设计，SelectiveRM 能够：

自动保留低成本、高一致性的可靠样本。
忽略高成本、疑似带噪的偏好数据。

换句话说，模型不再被要求“解释所有数据”，而是允许其只向可信监督对齐。研究团队从理论上证明，SelectiveRM 所优化的是一个比标准经验风险更紧的 clean-risk 上界，为这种“选择性对齐”提供了严格的理论支撑。

3. 实验验证

研究团队在 HelpSteer、UltraFeedback 和 PKU-SafeRLHF 等多个公开偏好数据集上进行了系统实验，并与多类 Noisy Label Learning 方法进行了比较。

基准对比：标准训练方式（Naive baseline）在 Noisy Preference 下表现最差，证实了“把所有偏好都当真”会显著损害奖励模型质量。现有的降噪方法（如基于噪声转移矩阵或样本筛选的方法）虽有一定改善，但提升有限。SelectiveRM 在各项指标上均取得最优结果。
消融实验：验证了两个关键组件的作用。引入联合代价后，模型能更好利用语义一致性判断偏好可靠性；引入部分传输后，模型获得了自动排除高成本噪声的能力。二者协同作用带来了最佳表现。
泛化能力：在 Qwen2.5 和 LLaMA2 系列不同参数规模（7B 到 72B）的模型上测试，SelectiveRM 均稳定带来性能增益，显示出良好的模型无关性。

关键要点

噪声是系统性挑战：偏好数据中的噪声（Noisy Preference）普遍存在，比例可达 40%–50%，且会随 RLHF 放大导致 Reward Hacking。
训练范式重构：SelectiveRM 将奖励模型训练从“点对点误差最小化”重构为“基于最优传输的分布对齐”。
双重代价机制：传输代价同时考量语义距离和偏好差异，使模型学习全局的“语义-偏好”一致结构。
选择性匹配：通过部分最优传输（Partial Optimal Transport）和 Mass Relaxation 机制，自动识别并排除与语义一致性冲突的高成本噪声样本。
理论保证：该方法优化的是比标准经验风险更紧的 clean-risk 上界，具有严格的理论支撑。
下游安全提升：由 SelectiveRM 训练的奖励模型能稳定提升策略模型在 HarmBench、FFT、DAN 等安全基准上的得分，有效抑制对抗性 Jailbreak Prompt 下的安全漏洞。

意义与影响

SelectiveRM 的价值不仅在于提升了奖励模型本身的指标，更在于其对下游 RLHF 安全性的实质性贡献。

提升下游安全性：实验表明，由 SelectiveRM 训练得到的奖励模型，能够为 GRPO 提供更干净的奖励信号，从而稳定提升策略模型的安全得分和鲁棒性。相比之下，由噪声奖励模型引导的策略更容易受到误导，暴露安全漏洞。
重新定义学习目标：这项工作重新审视了“当监督信号不可靠时，学习目标应是什么”这一根本问题。它提出，目标不应仅是“更好地拟合数据”，而应是“哪些数据值得被学习”。
新的训练范式：SelectiveRM 倡导的“选择性分布对齐”思想，为在噪声反馈下学习可靠目标提供了一种更具原则性的训练范式。它表明，奖励模型训练不应无条件相信所有观测标签，而应在结构一致性约束下，自主识别并保留更可信的监督信号。

这项研究不仅推进了 Noisy Reward Modeling 的技术边界，也为构建更安全、更可信的大语言模型对齐流程提供了重要的理论依据和方法论支持。

论文信息：

标题：SelectiveRM: From Point-to-Point Fitting of Noisy Preferences to Distribution Alignment with Selection Mechanism
会议：ICML 2026
作者：潘黎铖（第一作者，浙江大学）、李昊轩（共同通讯作者，北京大学/牛津大学）、王浩（共同通讯作者，浙江大学/小红书）
机构：浙江大学、小红书、北京大学
论文地址：http://arxiv.org/abs/2605.06036

查看原文 →leiphone.com