技术博客arXiv cs.AI·3 小时前

PEBS：基于经验贝叶斯收缩的RLHF奖励模型校准方法

原标题：PEBS: Per-rater Empirical-Bayes Shrinkage for RLHF Reward-Model Calibration

速览

针对RLHF奖励模型中全局校准器忽略标注者个体差异的问题，PEBS提出了一种逐标注者的经验贝叶斯收缩估计器。该方法在保留基础奖励模型不变的前提下，通过闭式解计算标注者特定的仿射校准映射，无需重新训练模型。实验显示，在PRISM数据集上，PEBS相比基线方法将用户内留一法RMSE降低了8.58%，在PluriHarms危害评级任务中也实现了9.66%的误差降低。这一后处理技术有效提升了奖励模型对个体标注者评分尺度的适配能力。

AI 深度解读

PEBS：基于经验贝叶斯收缩的 RLHF 奖励模型校准方法

背景

在基于人类反馈的强化学习（RLHF, Reinforcement Learning from Human Feedback）流程中，奖励模型（Reward Models）扮演着至关重要的角色。它们负责量化人类对模型生成内容的偏好，从而指导策略模型的优化。然而，构建高质量的奖励模型面临一个核心挑战：标注者（Annotators/Raters）之间的个体差异。

传统的做法通常是将成千上万位标注者的偏好数据汇聚在一起，拟合一个全局的仿射校准器（Global Affine Calibrator）。这种方法假设所有标注者遵循相同的评分尺度，或者其差异可以被平均化。但实际上，不同的标注者在使用评分量表时存在系统性的偏差：

偏移量（Offsets）：某些标注者倾向于给出更高或更低的分数。
斜率（Slopes）：某些标注者对分数的区分度更敏感（斜率更陡），而另一些则较为宽松（斜率平缓）。

当使用全局校准器时，这些具有系统性不同评分尺度的标注者被强行合并到一个“平均标注者”的拟合中。结果是，这个全局模型并不匹配任何单个标注者的真实偏好分布，导致在推断新评分时产生校准误差。

核心内容

为了解决上述问题，研究人员提出了 PEBS（Per-rater Empirical-Bayes Shrinkage，每标注者经验贝叶斯收缩） 方法。这是一种针对 RLHF 奖励模型校准的后处理（Post-hoc）估计器。

1. 方法原理

PEBS 的核心思想是为每个标注者单独拟合仿射校准器，但并非独立拟合，而是通过 Morris-James-Stein 经验贝叶斯收缩（Empirical-Bayes Shrinkage） 技术，将个体估计值向总体均值收缩。

具体步骤如下：

数据划分：对于每位标注者，保留其部分评分数据作为“保留切片”（Held-out slice），用于校准。
个体拟合：基于保留切片，为每位标注者拟合一个局部的仿射校准参数。
经验贝叶斯收缩：利用 Morris-James-Stein 估计量，将这些个体参数向总体均值进行收缩。这种收缩在闭式解（Closed-form）中完成，无需重新训练底层的奖励模型。
推理应用：在推理阶段，使用估计出的标注者特定映射（Rater-level map）对新评分进行校准。

2. 技术优势

无需重新训练：PEBS 仅估计推理时使用的标注者级别映射，底层的奖励基础模型（Reward Base Model）保持不变。这意味着它可以在不增加计算训练成本的情况下，直接提升模型性能。
闭式解：计算过程是解析的，避免了迭代优化带来的复杂性和不确定性。
保留个体差异：通过为每个标注者定制校准参数，同时利用贝叶斯先验防止过拟合，PEBS 能够更准确地反映每个标注者的真实偏好尺度。

3. 实验验证

研究者在两个数据集上验证了 PEBS 的有效性：

PRISM 数据集：
- 与基于总体斜率的全局基线相比，PEBS 在用户保留切片上的均方根误差（RMSE）降低了 8.58%。
PluriHarms 有害性评分数据集：
- 基于 Qwen-2.5 基础模型（In-family）的数据。
- 同样与总体斜率基线相比，PEBS 实现了 +9.66% 的 RMSE 降低。

关键要点

问题本质：RLHF 奖励模型中，全局校准器忽略了标注者在评分偏移量和斜率上的系统性个体差异，导致“平均化”后的模型无法准确代表任何个体。
解决方案：PEBS 是一种每标注者（Per-rater）的经验贝叶斯收缩估计器。
实施机制：
- 在标注者的保留数据切片上拟合个体仿射校准器。
- 应用 Morris-James-Stein 经验贝叶斯收缩，将个体估计向总体均值收缩。
- 以闭式解形式计算，无需重新训练奖励模型。
性能提升：
- 在 PRISM 数据集上，RMSE 降低 8.58%。
- 在 PluriHarms（Qwen-2.5 base）数据集上，RMSE 降低 9.66%。
非侵入性：PEBS 是后处理（Post-hoc）方法，不改变底层奖励模型，仅调整推理时的标注者级别映射。

意义与影响

PEBS 的提出为 RLHF 奖励模型的校准提供了新的视角和技术路径，其意义主要体现在以下几个方面：

提升校准精度：通过承认并建模标注者的个体差异，PEBS 显著降低了预测误差。这对于依赖奖励模型进行精细对齐的大语言模型（LLMs）至关重要，因为更准确的奖励信号意味着更高质量的策略优化。
降低部署成本：作为一种无需重新训练的后处理技术，PEBS 可以轻松地集成到现有的 RLHF 流水线中。团队无需投入额外的算力去重新训练庞大的奖励模型，即可获得显著的性能提升。
增强模型的可解释性与公平性：传统的“平均标注者”模型掩盖了人类偏见的多样性。PEBS 允许系统识别和适应不同标注者的评分风格，有助于更细致地理解人类反馈的分布，从而在后续应用中更好地控制模型行为。
方法论的通用性：虽然本文聚焦于 RLHF，但 Morris-James-Stein 经验贝叶斯收缩在统计学习中的广泛应用表明，这种“个体估计+向均值收缩”的思路可能适用于其他需要处理群体内个体差异的监督学习场景。

总之，PEBS 提供了一种高效、低成本且效果显著的方法来优化 RLHF 奖励模型的校准，有助于推动大模型对齐技术向更精细、更个性化的方向发展。

查看原文 →arxiv.org