技术博客arXiv cs.AI·11 小时前

BiasGRPO：利用组相对策略优化稳定大模型偏见缓解

原标题：BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

速览

针对大语言模型偏见缓解中奖励景观高方差且缺乏单一真值的对齐难题，本文提出BiasGRPO框架。该方法利用组相对策略优化（GRPO），通过用组相对基线替代价值函数，在保持在线训练探索优势的同时显著提升了训练稳定性。实验表明，BiasGRPO在多个基准测试中优于DPO和PPO，并发布了高效且避免知识退化的自定义偏见奖励模型。

AI 深度解读

BiasGRPO：通过组相对策略优化稳定高方差奖励景观中的偏见缓解

背景

在大型语言模型（LLMs）的对齐过程中，缓解社会偏见是一个独特的挑战。与具有单一“地面真值”（ground truth）的可验证任务不同，偏见本身缺乏绝对的标准答案，这导致其奖励景观（reward landscape）具有极高的方差和主观性。

现有的基于偏好的微调方法在这一领域面临显著的权衡困境：

直接偏好优化（DPO）：受限于离线训练固有的探索不足问题，难以充分探索策略空间。
近端策略优化（PPO）：由于批评家模型（critic）的估计可能不可靠，容易导致训练过程的不稳定。

这种不稳定性在高方差的偏见评估环境中被进一步放大，使得寻找既稳定又能有效减少偏见的对齐方法成为当前研究的难点。

核心内容

本文提出了 BiasGRPO，一种利用组相对策略优化（Group-Relative Policy Optimization, GRPO）来稳定对齐过程的框架。该框架的核心思想是通过在一组采样的完成结果（completions）上对奖励进行归一化，从而降低训练过程中的方差。

1. 方法论：用组相对基线替代价值函数

BiasGRPO 的关键创新在于用**组相对基线（group-relative baseline）**替代了传统的价值函数。

在标准的强化学习对齐中，模型通常依赖一个独立的 Critic 模型来估计状态价值，以计算优势函数（advantage）。然而，在偏见缓解任务中，Critic 的估计往往噪声较大。
BiasGRPO 不再依赖全局的价值估计，而是将当前采样的一组输出作为参照系。通过计算组内奖励的均值和标准差，对每个样本的奖励进行标准化处理。这种方法本质上是一种无 Critic（critic-free）或低依赖 Critic 的策略优化方式。

2. 优势：结合探索与稳定性

保留在线训练的探索优势：与 DPO 的离线训练不同，BiasGRPO 保留了在线训练（online training）的特性，允许模型在生成过程中持续探索新的策略。
提升稳定性：通过组内归一化，BiasGRPO 有效平滑了高方差奖励带来的剧烈波动，解决了 PPO 在偏见任务中因 Critic 估计不准而导致的训练崩溃或不稳定问题。

3. 实验与资源

数据集扩展：为了适应 GRPO 框架，作者合成扩展了一个涵盖多个领域和上下文的数据集，以提供足够多样的样本组。
自定义偏见奖励模型：作者创建并发布了一个定制的偏见奖励模型（bias reward model）。该模型具有以下特点：
- 高效引导生成：能有效指导模型减少偏见输出。
- 计算高效：相比复杂的 Critic 模型，其计算成本更低。
- 避免知识退化：在缓解偏见的同时，不会显著损害模型的一般知识能力。
- 兼容性：可无缝集成到多目标强化学习人类反馈（RLHF）管道中。

关键要点

问题定义：偏见缓解缺乏单一真值，导致奖励信号高方差、主观性强，传统对齐方法难以平衡探索与稳定。
核心算法：提出 BiasGRPO，利用组相对策略优化（GRPO），通过组内奖励归一化替代传统的价值函数估计。
技术优势：
- 相比 DPO：解决了离线训练探索不足的问题。
- 相比 PPO：消除了因 Critic 估计不可靠导致的训练不稳定性。
实验结果：在多个基准测试中，BiasGRPO 的表现优于 DPO 和 PPO，证明了其在高方差奖励景观下的有效性。
开源贡献：
- 发布了合成扩展的多领域偏见数据集。
- 发布了一个计算高效、能防止知识退化的自定义偏见奖励模型，便于社区集成到现有的 RLHF 流程中。

意义与影响

BiasGRPO 的提出为大型语言模型的社会偏见缓解提供了一种更稳健的技术路径。

解决对齐中的“痛点”：它直接针对偏见评估中“无标准答案”导致的奖励噪声问题，提供了一种无需依赖高方差 Critic 估计的优化方案。这对于那些难以量化、主观性强的对齐目标（如公平性、无害性）具有普遍的借鉴意义。
降低部署门槛：通过发布计算高效的偏见奖励模型，BiasGRPO 降低了企业或研究机构在微调阶段进行偏见对齐的计算成本。
促进多目标优化：该框架被设计为可无缝集成到多目标 RLHF 管道中，意味着它可以在减少偏见的同时，兼顾其他对齐目标（如有用性、诚实性），为构建更安全、更公正的通用人工智能系统提供了实用的工具链。

查看原文 →arxiv.org