技术博客arXiv cs.AI·2 小时前

PAFO：基于帕累托公平优化的个性化奖励模型

原标题：PAFO: Pareto Fairness Optimization for Personalized Reward Modeling

速览

大语言模型依赖奖励模型对齐用户偏好，但现有个性化模型常因训练数据不平衡而偏向主流用户，产生个性化奖励偏差。为此，研究者提出PAFO框架，先训练群体专用模型，再通过条件边际监督蒸馏为统一模型，推理时无需群体标签。实验表明，该方法在提升少数群体和主流群体准确率的同时，显著降低了用户层面的不公平性。

AI 深度解读

PAFO：基于帕累托公平优化的个性化奖励建模深度解读

背景

随着大型语言模型（LLMs）的快速发展，奖励模型（Reward Models）已成为对齐模型输出与用户偏好的核心组件。然而，现实世界中的用户偏好具有高度的异质性（Heterogeneity）。为了捕捉这种多样性，研究者提出了个性化奖励模型（Personalized Reward Models），旨在为不同用户或用户群体提供更精准的反馈信号。

尽管个性化奖励模型在理论上能够解决“一刀切”对齐的问题，但在实际训练中面临着一个严峻的挑战：数据分布的不平衡。训练数据往往偏向于主流或多数群体的偏好，导致模型在训练过程中倾向于拟合这些常见偏好。这种数据偏差导致了一个被忽视的失败模式——个性化奖励偏差（Personalized Reward Bias）。

具体而言，这种偏差表现为奖励模型的预测质量与用户偏好的支持率（Preference Support Rate）存在系统性关联：拥有大量训练数据支持的“多数群体”用户，其奖励模型表现优异；而数据稀疏的“少数群体”用户，其奖励模型表现则显著下降。这种不公平性不仅损害了少数用户的体验，也可能在最终的大模型对齐阶段引入系统性偏见。

核心内容

针对上述问题，本文提出了一种新的优化框架：PAFO（Pareto Fairness Optimization for Personalized Reward Modeling，基于帕累托公平优化的个性化奖励建模）。该框架将缓解个性化奖励偏差的问题形式化为一个群体效用上的帕累托公平问题（Pareto fairness problem over group utilities）。其核心目标是在不降低其他用户群体性能的前提下，显著提升服务不足（Under-served）群体的模型质量，从而实现整体效用的帕累托改进。

PAFO 框架主要包含两个关键阶段：

1. 群体专用奖励模型的训练

PAFO 首先根据用户偏好的分布特征，将用户划分为“多数群体”和“少数群体”。针对这两个群体，分别训练专用的奖励模型（Group-specialized Reward Models）。这一阶段允许模型充分学习特定群体的偏好边界，避免在联合训练中被多数群体的数据主导。

2. 条件边际级监督的知识蒸馏

为了将异构的偏好边界整合到一个统一的模型中，PAFO 引入了**条件边际级监督（Conditional Margin-level Supervision）**机制。该机制通过蒸馏技术，将多个群体专用模型学到的差异化偏好边界信息，压缩并迁移到一个单一的 unified model（统一模型）中。

3. 推理时的无标签特性

经过蒸馏后的最终模型具有一个重要的工程优势：在推理（Inference）阶段不需要显式的群体标签（Group Labels）。模型仅在训练阶段利用群体信息，而在实际部署时，可以直接接收用户输入并输出奖励分数，极大地降低了部署复杂度和隐私泄露风险。

关键要点

问题定义创新：首次明确将个性化奖励模型中的性能差异定义为“个性化奖励偏差”，并指出其与偏好支持率的系统性相关性。
优化目标转变：从传统的单一准确率最大化，转向帕累托公平优化。即在保证多数群体性能不下降（或轻微下降）的前提下，最大化少数群体性能的提升，追求整体福利的帕累托最优。
技术路径独特：采用“先分后合”的策略。先训练群体专用模型以保留群体特异性，再通过条件边际级监督进行蒸馏，实现异构知识的统一。
部署友好：最终模型在推理时无需知道用户所属的群体类别，解决了个性化模型在实际应用中难以获取或标注用户群体信息的痛点。
实验验证充分：在 Personal-LLM 和 DSP 两个基准数据集上进行了验证。结果显示，PAFO 不仅提高了少数群体和多数群体的准确率，还在多个指标上显著降低了用户层面的不公平性（User-level Unfairness）。

意义与影响

PAFO 的提出对大语言模型的个性化对齐具有重要的理论和实践意义：

推动更公平的 AI 对齐：现有的 LLM 对齐研究多关注整体性能或特定安全指标，往往忽视了不同用户群体间的公平性。PAFO 提供了一种可量化的优化框架，有助于减少算法对少数群体的系统性歧视，符合 AI 伦理和负责任 AI（Responsible AI）的发展趋势。
提升个性化服务的鲁棒性：通过解决数据不平衡带来的偏差，PAFO 使得个性化奖励模型在面对长尾用户或小众偏好时更加稳健。这对于提升大模型在多样化应用场景（如教育、医疗、创意写作）中的普适性至关重要。
方法论的通用性：虽然本文聚焦于奖励建模，但其提出的“帕累托公平优化”和“条件边际级监督蒸馏”思路，可推广至其他需要处理群体不平衡数据的机器学习任务中，如推荐系统、自然语言处理中的方言识别等。
平衡性能与公平的工程实践：PAFO 证明了在不牺牲主流用户性能的前提下改善少数群体体验是可行的。这为工业界在部署个性化模型时，如何在商业效率与社会公平之间取得平衡提供了可行的技术路径。

总之，PAFO 不仅是一个针对个性化奖励模型的技术改进，更是对当前 LLM 对齐范式中公平性缺失的一种重要回应。它提醒研究者，在追求模型能力的同时，必须关注模型对不同用户群体的覆盖质量和公平性。

查看原文 →arxiv.org