技术博客arXiv cs.CL·14 小时前

偏好有效性压缩：人类反馈对齐中的共识缺失

原标题：Hidden Consensus:Preference-Validity Compression in Human Feedback

速览

论文指出标准RLHF流程将异质的人类判断简化为单一标量奖励，忽视了结构性社会中多元解释的合理性，称之为“偏好有效性压缩”。通过对马来西亚数据的分析，发现多数提示存在多个被多数参与者认可的响应，单一赢家聚合会丢弃这些有效选项。研究认为当前方法测量的是最大接受度而非多元对齐，呼吁未来对齐方法应保留有效性一致性。

AI 深度解读

Hidden Consensus: Preference-Validity Compression in Human Feedback

背景

当前大语言模型（LLM）对齐领域的主流范式是基于人类反馈的强化学习（RLHF）。在这一标准流程中，来自不同背景的人类标注者对模型输出的质量进行评判，这些异质性的判断往往被简化为单一的标量奖励值（scalar reward target），用于指导模型优化。

然而，这种“单一化”的处理方式在结构多元的社会中可能产生严重的测量偏差。在多元社会中，人类的分歧并不一定代表标注噪声（annotation noise），而可能反映了基于文化、历史、语言、地域或规范的不同解读。如果强行将多种同样有效（valid）的回应选项压缩为单一的优化目标，就会丢失这些多元视角下的合理性。

本文以马来西亚为诊断场景，深入分析了 RLHF 风格的反馈聚合机制，指出当前方法存在“偏好-效度压缩”（Preference-Validity Compression）的问题，即把多个在特定语境下有效的回应坍缩为单一的最优解，从而误导了对齐效果的评估。

核心内容

1. 问题定义：偏好-效度压缩（Preference-Validity Compression）

作者提出了“偏好-效度压缩”这一概念，用以描述标准 RLHF 流程中的一个根本性缺陷：将异质性的人类判断强行简化为单一标量奖励。

在结构多元的社会中，对于同一个提示（prompt），可能存在多个被不同群体视为“可接受”甚至“优秀”的回答。这些回答分别对应着不同的解释框架（interpretive frames），如本地文化视角、实用主义视角或特定历史背景视角。标准 RLHF 通常采用“赢家通吃”（single-winner）的聚合方式，只保留被大多数人或特定权重标记为“最佳”的一个回答，而丢弃其他同样具有效度的回答。这种做法导致模型只能学习到单一的、被压缩后的“共识”，而忽略了社会中真实存在的多元共识。

2. 实验设计与数据洞察

为了验证这一假设，研究团队以马来西亚为案例地，收集并分析了相关数据：

数据规模：包含 20 名参与者、107 组三元标注提示（trio-annotated prompts），共计 321 个偏好事件（preference events）。
分析方法：通过分析链接提示、回答和可接受性判断的偏好事件，研究者在不同的解释框架下考察了 RLHF 风格的反馈聚合过程。

3. 主要发现

数据分析揭示了当前“多数决”聚合方法的局限性：

多数支持的回应被大量丢弃：在 107 组提示中，79% 的提示存在多个获得多数支持的回应。然而，在标准的“单赢家”聚合机制下，这些额外的多数支持回应会被直接丢弃。
主导差距的消失：当考虑所有获得多数支持的选项时，顶级回应之间的“主导差距”（dominance gaps）显著缩小。这意味着，如果只看被选中的那个“最佳”回答，可能会高估其相对于其他合理回答的优势。
被丢弃内容的合理性：参与者经常选择多个可接受的回应。那些被标准算法丢弃的回应，并非随机噪声，而是明显反映了连贯的本地、实用或文化框架。
测量效度问题：研究结论指出，在该语料库中，多数聚合测量的是“argmax 可接受性”（即找出唯一最大值），而非“多元对齐”（plural alignment）。

4. 理论主张：有效性保持的一致性（Validity-Preserving Consistency）

基于上述发现，作者认为这是一个测量效度（measurement-validity）问题。未来的对齐方法不应仅仅追求在单一标量上的优化，而应满足“有效性保持的一致性”。

这意味着对齐算法应当保持稳定性，能够跨越多种有效（plural-valid）的解释框架，而不是将它们坍缩为单一的奖励目标。模型应当能够识别并尊重多种同样合理的回应路径，而不是强制收敛到某一种特定的“标准答案”。

关键要点

RLHF 的简化陷阱：标准 RLHF 将异质性的人类判断简化为单一标量奖励，这在多元社会中可能导致对齐测量的失真。
分歧即信号，非噪声：在多元文化背景下，人类判断的分歧往往反映了文化、历史、语言或规范上的合理差异，而非标注错误。
79% 的有效信息被丢弃：在马来西亚的案例研究中，近八成的提示存在多个获得多数支持的回应，但标准聚合方法只保留一个，导致大量有效信息丢失。
从“Argmax”到“Plural Alignment”：当前的多数决方法测量的是寻找唯一最大值（argmax），而非真正的多元对齐。真正的对齐应容纳多种同样有效的回应。
被丢弃选项的价值：被算法丢弃的回应往往具有连贯的本地、实用或文化逻辑，是理解当地用户真实需求的关键。
新标准：有效性保持的一致性：未来的对齐方法应设计为在多种有效解释框架下保持稳定，避免将多元合理性压缩为单一优化目标。

意义与影响

1. 对 AI 对齐理论的修正

本文挑战了 RLHF 中“单一奖励模型”的默认假设，指出在跨文化、跨地域的应用场景中，单一的奖励信号无法准确反映人类价值观的多样性。这要求 AI 研究者重新思考“对齐”的定义：对齐不应是强制模型输出某种“标准”答案，而是使模型能够理解并尊重不同语境下的合理差异。

2. 提升模型在多元社会中的鲁棒性

对于面向全球用户的产品（如 Llama、GPT 等），忽视多元性可能导致模型在某些文化或群体中表现不佳，甚至产生冒犯性输出。通过引入“有效性保持”的理念，模型可以更好地适应马来西亚等多元文化社会，减少因文化盲区导致的对齐失败。

3. 改进数据采集与标注策略

研究建议在未来的数据采集中，应保留多选项的标注结果，而不是强制标注者只选择一个“最佳”回答。这种细粒度的反馈数据有助于训练出更能理解人类复杂意图和多元价值观模型。

4. 方法论启示

本文提出的“偏好-效度压缩”概念为评估 AI 对齐效果提供了新的视角。评估指标不应仅关注模型是否输出了被大多数人标记为“最好”的答案，还应考察模型是否识别并保留了其他同样合理、符合特定文化或逻辑框架的回应。这为开发更公平、更具包容性的 AI 系统提供了理论依据和实践路径。

查看原文 →arxiv.org