技术博客arXiv cs.CL·2 小时前

AI对齐困境：用户偏好多元且定义分歧

原标题：What Do People Actually Want From AI? Mapping Preference Plurality

速览

一项基于1500份跨75国问卷的研究指出，大模型通过RLHF对齐人类偏好时存在根本缺陷。研究发现，除“真实性”外，多数价值观支持者不足四分之一，且同一术语背后隐含截然不同的认知基础。这种偏好的碎片化与语境依赖性，导致现有奖励模型难以捕捉真实需求，加剧了幻觉问题。

AI 深度解读

人们真正想要什么样的 AI？——偏好多元性图谱分析

来源：arXiv cs.CL (2026) 作者：Julia Sepúlveda Coelho 等

背景

大型语言模型（LLMs）的当前对齐（Alignment）实践主要依赖于从人类反馈中强化学习（Reinforcement Learning from Human Feedback, RLHF）。这一方法的核心假设是存在一种可以被量化、聚合且普遍适用的“人类偏好”。然而，这种假设在学术界和工业界正面临越来越多的质疑。

现有的 RLHF 方法存在几个已知的局限性：

聚合冲突偏好：它将不同群体、不同文化背景下的冲突偏好强行合并。
样本代表性不足：往往依赖非代表性的用户样本进行训练。
二元比较的局限：仅使用简单的二元对比（A 比 B 好），无法捕捉复杂的语境和细微差别。

本文旨在通过实证数据，打破“单一偏好模型”的迷思，深入探讨不同人群对 AI 系统的真实需求，并揭示当前对齐方法在捕捉这些需求时的具体失败之处。

核心内容

本研究分析了来自 PRISM 数据集的 1,500 份开放式回答，覆盖了全球 75 个国家。研究重点在于解构人们究竟希望 AI 系统具备哪些特质，以及这些需求背后的复杂性。

1. 偏好的高度分散性

研究发现，人们的需求并非整齐划一。绝大多数价值观或功能需求仅由少于四分之一的受访者提出。

例外情况：唯一获得广泛共识的需求是“真实性”（Truthfulness），但即便是在这一项上，支持率也仅为 49%。这意味着，超过一半的受访者并未将“真实性”视为首要或唯一标准，或者他们对其有完全不同的理解。

2. 语义的同形异义：以“真实性”为例

当受访者被要求解释他们心目中的“真实性”时，研究揭示了截然不同的认识论基础（Epistemological bases）。相同的词汇背后隐藏着互不相容的定义：

来源导向：部分用户要求 AI 提供带有明确来源引用的主张。
权威导向：部分用户倾向于信任专家意见。
观点导向：甚至有一部分用户希望 AI 提供“不受欢迎的观点”（unpopular views），即挑战主流叙事的声音。

这表明，简单的“真实性”标签无法涵盖用户需求的多样性。

3. 能力与功能的争议性

某些 AI 特性并非普世价值，而是存在显著的分歧：

拟人化程度：关于 AI 行为应多么像人类，用户意见两极分化。
安全护栏（Guardrails）：对于 AI 的安全限制措施，一部分用户渴望严格的保护，而另一部分用户则坚决反对，认为这限制了自由或真实性。

4. 语境区分的重要性

用户经常使用语境化的区分来定义期望，例如区分 AI 在“默认情况下”应该做什么，以及在“被请求时”应该做什么。

当前的 RLHF 方法主要依赖二元比较，无法捕捉这种动态的、基于语境的偏好变化。例如，用户可能希望 AI 在默认状态下保守谨慎，但在被明确要求提供激进观点时能够放开限制。

5. 对齐实践的失败证据

研究指出，当前对齐实践存在根本性问题：

奖励模型的失效：当 49% 的用户要求“真实性”但定义各异时，单一的奖励模型（Reward Model）几乎不可能准确捕捉这种复杂性。
幻觉率居高不下：尽管用户明确表达了对准确性的需求，但资金充足的大型模型仍然保持着高幻觉率。这暗示当前方法未能识别出用户的真实偏好，或者在优化过程中丢失了关键信号。

关键要点

偏好非单一：不存在统一的“人类偏好”。大多数价值观仅由少数群体（<25%）强烈要求，仅有“真实性”获得相对多数（49%）支持。
定义的多义性：关键词如“真实性”在不同用户群体中具有完全不同的认识论含义（如引用来源 vs. 专家意见 vs. 非主流观点），导致语义上的不可通约性。
特性的两极分化：AI 的拟人化程度和安全护栏（Guardrails）是极具争议的功能，用户群体内部存在强烈的对立需求。
语境的缺失：用户偏好高度依赖语境（默认行为 vs. 指令行为），而现有的二元比较训练方法无法捕捉这种细微差别。
对齐的局限性：当前的 RLHF 方法通过扁平化处理，将复杂、冲突且情境化的信号强行整合为通用偏好模型。这种做法不仅效率低下（导致幻觉率未降），还被批评为一种“认知暴力”（epistemic violence），即抹杀了多元认知方式的合法性。

意义与影响

这项研究对 AI 对齐领域提出了严峻的挑战。它表明，试图建立一个通用的、单一的偏好模型来对齐所有人类用户，在理论上是不成立的，在实践中也是低效的。

方法论反思：AI 开发者需要重新审视 RLHF 的假设。如果用户对于核心概念（如真实性）的定义都如此分歧，那么基于二元比较的奖励模型注定无法捕捉真实意图。
个性化与模块化对齐：未来的对齐策略可能需要从“一刀切”转向更细粒度的方法，例如基于用户画像的个性化偏好建模，或者允许用户自定义 AI 的行为准则（如选择“专家模式”还是“引用模式”）。
伦理与社会影响：研究将当前的对齐实践比作“认知暴力”，强调了在技术设计中尊重认知多样性的伦理必要性。忽视这种多样性不仅会导致产品体验不佳，还可能加剧社会认知的极化或边缘化特定群体的声音。
解决幻觉的新视角：高幻觉率可能不仅仅是技术瓶颈，更是偏好识别失败的结果。只有真正理解并区分用户对“准确性”的不同定义，才能开发出更有效的纠错机制。

总之，这篇论文呼吁 AI 社区承认并拥抱“偏好的多元性”，停止追求虚幻的普遍共识，转而开发能够处理冲突、语境和细微差别的下一代对齐技术。

查看原文 →arxiv.org