← 返回信息流
技术博客arXiv cs.CL·2 小时前

AI对齐困境:用户偏好多元且定义分歧

原标题:What Do People Actually Want From AI? Mapping Preference Plurality

速览

一项基于1500份跨75国问卷的研究指出,大模型通过RLHF对齐人类偏好时存在根本缺陷。研究发现,除“真实性”外,多数价值观支持者不足四分之一,且同一术语背后隐含截然不同的认知基础。这种偏好的碎片化与语境依赖性,导致现有奖励模型难以捕捉真实需求,加剧了幻觉问题。

AI 深度解读

人们真正想要什么样的 AI?——偏好多元性图谱分析

来源:arXiv cs.CL (2026) 作者:Julia Sepúlveda Coelho 等

背景

大型语言模型(LLMs)的当前对齐(Alignment)实践主要依赖于从人类反馈中强化学习(Reinforcement Learning from Human Feedback, RLHF)。这一方法的核心假设是存在一种可以被量化、聚合且普遍适用的“人类偏好”。然而,这种假设在学术界和工业界正面临越来越多的质疑。

现有的 RLHF 方法存在几个已知的局限性:

  1. 聚合冲突偏好:它将不同群体、不同文化背景下的冲突偏好强行合并。
  2. 样本代表性不足:往往依赖非代表性的用户样本进行训练。
  3. 二元比较的局限:仅使用简单的二元对比(A 比 B 好),无法捕捉复杂的语境和细微差别。

本文旨在通过实证数据,打破“单一偏好模型”的迷思,深入探讨不同人群对 AI 系统的真实需求,并揭示当前对齐方法在捕捉这些需求时的具体失败之处。

核心内容

本研究分析了来自 PRISM 数据集的 1,500 份开放式回答,覆盖了全球 75 个国家。研究重点在于解构人们究竟希望 AI 系统具备哪些特质,以及这些需求背后的复杂性。

1. 偏好的高度分散性

研究发现,人们的需求并非整齐划一。绝大多数价值观或功能需求仅由少于四分之一的受访者提出。

  • 例外情况:唯一获得广泛共识的需求是“真实性”(Truthfulness),但即便是在这一项上,支持率也仅为 49%。这意味着,超过一半的受访者并未将“真实性”视为首要或唯一标准,或者他们对其有完全不同的理解。

2. 语义的同形异义:以“真实性”为例

当受访者被要求解释他们心目中的“真实性”时,研究揭示了截然不同的认识论基础(Epistemological bases)。相同的词汇背后隐藏着互不相容的定义:

  • 来源导向:部分用户要求 AI 提供带有明确来源引用的主张。
  • 权威导向:部分用户倾向于信任专家意见。
  • 观点导向:甚至有一部分用户希望 AI 提供“不受欢迎的观点”(unpopular views),即挑战主流叙事的声音。

这表明,简单的“真实性”标签无法涵盖用户需求的多样性。

3. 能力与功能的争议性

某些 AI 特性并非普世价值,而是存在显著的分歧:

  • 拟人化程度:关于 AI 行为应多么像人类,用户意见两极分化。
  • 安全护栏(Guardrails):对于 AI 的安全限制措施,一部分用户渴望严格的保护,而另一部分用户则坚决反对,认为这限制了自由或真实性。

4. 语境区分的重要性

用户经常使用语境化的区分来定义期望,例如区分 AI 在“默认情况下”应该做什么,以及在“被请求时”应该做什么。

  • 当前的 RLHF 方法主要依赖二元比较,无法捕捉这种动态的、基于语境的偏好变化。例如,用户可能希望 AI 在默认状态下保守谨慎,但在被明确要求提供激进观点时能够放开限制。

5. 对齐实践的失败证据

研究指出,当前对齐实践存在根本性问题:

  • 奖励模型的失效:当 49% 的用户要求“真实性”但定义各异时,单一的奖励模型(Reward Model)几乎不可能准确捕捉这种复杂性。
  • 幻觉率居高不下:尽管用户明确表达了对准确性的需求,但资金充足的大型模型仍然保持着高幻觉率。这暗示当前方法未能识别出用户的真实偏好,或者在优化过程中丢失了关键信号。

关键要点

  • 偏好非单一:不存在统一的“人类偏好”。大多数价值观仅由少数群体(<25%)强烈要求,仅有“真实性”获得相对多数(49%)支持。
  • 定义的多义性:关键词如“真实性”在不同用户群体中具有完全不同的认识论含义(如引用来源 vs. 专家意见 vs. 非主流观点),导致语义上的不可通约性。
  • 特性的两极分化:AI 的拟人化程度和安全护栏(Guardrails)是极具争议的功能,用户群体内部存在强烈的对立需求。
  • 语境的缺失:用户偏好高度依赖语境(默认行为 vs. 指令行为),而现有的二元比较训练方法无法捕捉这种细微差别。
  • 对齐的局限性:当前的 RLHF 方法通过扁平化处理,将复杂、冲突且情境化的信号强行整合为通用偏好模型。这种做法不仅效率低下(导致幻觉率未降),还被批评为一种“认知暴力”(epistemic violence),即抹杀了多元认知方式的合法性。

意义与影响

这项研究对 AI 对齐领域提出了严峻的挑战。它表明,试图建立一个通用的、单一的偏好模型来对齐所有人类用户,在理论上是不成立的,在实践中也是低效的。

  1. 方法论反思:AI 开发者需要重新审视 RLHF 的假设。如果用户对于核心概念(如真实性)的定义都如此分歧,那么基于二元比较的奖励模型注定无法捕捉真实意图。
  2. 个性化与模块化对齐:未来的对齐策略可能需要从“一刀切”转向更细粒度的方法,例如基于用户画像的个性化偏好建模,或者允许用户自定义 AI 的行为准则(如选择“专家模式”还是“引用模式”)。
  3. 伦理与社会影响:研究将当前的对齐实践比作“认知暴力”,强调了在技术设计中尊重认知多样性的伦理必要性。忽视这种多样性不仅会导致产品体验不佳,还可能加剧社会认知的极化或边缘化特定群体的声音。
  4. 解决幻觉的新视角:高幻觉率可能不仅仅是技术瓶颈,更是偏好识别失败的结果。只有真正理解并区分用户对“准确性”的不同定义,才能开发出更有效的纠错机制。

总之,这篇论文呼吁 AI 社区承认并拥抱“偏好的多元性”,停止追求虚幻的普遍共识,转而开发能够处理冲突、语境和细微差别的下一代对齐技术。

查看原文 →arxiv.org