技术博客arXiv cs.CL·4 小时前

大模型文化规范与个人偏好对齐研究

原标题：Whose Norms? Disentangling Cultural and Personal Alignment in Large Language Models

速览

研究提出PACT框架，用于评估大语言模型在遵循文化规范与尊重个人偏好之间的权衡行为。实验发现，模型对文化规范的执行刚性受国家背景影响显著，且难以捕捉人类在文化语境中的多元观点与不确定性。

随着大型语言模型（LLMs）在社会决策场景中的应用日益广泛，模型面临着如何平衡“文化规范”与“个人偏好”的复杂挑战。例如，一个倾向于诚实的用户可能会询问：当当地文化规范倾向于间接反馈时，是否应该在公共场合纠正同事的错误？

然而，现有的研究往往将“文化对齐”（Cultural Alignment）与“个性化”（Personalization）割裂开来单独研究，缺乏对两者交互作用的深入探讨。这种割裂导致我们难以理解模型在面对具体社会情境时，究竟是如何权衡群体规范与个体价值观的。

为了解决上述问题，研究人员提出了一种名为 PACT（Personal-Preference and Cultural-Norm Trade-off，个人偏好与文化规范权衡）的新框架，旨在评估模型在面临冲突时，是选择遵循文化规范，还是允许个人偏好主导决策。

研究团队通过 PACT 框架对多个 LLM 进行了评估，发现模型在执行文化规范时的“刚性”程度存在显著差异。通过控制变量分析，研究揭示了不同因素对模型行为的影响权重：

此外，研究还发现，经过指令微调（Instruction Tuning）后，模型的行为模式发生了非均匀（non-uniform）的偏移，这意味着微调过程并非简单地增强或减弱某种倾向，而是复杂地重塑了模型的决策逻辑。

为了验证 PACT 框架的有效性并对比人机差异，研究者在五个国家进行了人类受试者实验。结果揭示了一个有趣的现象：

人类在遵循文化规范时，主要受场景所在国家的影响。
最关键的发现是：当参与者评估自己所属文化背景下的情境时，他们之间的一致性最低。
这一现象揭示了“文化内部多元主义”（Within-culture pluralism），即在同一文化圈内，个体对于规范的理解和执行存在巨大的分歧，而非铁板一块。

研究最后进行了人类与 LLM 的对齐实验，试图衡量模型是否能模拟人类的判断：

多数选择匹配：模型能够大致匹配人类群体的“多数选择”（Majority choices）。
分布与不确定性缺失：然而，模型在捕捉人类响应的分布特征和不确定性方面表现糟糕。
相关性上限：在最佳情况下，模型与人类判断的相关系数仅为 0.24。这表明，虽然模型知道“大多数人会怎么做”，但它无法理解人类在道德和社会判断中的细微差别、犹豫以及多样性。

这项研究对大语言模型的社会化应用具有深远的启示意义：

超越“多数派”对齐评估：当前的模型对齐评估往往只关注模型是否输出了“正确”或“主流”的答案。本研究证明，这种评估是肤浅的。真正的对齐需要能够捕捉文化内部的多元主义（Pluralism）和分歧（Disagreement），而不仅仅是模拟多数人的观点。
社会决策系统的风险警示：由于模型无法准确反映人类判断中的不确定性和分布特征，将其直接用于高风险的社会决策（如招聘、司法辅助、内容审核）可能存在隐患。模型可能会错误地强化某种单一的“规范”，而忽视边缘群体或个体差异。
未来研究方向：未来的对齐研究应从“行为模仿”转向“认知模拟”，即不仅要让模型做出与人类相似的选择，还要让其理解人类选择背后的多样性、语境依赖性和不确定性。
全球化部署的复杂性：鉴于国家语境对模型行为的显著影响，LLM 在全球化部署时不能采用统一的对齐策略，必须针对不同的文化语境进行细粒度的调整和本地化评估。