技术博客arXiv cs.CL·3 小时前

部署语境重塑大模型偏好与价值观

原标题：LLMs Contain Multitudes: How Deployment Context Reshapes Model-Level Preferences and Values

速览

最新研究指出，大模型的偏好和价值观并非固定不变，而是显著受部署语境影响。通过对五个模型超过120万次决策的分析发现，语境变化导致的偏好差异远超提示词改写或温度控制。这意味着在特定语境下获得的安全保证在其他语境中可能失效，模型偏好应被视为语境条件测量值。

AI 深度解读

LLMs Contain Multitudes: 部署语境如何重塑模型层面的偏好与价值观

背景

在近期关于大型语言模型（LLMs）的评估研究中，一个普遍的观点是：LLMs 拥有稳定且一致的“模型层面”偏好和价值观体系。这种观点认为，无论输入如何变化，模型内在的价值取向是固定不变的。

然而，现有的鲁棒性检查（Robustness Checks）往往局限于偶然的提示词扰动，例如句法结构的微调或选项顺序的重新排列。这些测试并未触及更深层的环境变量。在大多数实际部署场景中，模型执行任务时的“周围语境”（Surrounding Task Context）是动态变化的。

这就引出了一个关键问题：当任务语境发生显著变化时，之前测量到的模型属性是否依然成立？为了回答这一问题，研究人员直接测试了部署语境对模型决策的影响，旨在揭示模型偏好并非如表面看来那样稳固。

核心内容

本研究通过两个既定的成对比较范式（Pairwise Paradigms）——即“国家偏好排名”和“效用判断提取”——对这一假设进行了直接验证。研究的核心控制变量是部署语境，即模型在进行具体价值依赖型选择时所执行的高层级任务。研究通过改变框架（Framing），例如让模型撰写 Reddit 帖子或撰写新闻文章，来操纵这一变量。

研究涵盖了五个不同的 LLMs，并分析了超过 120 万次成对决策。主要发现如下：

1. 部署语境的影响远超传统参数调整 实验结果显示，部署语境引起的偏好变异幅度，远远大于提示词改写（Prompt Paraphrasing）或温度控制（Temperature Controls）所带来的影响。这意味着，改变模型所处的“任务框架”比微调提示词或调整生成参数更能显著改变模型的输出倾向。

2. 国家偏好排名的语境依赖性 在涉及 15 个国家的偏好排名测试中，部署语境引发了广泛且统计显著的排名偏移。此前研究中报告的“全球北方偏好”（Global North Favouritism，即倾向于发达国家的偏见）并非模型的固有属性，而是高度依赖于语境的。在不同的部署框架下，每个模型的偏见都会发生系统性的转移。

3. 效用判断中的宏观稳定与微观波动 在涉及 50 多种结果的效用提取测试中，跨类别的总体排序（Broad Cross-category Ordering）得以保留，表明模型在大方向上保持了一致性。然而，在领域内部的细粒度排名上，变化幅度巨大。更值得注意的是，结果之间的基数交换率（Cardinal Exchange Rates，例如：一个地区的一条生命在数值上等于另一个地区多少条生命）在中位数上发生了 2.47 倍的变化。

4. 结论：偏好是语境条件的测量值 基于上述发现，报告中的“模型层面偏好”和“效用”应被理解为语境条件化的测量值（Context-conditioned Measurements），而非固定的模型层面属性。

关键要点

语境即变量：在评估 LLM 价值观时，必须将“部署语境”（模型执行任务的高层框架）视为核心变量，而非仅仅关注提示词本身的细微差别。
偏见非固定：模型表现出的社会偏见（如对特定国家或群体的偏好）并非静态不变，而是会随着任务框架（如从“写新闻”变为“写社交媒体帖子”）发生系统性偏移。
细粒度敏感性：虽然模型在宏观价值排序上可能保持一致，但在具体的价值权衡（如生命价值的量化交换）上，对语境极其敏感，数值偏差可达 2.47 倍。
安全保证的局限性：在一个特定语境下获得的安全保证或价值观对齐结果，无法直接推广到其他语境。在一种框架下安全的模型，在另一种框架下可能表现出不安全或价值观冲突的行为。
方法论启示：现有的鲁棒性测试方法（仅测试句法扰动）不足以评估模型的真实价值观稳定性，需要引入更复杂的语境操控测试。

意义与影响

这项研究对 LLM 的评估、对齐（Alignment）以及实际部署具有深远的影响：

重新定义“价值观对齐”：传统的对齐工作往往假设一旦模型在训练或微调阶段确立了价值观，这些价值观就是稳固的。本研究表明，价值观是“语境依赖”的。这意味着，仅仅依靠训练数据或 RLHF（基于人类反馈的强化学习）可能不足以确保模型在所有部署场景下的行为一致性。
安全评估的复杂性增加：对于依赖 LLM 进行高风险决策（如医疗、法律、新闻生成）的应用，安全测试不能仅在单一语境下进行。必须在多种可能的部署语境（如不同受众、不同文体、不同平台）中进行压力测试，以识别潜在的价值观漂移。
对“模型内在属性”的质疑：研究挑战了将 LLM 视为具有固定道德罗盘的实体的观点。相反，LLM 更像是一个具有多重潜在倾向的容器（“Contain Multitudes”），其最终表现取决于它被要求“扮演”的角色或“执行”的任务类型。
未来研究方向：未来的研究需要开发更细致的评估基准，专门用于测量模型在不同语境下的价值观稳定性。同时，开发者可能需要设计动态的上下文感知机制，以便在部署时实时监测并纠正因语境变化导致的价值观偏移。

总之，这篇论文提醒我们，LLMs 的价值观并非写在石头上的法律，而是流动在语境中的河流。理解并管理这种流动性，是实现真正可靠、安全 AI 系统的关键一步。

查看原文 →arxiv.org