技术博客arXiv cs.CL·2 小时前

大模型存在句级上下文同化现象，可被特定注意力头调控

原标题：Sentence-Level Contextual Entrainment in Large Language Models

速览

研究揭示大语言模型存在句级上下文同化现象，即提示中的句子（即使为反事实陈述）会显著提升模型推理时的概率。该现象随模型规模增大而减弱，且主要由2%至4%的注意力头控制。关闭这些特定注意力头可有效缓解同化效应，且不损害模型性能。

AI 深度解读

大语言模型中的句子级上下文同化：现象、机制与缓解策略

背景

在大语言模型（LLMs）的研究中，上下文同化（Contextual Entrainment） 是一个近期被发现的有趣现象。简单来说，它指的是模型倾向于为其上下文（Context）中已经出现的 token 赋予更高的概率。这种现象在 token 级别上已被观察到，即模型在生成下一个 token 时，会无意识地“模仿”或“复现”前文出现的词汇分布。

然而，现有的研究多集中在微观的 token 层面。对于实际应用场景而言，用户提供的提示（Prompt）通常由完整的句子甚至段落构成。如果同化效应不仅存在于单个词，而是延伸至句子级别，那么意味着模型可能会过度拟合 Prompt 中的句式、语气甚至事实陈述，无论这些陈述是客观事实还是主观臆断。

本研究旨在将上下文同化的研究视角从 token 级别扩展至句子级别，通过考察整个句子的平均对数概率（mean log-probability），深入探究这一现象在多种模型架构和数据集中的表现及其内在机制。

核心内容

本研究对来自七个不同家族（families）的 26 个大语言模型进行了系统性评估，使用了涵盖主观任务（如情感分析、观点生成）和客观任务（如问答、事实核查）的两个数据集。研究核心在于量化句子级别的上下文同化效应，并分析其随模型规模变化的趋势及神经机制。

1. 句子级上下文同化的存在性验证

研究通过计算 Prompt 中每个句子的每 token 平均对数概率（per-token mean log-probability），证实了句子级上下文同化的存在。

现象描述：在模型推理过程中，出现在 Prompt 中的句子（即使这些句子包含反事实陈述，即与事实不符的假设性内容）的概率显著增加。
含义：这表明模型不仅记住了具体的词汇，还在更高层面上“同化”了输入句子的结构或语义分布。这种同化可能导致模型在生成回复时，不自觉地倾向于复述或强化 Prompt 中的观点，即便这些观点是错误的或带有偏见的。

2. 模型规模与同化效应的关系

研究发现，上下文同化效应并非恒定不变，而是与模型的大小呈负相关。

趋势：随着模型参数规模的增加，上下文同化现象逐渐减弱。
解读：这可能意味着更大规模的模型具有更强的泛化能力和更稳健的推理机制，能够更好地区分“上下文信息”与“生成目标”，从而减少了对输入上下文的过度依赖或模仿。

3. 神经机制：注意力头的关键作用

为了揭示同化效应的底层原因，研究团队分析了模型内部的注意力机制（Attention Mechanism）。

关键发现：上下文同化效应主要由模型中 2% 到 4% 的注意力头（Attention Heads）控制。
实验验证：研究人员通过“关闭”（Turning off）这些特定的注意力头，发现可以显著缓解句子级的上下文同化现象。
性能影响：值得注意的是，在抑制同化效应的同时，模型在常规任务上的整体性能并未受到负面影响。这表明这些特定的注意力头可能专门负责处理上下文的“记忆”或“复现”功能，而非核心的逻辑推理或知识检索功能。

关键要点

定义扩展：研究将“上下文同化”从 token 级别扩展至句子级别，证明模型会对 Prompt 中的完整句子赋予更高的概率，即便内容是反事实的。
普遍性：该现象在 26 个来自 7 个不同家族的大语言模型中均被观察到，且在主观和客观任务中均存在。
规模效应：模型越大，上下文同化效应越弱。小模型更容易出现过度模仿 Prompt 内容的情况。
稀疏控制：同化效应并非由整个网络均匀分布，而是由极少部分（2%-4%）的注意力头主导。
可干预性：通过屏蔽特定的注意力头，可以有效减轻上下文同化，且不会损害模型在标准基准测试中的表现。
潜在风险：句子级同化可能导致模型在对话或生成任务中，无意识地强化 Prompt 中的偏见、错误信息或特定风格，影响输出的客观性和多样性。

意义与影响

这项研究对大语言模型的开发、部署及安全对齐具有重要的指导意义。

1. 提升模型输出的客观性与安全性

句子级上下文同化揭示了模型可能存在的“回声室”效应。如果模型过度同化 Prompt 中的反事实陈述或偏见观点，可能会生成误导性内容。理解这一机制有助于开发更鲁棒的提示工程策略，或在系统层面通过干预注意力机制来减少有害信息的传播。

2. 模型架构优化的新方向

发现 2%-4% 的注意力头主导同化效应，为模型压缩和加速提供了新思路。未来可以在不损失核心性能的前提下，对这些特定头进行剪枝或优化，从而降低模型对上下文的过度依赖，提高推理效率。

3. 评估基准的完善

现有的模型评估指标多关注准确性或流畅性，较少关注模型对上下文的“模仿倾向”。本研究提出的句子级同化度量方法，可作为新的评估维度，用于衡量模型的独立推理能力和抗干扰能力。

4. 对提示工程（Prompt Engineering）的启示

对于开发者而言，意识到同化效应的存在意味着需要更加谨慎地设计 Prompt。避免在 Prompt 中引入强烈的、可能带有偏见或错误的前提假设，或者通过技术手段（如注意力头屏蔽）来确保模型能够基于事实而非仅基于上下文风格进行生成。

总之，这项研究不仅深化了我们对大语言模型内部工作机制的理解，也为构建更可靠、更客观的 AI 系统提供了具体的技术路径。

查看原文 →arxiv.org