技术博客arXiv cs.CL·4 小时前

抑制下先验犹存：基于Stroop范式的词汇覆盖研究

原标题：Priors Persist Through Suppression: A Stroop Paradigm for Lexical Override

速览

该研究通过类Stroop范式，验证了大语言模型在遵循系统提示进行词汇重映射时，原有的词汇先验并未被完全替换，而是持续发挥作用。通过对11个开源模型的测试及激活修补分析，发现词汇先验强度能预测干扰效应，且干扰与覆盖的痕迹均源于同一通道。这一发现揭示了大模型内部处理指令与先验知识冲突的机制。

AI 深度解读

Priors Persist Through Suppression: A Stroop Paradigm for Lexical Override 深度解读

背景

大型语言模型（LLMs）在遵循系统提示（System Prompts）或特定指令时，往往需要违背其预训练阶段形成的“词汇先验”（Lexical Priors）。例如，在技术规格书、词汇表或自定义系统提示中，模型常被要求以非惯常的方式使用熟悉词汇（如将“医生”定义为“森林”）。

长期以来，业界对于模型在遇到此类“覆盖”指令时的内部机制存在争议：当模型成功遵循新规则时，原有的词汇先验是被彻底替换（Replacement），还是仅仅被抑制（Suppression）但仍持续存在？如果先验被抑制而非替换，那么这种残留的先验是否会在后续处理中产生干扰？

为了回答这一问题，研究人员提出了一种类似于心理学中“斯特鲁普范式”（Stroop Paradigm）的实验框架，旨在探究词汇覆盖过程中的认知冲突机制。

核心内容

本文通过一系列严谨的实验，验证了“词汇先验在覆盖过程中通过抑制而持续存在”这一假设。研究团队利用斯特鲁普范式，测试了重新映射规则（Remapping Rule）与词汇先验干扰项之间的冲突。

实验设计：斯特鲁普范式

实验的核心逻辑是构建一种认知冲突场景：

重新映射规则：设定一个局部规则，例如规定单词 "doctor"（医生）在特定语境下意味着 "forest"（森林）。
词汇先验干扰项：查询词 "doctor" 本身会激活其固有的、强烈的词汇先验联想，即 "hospital"（医院）。
控制组：设置匹配的中性控制条件，以排除其他变量的影响。

在这种设置下，模型需要执行新规则（输出 "forest"），但其固有的词汇先验（指向 "hospital"）会产生干扰。如果先验被完全替换，则不应存在干扰；如果先验被抑制但依然存在，则会产生类似斯特鲁普效应中的干扰现象。

主要发现

研究团队在 11 个开源模型上进行了测试，这些模型涵盖四个不同的模型家族，参数量从 1B 到 9B 不等。

词汇先验强度预测干扰效应：即使在控制了答案先验、词频、分词方式以及提示词措辞等个体层面变量后，词汇先验的强度依然能显著预测模型在覆盖任务中的干扰程度。这表明，原有的词汇关联并未消失，而是作为一种持续的干扰源存在。
激活修补（Activation Patching）定位冲突源：研究人员对五个经过对齐（Aligned）的模型进行了激活修补分析，旨在定位引发冲突的具体神经元位置。结果发现，一个由三个位置组成的“三元组”（Triplet）几乎完全恢复了冲突效应：
- 定义的主语（Definition Subject）
- 定义的目标词（Definition Target）
- 查询词（Query Word）
该三元组的聚合相关系数 $R$ 在 $[0.92, 1.06]$ 之间，显示出极高的解释力。
绑定而非身份匹配：通过交换定义目标词的位置，研究发现该三元组执行的是“绑定”（Binding）操作，而非简单的“身份匹配”（Identity Matching）。这意味着模型在理解指令时，是在建立概念之间的关联，而非仅仅识别符号。
目标保留与干扰抑制的解离：解离实验（Dissociation Experiments）进一步揭示了机制的细节：
- 干扰抑制：在匹配条件、交换条件和个体不匹配条件下，干扰项（Distractor）的抑制行为均保持一致。
- 目标 Logit 崩溃：只有当“定义-目标”位置被破坏时，目标词（Target）的 Logit 才会发生崩溃。
这一现象表明，“目标保留”是绑定机制的特有签名，而干扰抑制则是普遍存在的现象。

结论

行为和机制分析收敛于同一通道：词汇先验既是干扰的起源，也是覆盖操作留下痕迹的地方。换句话说，当模型遵循新规则时，它并没有“忘记”旧的含义，而是通过抑制机制压制了旧含义，但这种压制过程本身就在模型的激活状态中留下了可检测的痕迹。

关键要点

先验未被替换，而是被抑制：当语言模型遵循覆盖指令（如重新定义词汇）时，其原有的词汇先验并未被移除，而是通过抑制机制继续运作。新规则通过降低旧含义的 Logit 值来生效，而非直接安装新含义。
斯特鲁普范式的有效性：研究成功将心理学中的斯特鲁普范式应用于 NLP 领域，通过“规则 vs. 先验”的冲突，量化了模型内部的认知干扰。
跨模型通用性：该现象在 11 个不同家族、1B-9B 参数的开源模型中均被观察到，表明这是大语言模型的一种普遍机制。
关键神经机制定位：激活修补技术定位到“定义主语-定义目标-查询词”这一三元组是冲突的核心来源，且该机制执行的是概念绑定而非简单匹配。
抑制与绑定的解离：干扰抑制在所有条件下均发生，而目标 Logit 的崩溃仅发生在位置信息被破坏时，证明了目标保留是绑定机制的特有特征。

意义与影响

这项研究对理解大语言模型的内部工作原理具有重要意义：

揭示模型的可解释性特征：通过定位具体的激活位置和三元组，研究为模型的可解释性提供了新的视角。它表明，模型的行为不仅仅是输入输出的映射，还涉及复杂的内部状态管理（如抑制和绑定）。
优化系统提示工程：理解词汇先验的持久性和抑制机制，有助于开发者更有效地设计系统提示。例如，在需要模型严格遵循新定义的场景中，可能需要更强的抑制信号或更明确的上下文隔离，以减轻残留先验带来的干扰。
评估模型鲁棒性：该范式可作为评估模型在对抗性攻击或复杂指令遵循任务中鲁棒性的工具。如果模型无法有效抑制强大的词汇先验，其在处理歧义或自定义指令时的表现可能会下降。
连接认知科学与 AI：将斯特鲁普范式引入 NLP 研究，加强了人工智能与人类认知科学之间的联系。这表明，尽管 LLMs 的训练方式与人类不同，但它们在处理语义冲突时可能采用了类似的抑制机制，这为构建更类人的 AI 系统提供了理论参考。

查看原文 →arxiv.org