技术博客arXiv cs.CL·4 小时前

定位语言模型中锚定效应的内部路径

原标题：Localizing Anchoring Pathways in Language Models

速览

该研究通过控制实验发现，提示中的无关数字会引发语言模型的数值推理锚定效应。研究人员利用归因电路定位技术，在Qwen和Llama模型中追踪到边缘级方法能更准确地恢复锚定敏感信号。结果表明，锚定电路在同类模型间具有强迁移性，但在基座与指令微调模型间转移不可靠，揭示了后训练对决策路径的关键影响。

AI 深度解读

深度解读：定位语言模型中的锚定效应通路

背景

在人类认知心理学中，“锚定效应”（Anchoring Effect）是一个经典现象：人们在做出数值判断时，往往会不自觉地受到初始信息（即“锚点”）的影响，即使该信息与最终决策毫无逻辑关联。例如，如果先让人猜测“甘地去世时的年龄”是否高于140岁，随后给出的估计值通常会显著高于先让人猜测是否高于90岁的群体。

近年来，随着大型语言模型（LLMs）在数值推理任务中的表现日益受到关注，研究者发现这类模型同样存在类似的认知偏差。当提示词（Prompt）中包含无关的数字时，语言模型的判断结果会发生偏移，产生类似于人类的锚定效应。

然而，尽管行为层面的锚定效应已被广泛观测，但这一信号究竟是如何在语言模型内部传递的？它具体位于模型的哪些层级？是嵌入层、注意力头还是前馈神经网络（FFN）？对于这些问题，现有的可解释性研究尚缺乏系统性的机制定位。本研究旨在通过受控实验和归因分析，深入探究语言模型内部处理锚定敏感信号的具体通路。

核心内容

本研究通过构建受控的多选题设置，利用共享答案选项的方式，精确量化并定位了语言模型中锚定效应的内部机制。研究主要涵盖了实验设计、度量指标、模型范围及核心发现四个维度。

1. 实验设计与度量指标

为了隔离锚定信号，研究设计了一种控制变量场景：在保持正确答案选项不变的情况下，改变提示词中的无关数字（锚点）。研究者定义了一个**Logit差值（Logit-difference）**指标，用于比较“正确答案选项”与“对应锚点诱导的错误答案选项”之间的对数几率差异。

研究验证了该指标与行为层面的锚定效应高度相关，即 Logit 差值的变化能够忠实反映模型在行为上受到的锚定影响程度。

2. 模型范围与方法论

研究选取了 Qwen 和 Llama 两个主流模型系列，涵盖了 7B 至 8B 参数规模的基座模型（Base Models）及指令微调模型（Instruction-tuned Models）。

在技术方法上，研究采用了基于归因的电路定位（Attribution-based circuit localization）技术，并对比了两种不同粒度的定位方法：

节点级方法（Node-level methods）：关注单个神经元或注意力头的贡献。
边级方法（Edge-level methods）：关注层与层之间、或模块之间的连接权重和信号传递路径。

3. 核心发现

研究结果揭示了锚定信号在模型内部的分布规律及训练对通路的影响：

边级方法更忠实：在定位锚定敏感信号时，边级方法比节点级方法能更准确、更忠实地恢复出信号路径。这表明锚定效应并非由单个孤立组件决定，而是依赖于组件间的动态交互。
模型内部通路的高度一致性：在同一个模型架构内，低锚定电路（Low-anchor circuits）和高锚定电路（High-anchor circuits）之间表现出强烈的迁移性。这暗示了无论锚点数值大小如何，模型内部处理锚定方向的通路结构是共享的。
微调改变了关键通路：然而，在基座模型与指令微调模型之间，电路的迁移性较差且不可靠。这一发现至关重要，它表明后训练（Post-training）阶段对模型内部哪些通路最关键产生了决定性影响。指令微调不仅改变了模型的行为输出，更重塑了其内部处理数值偏差的机制结构。

关键要点

行为与机制的关联：研究定义的 Logit 差值指标被证实能有效追踪语言模型在数值推理中的行为锚定效应，建立了内部信号与外部行为之间的量化联系。
定位方法的优劣：对于捕捉锚定效应这类复杂的认知偏差，基于连接和信号流动的边级归因方法优于传统的节点级分析方法。
共享的底层结构：在同一模型变体中，处理不同强度锚点的电路具有高度相似性，说明模型内部存在一种通用的、共享的锚定处理通路结构。
微调的关键作用：基座模型与指令微调模型之间的电路差异显著，证明**指令微调（Instruction Tuning）**是重塑模型内部决策机制、决定哪些通路对最终输出至关重要的关键阶段。
机制性解释：研究为语言模型如何处理无关数字干扰提供了机制层面的解释，填补了从黑盒行为到内部白盒机制之间的认知空白。

意义与影响

这项研究对理解大型语言模型的内部工作机制具有重要的理论和实践意义：

提升模型的可解释性与安全性：通过定位锚定效应的具体通路，研究人员可以更精准地识别模型中的认知弱点。这对于开发更鲁棒的数值推理模型、减少幻觉和偏差至关重要。
指导模型训练策略：研究发现微调阶段对关键通路的决定性影响，提示我们在进行指令微调时，需要特别关注模型如何处理数值敏感信息。未来可能通过针对性的微调策略，抑制有害的锚定通路，从而提升模型的逻辑严谨性。
深化对“认知偏差”在AI中表现的Understanding：研究证实了语言模型不仅表现出类似人类的锚定行为，而且其内部机制也遵循特定的电路规律。这为比较人类认知与机器智能在处理启发式偏差上的异同提供了新的实证依据。
方法论贡献：证明了边级归因方法在定位复杂认知信号方面的优越性，为后续研究其他类型的模型偏差（如确认偏误、框架效应等）提供了可复用的技术范式。

综上所述，该研究不仅揭示了语言模型内部“锚定效应”的物理载体，更强调了后训练过程在塑造模型决策机制中的核心地位，为构建更透明、更可控的下一代语言模型提供了重要线索。

查看原文 →arxiv.org