技术博客arXiv cs.CL·1 天前

大语言模型中词法效应的持久性及其对下游任务的影响

原标题：On the Persistent Effects of Lexicality in Large Language Mod

速览

该研究量化了大语言模型表征中词法重叠相对于语义内容的影响。发现词法效应贯穿模型深度，且在中间层存在语义与词法信号同时退化的过渡区域。这一发现对摘要生成和模型编辑等下游任务具有重要启示。

AI 深度解读

词汇性在大语言模型中的持久影响：深度解读

背景

大语言模型（Large Language Models, LLMs）提取出的表征（Representations）已成为众多下游应用的核心基石，从语义相似度计算到模型编辑，无一不依赖于这些高维向量所蕴含的信息。然而，一个长期存在且未被充分理解的现象是：LLM 内部的表征结构往往受到**词汇重叠（Lexical Overlap）**的强烈影响，而非纯粹由语义内容（Semantic Content）主导。

换句话说，当两个句子包含相同的词汇但含义不同时，或者含义相同但用词不同时，模型内部的激活状态可能更多地反映了“词是否相同”，而非“意思是否一样”。目前，学术界对于这种词汇影响力与语义内容之间的关系，及其对下游任务的具体影响，理解仍然有限。这项研究旨在填补这一空白，通过量化分析揭示词汇性在模型深层结构中的持久作用。

核心内容

本研究通过系统性的实验和理论分析，深入探讨了 LLM 表征中词汇重叠与语义内容之间的博弈关系。研究团队不仅关注表层现象，还引入了信息论视角来解释这一现象，并考察了其在不同架构、训练策略下的普遍性。

1. 词汇影响的普遍性与持久性

研究发现，词汇影响力并非局限于模型的浅层或特定部分，而是贯穿模型的整个深度。无论模型架构如何变化（如 Transformer 的不同变体）、训练机制（Training Regimes）或目标函数（Objective Functions）如何调整，这种影响都保持一致。

特别值得注意的是，即使是在专门针对**语义相似度（Semantic Similarity）**进行训练的模型中，词汇重叠的影响依然显著。这表明，仅仅通过优化语义目标函数，并不足以消除模型对表面词汇形式的依赖。

2. 对抗性语义压力测试

为了剥离词汇与语义的纠缠，研究采用了多种对抗性语义压力测试（Adversarial Semantic Stress Tests）。这些测试旨在构造那些在语义上截然不同但在词汇上高度相似（或反之）的句子对，从而迫使模型在表征空间中做出区分。实验结果证实，在这些压力测试下，模型表征仍然表现出强烈的词汇偏向性。

3. 中间深度的“退化区域”

研究揭示了一个令人意外的现象：在模型的中间深度区域（Mid-depth Region），存在一个特殊的过渡阶段。在这个区域中，词汇信号和语义信号同时退化（Degrade Simultaneously）。

这意味着，在模型的某些中间层，表征既不能很好地反映表面的词汇形式，也不能准确地捕捉深层的含义。这一发现挑战了以往认为“浅层处理词汇、深层处理语义”的简单二分法，指出模型内部存在一个“信息真空”或“过渡混乱”地带，导致表征在表面形式和意义上都表现不佳。

4. 信息论视角的解释

研究进一步从信息论的角度连接了上述发现。通过分析表征中的信息流，研究指出词汇重叠之所以具有持久影响，是因为它在数据分布中提供了更易于学习、计算成本更低的捷径（Shortcut）。模型倾向于利用词汇共现这一强统计规律，而非深入理解复杂的语义结构，尤其是在缺乏足够语义区分度的训练数据或优化压力下。

5. 下游任务的影响案例

为了验证这一理论发现的现实意义，研究以**文本摘要（Summarization）和模型编辑（Model Editing）**作为案例，展示了词汇影响力如何具体干扰下游任务。

在摘要任务中，模型可能过度关注源文本中的特定关键词，而忽略整体语义连贯性。
在模型编辑中，试图修改模型的某项知识或行为时，残留的词汇关联可能导致编辑效果不理想，甚至引发意外的副作用，因为底层的表征空间仍被词汇结构所锚定。

关键要点

词汇性影响无处不在：词汇重叠对 LLM 表征的影响贯穿模型深度，不受架构、训练方式或目标函数的显著改变，包括专为语义相似度训练的模型。
语义训练无法完全消除词汇偏差：即使优化目标明确指向语义理解，模型依然难以摆脱对表面词汇形式的依赖。
中间层存在“双重退化”现象：在模型中间深度区域，词汇信号和语义信号同时减弱，形成一个既不利于表面形式识别也不利于意义理解的过渡区域。
对抗性测试证实偏差：通过对抗性语义压力测试，研究证实了模型在区分“同义词不同义”或“同义不同词”时的固有困难。
下游任务受波及：词汇性偏差会直接干扰文本摘要和模型编辑等下游应用的效果，表明这一现象不仅是理论问题，更是工程实践中的痛点。

意义与影响

这项研究对 LLM 的理解和应用具有深远意义：

修正对 LLM 内部机制的认知：它打破了“深层表征即纯语义”的理想化假设，揭示了模型内部复杂的、非线性的信息处理过程，特别是中间层的“退化”现象，为后续研究提供了新的分析维度。
指导模型架构与训练优化：既然词汇影响是持久且普遍的，未来的模型设计可能需要引入专门的机制来解耦词汇与语义表征，或者在训练阶段引入更强的对抗性正则化，以抑制模型对词汇捷径的依赖。
提升下游任务的可靠性：在开发基于 LLM 的应用（如摘要、检索增强生成 RAG、模型编辑）时，开发者需要意识到模型可能存在的词汇偏见，并设计相应的后处理或验证步骤，以避免因词汇重叠导致的错误推理或编辑失败。
推动信息论在 NLP 中的应用：将词汇影响与信息论视角结合，为理解大模型中的信息瓶颈和信息流提供了新的理论工具，有助于从更基础的层面解释模型为何以及如何学习。

总之，该研究不仅指出了 LLM 表征中的一个关键缺陷——词汇性的持久影响，还通过细致的实验和理论分析，为未来构建更鲁棒、更语义驱动的 AI 系统指明了方向。

查看原文 →arxiv.org