技术博客arXiv cs.CL·8 天前

为何大语言模型在结构化知识上产生幻觉：对线性化表示推理的机制分析

原标题：Why LLMs Hallucinate on Structured Knowledge: A Mechanistic Analysis of Reasoning over Linearized Representations

速览

本研究深入探究了大语言模型在处理线性化结构化知识时产生幻觉的机制。研究发现，幻觉源于注意力过度集中于捷径线索以及前馈层语义接地失败，导致模型回归参数记忆。该机制分析不仅解释了单跳图数据中的问题，还推广至多跳和表格场景，为跨格式结构化知识的幻觉检测提供了有效方法。

AI 深度解读

为什么大语言模型在结构化知识上会产生幻觉？——对线性化表示推理的机制分析

背景

在自然语言处理和大语言模型（LLM）的应用场景中，许多复杂的推理任务依赖于外部结构化知识，例如知识图谱（Graphs）和表格数据（Tables）。然而，LLM 本质上是一种基于序列的模型，无法直接原生处理非欧几里得结构的数据。因此，在实际应用中，通常需要将结构化数据“线性化”（Linearized），即转化为连续的 token 序列，以便输入到模型中进行处理。

尽管这种线性化方法在工程上可行，但一个普遍存在的现象是：即使提供了充足且相关的结构化知识，LLM 仍然经常产生“幻觉”（Hallucination），即输出与事实不符或逻辑错误的内容。目前，学术界对于导致这种失败背后的具体机制理解尚浅。人们往往简单地将幻觉归因于随机噪声或数据不足，但缺乏对模型内部动态过程的深入剖析。

核心内容

这项来自 arXiv cs.CL 的研究（提交于 2026 年 5 月 25 日）旨在深入探究 LLM 在处理线性化结构化知识时产生幻觉的根本原因。研究团队通过机制性分析（Mechanistic Analysis），揭示了幻觉并非随机现象，而是由系统性的内部动态所驱动。

1. 注意力机制的偏差：捷径式线索的过度集中

研究发现，LLM 的注意力机制（Attention Mechanism）在处理线性化数据时，存在一种系统性的偏差。模型倾向于将注意力 disproportionately（不成比例地）集中在类似“捷径”（shortcut-like）的结构线索上，而不是均匀地分布在整个上下文语境中。

这意味着，当面对复杂的结构化数据时，模型可能只关注了某些表面的、局部的标记或模式，而忽略了更广泛的逻辑关联。这种注意力的分配不均导致模型未能充分整合所有必要的信息，从而为幻觉埋下伏笔。

2. 前馈网络（FFN）的语义接地失败

除了注意力机制的问题，研究还指出，前馈层（Feed-Forward Layers）在“接地”（Grounding）提供的知识方面存在严重缺陷。

参数化记忆的回归：当前馈表示无法有效锚定外部提供的结构化知识时，模型会退回到依赖其预训练阶段形成的“参数化记忆”（Parametric Memory）。
幻觉的根源：换句话说，如果模型不能通过前馈层将输入的外部知识与内部知识建立稳固联系，它就会忽略外部输入，转而生成基于其内部训练数据中常见模式的内容。这种“回归”行为是产生幻觉的主要驱动力，因为它导致输出与当前提供的具体事实脱节。

3. 注意力分配与语义接地的不同角色

研究结果进一步区分了注意力机制和前馈层在幻觉产生中的不同作用：

前馈层：幻觉始终与前馈层中的语义接地失败相关联。这是导致模型偏离事实的核心环节。
注意力机制：注意力分配的表现则具有更大的任务依赖性（Task-dependent variability）。虽然注意力偏差存在，但其对幻觉的影响不如前馈层的接地失败那样一致和根本。

4. 机制的泛化能力

最后，研究验证了这些机制性模式不仅适用于单跳（Single-hop）图数据，还泛化到了多跳（Multi-hop）图和表格设置中。这表明，无论是在简单的关系查询还是复杂的表格推理中，上述的注意力偏差和 FFN 接地失败都是普遍存在的现象。基于这些发现，研究提出了一种有效的幻觉检测框架，能够跨不同的结构化知识格式识别潜在的幻觉风险。

关键要点

幻觉的系统性：LLM 在结构化知识上的幻觉不是由随机噪声引起的，而是源于模型内部动态的系统性缺陷。
注意力的“捷径”偏好：注意力机制倾向于过度集中在局部的、类似捷径的结构线索上，而非全面覆盖上下文，导致信息整合不全。
FFN 接地失败是核心：前馈层（Feed-Forward Layers）无法有效将外部结构化知识“接地”，导致模型退回到依赖内部参数化记忆，这是产生幻觉的最直接原因。
角色差异：前馈层的语义接地失败与幻觉高度一致，而注意力分配的影响则随任务不同而变化。
跨格式通用性：这些机制性模式在单跳图、多跳图以及表格数据中均成立，具有广泛的适用性。
检测可能性：理解这些机制使得开发跨格式的结构化知识幻觉检测方法成为可能。

意义与影响

这项研究对大语言模型的可解释性（Interpretability）和可靠性提升具有重要意义：

从“黑盒”到“白盒”的理解：它打破了将幻觉视为随机错误的传统观点，提供了具体的机制性解释。开发者不再需要盲目地增加数据量或调整超参数，而是可以针对注意力分配和前馈层的接地能力进行优化。
指导模型架构改进：既然发现 FFN 的接地失败是主要诱因，未来的模型设计可能需要引入专门的模块来增强外部知识与内部表示的对齐，或者改进线性化策略以减少信息丢失。
增强鲁棒性：通过识别注意力偏差和 FFN 接地失败的特征，可以构建更精准的幻觉检测器。这对于医疗、法律等对事实准确性要求极高的领域至关重要，能够在模型输出前拦截潜在的幻觉内容。
优化提示工程与数据预处理：理解线性化过程中的信息损耗机制，有助于设计更有效的数据预处理流水线（例如，如何更好地将表格或图谱转化为 LLM 可理解的序列），从而减轻模型的认知负担。

总之，这项研究为理解 LLM 在处理结构化数据时的局限性提供了坚实的理论基础，并为构建更可靠、更可解释的 AI 系统指明了方向。

查看原文 →arxiv.org