技术博客arXiv cs.CL·1 天前

推理时动态正交化抑制大模型幻觉

原标题：Hallucinations as Orthogonal Noise: Inference-Time Manifold Alignment via Dynamic Contextual Orthogonalization

速览

针对大语言模型生成内容与事实不符的幻觉问题，研究提出基于几何框架的动态上下文正交化（DCO）方法。该方法将幻觉视为残差流语义流形上的正交噪声，在推理时通过正交分解和Z-score抑制机制选择性衰减异常分量。实验表明，DCO在Llama-3等模型上显著提升了上下文忠实度，同时有效保留了参数化知识。

AI 深度解读

幻觉作为正交噪声：通过动态上下文正交化进行推理时流形对齐

背景

大型语言模型（LLMs）在生成与上下文事实或逻辑约束不一致的内容时，会出现所谓的“幻觉”（Hallucination）现象。这一缺陷严重阻碍了 LLM 在需要高可靠性场景中的部署。尽管现有研究提出了多种缓解幻觉的方法，但许多方法往往在抑制幻觉与保留参数化知识（Parametric Knowledge）之间难以取得平衡，导致模型在知识密集型任务上的性能下降。

传统的干预方法通常依赖于对模型权重的修改或外部知识的注入，缺乏从几何角度对模型内部表示机制的深入理解。近年来，线性表示假设（Linear Representation Hypothesis）为理解神经网络内部的信息处理提供了新的视角，即模型的语义信息主要存储在残差流（Residual Stream）的子空间中。然而，如何从几何层面精确界定并消除导致幻觉的噪声成分，仍是一个未解决的挑战。

核心内容

本文提出了一种基于几何框架的新视角，将幻觉视为相对于残差流语义流形的“正交噪声”。研究基于线性表示假设，认为注意力头（Attention Heads）的理想状态是传播与上下文子空间一致的信息。然而，当特定的注意力头引入了与该子空间正交的分量时，就会破坏潜在表示的一致性，从而引发幻觉。

为了解决这一问题，作者提出了动态上下文正交化（Dynamic Contextual Orthogonalization, DCO），这是一种在推理时（Inference-Time）进行的干预方法。DCO 的核心机制如下：

动态上下文锚点：DCO 利用输入残差流作为动态上下文锚点，对注意力头的输出执行正交分解。这种方法旨在区分与上下文对齐的语义更新和发散的噪声。
逐层 Z-score 抑制机制：为了有效去除噪声，DCO 采用了一种逐层的 Z-score 抑制机制。该机制基于统计分布，选择性地衰减那些离群的正交分量。通过这种方式，模型能够在保留主要语义信息的同时，剔除那些偏离上下文逻辑的异常噪声。

实验评估在 Llama-3-8B 和 Llama-3-70B 模型上进行，涵盖了 XSum、NQ-Swap 和 IFEval 等多个基准测试。结果表明，与最先进的干预基线方法相比，DCO 在上下文忠实度（Contextual Faithfulness）方面表现更优。此外，DCO 在 TriviaQA 和 TruthfulQA 等知识密集型任务上保持了高性能，有效地缓解了现有方法中常见的抑制幻觉与保留参数化知识之间的权衡困境。

关键要点

幻觉的几何解释：研究将幻觉重新定义为相对于残差流语义流形的正交噪声，而非简单的错误生成。
DCO 方法创新：提出了一种无需重新训练模型的推理时干预方法 DCO，通过动态上下文正交化来修正注意力头的输出。
噪声分离机制：利用逐层 Z-score 抑制机制，基于统计分布识别并衰减离群的正交分量，从而保留与上下文一致的语义信息。
性能优势：在 Llama-3-8B 和 70B 模型上，DCO 在多个基准测试中超越了现有的最先进干预基线。
知识保留能力：DCO 能够有效抑制幻觉，同时不损害模型在知识密集型任务（如 TriviaQA、TruthfulQA）上的表现，解决了传统方法中常见的性能权衡问题。
计算效率：作为一种推理时干预方法，DCO 具有较高的计算效率，适合实际部署应用。

意义与影响

这项工作从几何角度为理解 LLM 的幻觉现象提供了新的理论框架，验证了幻觉可以被视为残差流中的正交噪声。这一见解不仅深化了对模型内部表示机制的理解，还为开发更有效的幻觉缓解策略提供了新思路。

DCO 方法的提出具有重要的实践意义。作为一种推理时干预技术，它无需对模型进行重新训练或微调，即可显著提升模型的上下文忠实度。这对于需要在保持原有知识能力的同时提高输出可靠性的应用场景（如医疗、法律、金融等领域）尤为关键。此外，DCO 在知识密集型任务上的优异表现表明，通过几何对齐来抑制幻觉，可以在不牺牲模型知识储备的前提下实现更可靠的生成，为未来 LLM 的可靠部署提供了有力的技术支撑。

查看原文 →arxiv.org