技术博客arXiv cs.AI·7 天前

揭示逻辑推理中的算法演绎电路

原标题：Revealing Algorithmic Deductive Circuits for Logical Reasoning

速览

该研究旨在定位大语言模型中负责单个推理步骤的注意力头，并分析其信息传递机制。通过因果中介分析发现，约3%的专用注意力头负责检索事实和规则信息，而较高层则促进信息整合及全局推理策略（如图遍历算法）的涌现。这一发现阐明了模型如何从有限演示中理解抽象推理步骤及整体算法。

AI 深度解读

揭示逻辑推理中的算法演绎电路：深度解读

背景

近年来，大型语言模型（LLMs）在复杂推理任务中展现出了令人瞩目的能力。特别是在少样本学习（few-shot learning）场景下，通过引入功能性的符号表示（functional symbolic representations），LLMs 能够抽象地描述图遍历算法和分步推理过程，从而取得强大的推理性能。

然而，尽管外部表现优异，学术界对于 LLMs 内部机制的理解仍存在巨大空白。核心问题在于：LLMs 究竟是如何仅凭有限的演示样本，真正理解每个推理步骤的抽象含义以及整体算法逻辑的？现有的研究尚未明确揭示模型内部是如何定位并处理这些推理步骤的，以及不同组件之间是如何传递信息的。

为了解决这一“黑盒”问题，本研究旨在定位负责单个推理步骤的注意力头（attention heads），并刻画它们之间转移的信息类型。这项工作试图从因果中介分析的角度，深入剖析 LLMs 在逻辑推理中的内部运作机制。

核心内容

本研究提出了一套系统性的方法来揭示 LLMs 在逻辑推理中的内部“电路”结构。研究主要围绕以下几个关键步骤展开：

1. 基于符号辅助思维链（CoT）的对齐分析

研究首先在一个符号辅助的思维链（Chain-of-Thought, CoT）提示框架下，将构成性的推理步骤与对应的 token 对数几率（token logits）进行对齐。通过分析发现，那些引导推理过程的 token 位置，往往与较低的置信度分数相关联。这种低置信度并非源于模型能力的不足，而是源于模型在尝试满足演示中所示的推理行为模式时受到的约束。换句话说，模型在严格遵循逻辑规则时，其预测的不确定性反而增加，这反映了推理过程的严谨性。

2. 因果中介分析定位关键注意力头

为了进一步探究哪些神经元负责上述推理模式，研究采用了因果中介分析（causal mediation analysis）技术。这种方法允许研究者通过干预模型内部状态，来识别出对特定推理模式负责的注意力头。通过这种干预，研究成功定位了那些在逻辑推理中起关键作用的特定注意力头。

3. 分层功能分工：检索与集成

研究的核心发现揭示了 LLMs 在处理逻辑推理任务时的分层功能分工：

底层/专用注意力头负责事实与规则检索：研究发现，LLMs 通过专门的注意力头（仅占总注意力头数的约 3%）来检索事实和基于规则的信息，以支持各个子推理任务。这表明模型并非均匀地利用所有参数，而是存在高度专业化的“模块”来处理具体的知识检索。
高层注意力头负责信息集成与全局策略：相比之下，模型的更高层主要促进信息的集成，并促成全局推理策略的出现。例如，图遍历算法等全局策略正是在高层形成的，它们协调多个中间推理步骤，从而解决整体任务。

简而言之，LLMs 的逻辑推理并非一个均匀分布的过程，而是一个由底层专门化检索和高层全局协调共同构成的层级结构。

关键要点

推理步骤的可定位性：LLMs 内部的注意力头可以被明确定位以对应特定的推理步骤，且这些步骤可以通过因果中介分析进行识别。
低置信度与逻辑约束：引导推理过程的 token 位置通常伴随低置信度分数，这是因为模型在严格遵循演示中的推理行为模式时受到了约束。
稀疏的专业化机制：仅约 3% 的注意力头专门负责检索事实和规则信息，用于支持子推理任务，显示出模型内部存在高度稀疏且专业化的功能模块。
分层架构的功能差异：
- 低层/专用层：侧重于局部信息的检索（事实与规则）。
- 高层：侧重于全局信息的集成和复杂算法策略（如图遍历）的形成，协调多个步骤以完成整体任务。
符号表示与内部机制的联系：功能性的符号表示不仅在外部提示中有效，其内部实现也对应着具体的神经回路（attention heads），连接了抽象算法与具体实现。

意义与影响

这项研究对理解大型语言模型的内部工作机制具有重要意义：

打开推理黑盒：通过揭示负责不同推理步骤的特定注意力头，研究为理解 LLMs 如何执行复杂逻辑推理提供了微观视角。这有助于解释模型为何能在少样本情况下泛化出新的推理能力。
优化模型架构设计：发现约 3% 的注意力头专门负责事实检索，提示未来的模型设计可以借鉴这种稀疏专业化的思想，优化资源分配，提高推理效率。
增强可解释性与可控性：通过因果中介分析定位关键组件，研究人员可以更精确地干预模型的推理过程，例如通过调整特定注意力头的权重来纠正逻辑错误，从而提升模型的可靠性和可解释性。
** bridging Symbolic and Neural**：研究证实了功能性符号表示（如算法描述）在神经网络内部有对应的物理实现（注意力头），这为结合符号人工智能与神经人工智能提供了实证支持，表明两者并非截然对立，而是可以在模型内部协同工作。

总之，这项工作不仅深化了我们对 LLMs 逻辑推理机制的理解，也为未来构建更可靠、更高效、更可解释的推理模型指明了方向。

查看原文 →arxiv.org