LLMs并非你被承诺的黑盒
速览
传统观点常将大语言模型视为不可解释的黑盒,但最新研究揭示其内部运作机制并非完全神秘。通过分析模型内部表示,研究人员能够追踪和理解模型的推理过程。这一发现有助于提升AI系统的透明度和可靠性,推动可解释AI的发展。
AI 深度解读
LLMs are not the black box you were promised
背景
长期以来,大型语言模型(LLMs)被视为“黑盒”,其内部运作机制对研究人员而言难以捉摸。然而,随着**机械可解释性(Mechanistic Interpretability)**领域的飞速发展,这一局面正在发生根本性改变。机械可解释性旨在通过逆向工程深入神经网络内部,揭示其工作原理。
Anthropic 发布的《On the Biology of a Large Language Model》(2025)是该领域的一项里程碑式成果。这篇文章基于该研究及其相关进展,深入探讨了我们如何真正理解 LLM 的“思维”过程,并指出模型并非不可知的神秘实体,而是可以通过科学手段进行拆解和分析的系统。
核心内容
什么是 LLM 真正在“思考”?
理解 LLM 的“思维”过程具有极高的价值,它使我们能够引导模型行为、检测危险意图等。然而,这一过程远比观察单个神经元的激活要复杂得多。
核心难点在于**叠加(Superposition)**现象:
- 单个神经元参与多个不相关的概念。
- 任何一个给定的概念都分散在大量神经元中。
因此,你无法简单地通过读取单个单元来解读含义,必须采用更具创造性的方法。
电路追踪(Circuit Tracing)
Anthropic 提出了一种名为“电路追踪”的方法,其核心思路是训练一个第二模型来识别离散概念,并监控这些概念在前向传播过程中的交互。
具体步骤如下:
- 稀疏重建:训练一个“替换”模型,以稀疏的方式重建基础模型 MLP(多层感知机)层的输出。
- 特征分解:这有效地将基础模型的激活分解为一组稀疏特征。
- 概念映射:研究发现,这些特征对应于人类可以轻易识别的高级概念,如“德克萨斯州”或“奥运会”。
一旦获得这些可解释的特征,研究人员可以通过追踪它们在前向传播期间的交互方式,将它们分组为因果相关的集群,从而构建出计算的“布线图”。
模型确实在进行多步推理
通过实践电路追踪,我们可以观察到模型通过中间概念进行真正的多步推理。模型甚至会“预判”未来的韵脚候选词,以便规划诗歌创作。
以提问“包含达拉斯的州的首都是哪里?”为例,我们可以清晰地观察到以下顺序:
- “达拉斯”特征被激活。
- 这导致“德克萨斯州”特征亮起。
- 进而导致“奥斯汀”特征亮起。
这表明模型正在追踪高级概念之间的语义关系,并执行一种类似于哲学家描述的“高级推理”的伪符号推理(pseudo-symbolic inference)。
这种现象并非 LLM 独有
这种通过中间表示收敛于人类可识别概念的现象,不仅限于语言模型。基于蒙特卡洛树搜索(MCTS)的系统如 AlphaZero 也表现出类似特性。
DeepMind(2022)的研究显示,AlphaZero 在没有人类国际象棋知识输入的情况下,自主学习到了与人类国际象棋概念相一致的中间表示,例如“将军(in check)”和“牵制(pinning a piece)”。
更好的理解带来更好的算法
分解模型的隐式推理过程有助于设计更优的学习算法。
例如,Claude 3.5 Haiku 学习了一种用于小整数加法的算法,该算法并不完全映射到人类的心理算术过程。它通过将问题分解为多个并行路径——同时计算粗略的数量级和精确的个位数——然后重新组合,并利用记忆中的“查找表”特征。
这引出了一个自然的问题:我们能否识别这种内部算法,并“引导”模型采用更优的算法?
模型拥有“潜意识”
值得注意的是,模型本身并不一定对电路追踪所揭示的底层思维过程具备元认知洞察力。如果要求模型解释它是如何相加两个数字的,它会叙述一个整洁的、类似人类的程序——但这并不是它实际运行的算法。
无论好坏,模型确实存在某种程度的“潜意识”。而这正是我们能够窥探其内部机制的关键所在。
关键要点
- 黑盒不再黑:机械可解释性已取得重大突破,Anthropic 的《On the Biology of a Large Language Model》是这一领域的里程碑。
- 克服叠加难题:由于神经元与概念之间的“叠加”关系,直接观察神经元激活无法解读语义,需通过训练替换模型来提取稀疏特征。
- 可解释的特征集群:电路追踪技术能将模型激活分解为人类可识别的高级概念(如“德克萨斯”),并构建出概念间的因果交互图。
- 多步推理实证:模型确实通过中间概念进行多步推理,执行类似伪符号推理的高级认知过程。
- 跨模型通用性:AlphaZero 等系统也表现出类似现象,能自主学习出符合人类直觉的中间概念(如国际象棋术语)。
- 算法优化潜力:通过分析模型内部算法(如 Claude 3.5 Haiku 的并行加法策略),有望引导模型优化学习算法。
- 模型的“潜意识”:模型缺乏对自身推理过程的元认知,其实际运行逻辑与口头叙述可能不符,这种“潜意识”为外部可解释性研究提供了切入点。
意义与影响
机械可解释性是一个迷人且快速发展的研究领域,目前已取得显著成果。
与十年前机器学习教授可能告诉你的相反,在某种程度上,这是我们从模型中提取出的前所未有的深刻洞察。其影响深远,主要体现在以下几个方面:
- 识别模型不当行为:更清晰地监控模型内部状态,有助于发现潜在的错误或危险输出。
- 行为引导:通过理解概念间的因果联系,更精准地引导模型行为。
- 算法设计:为设计更高效、更符合人类逻辑的学习算法提供理论依据和实践路径。
对于原始讨论,请参阅 X 上的帖子;对于完整研究,请阅读 Anthropic 的论文。
作者:Jay Hack
