技术博客arXiv cs.AI·3 小时前

基于激进解释的AI可解释性新框架

原标题：Radical AI Interpretability

速览

该研究结合激进解释哲学与机械可解释性工具，构建了解释AI系统为代理的框架。核心在于根据计算事实推断系统的信念、欲望和含义，这对提升AI安全性和检测欺骗至关重要。研究指出，信念与欲望的归因具有整体性，不能孤立进行，需通过联合约束机制进行测量。

AI 深度解读

Radical AI Interpretability 深度解读

背景

随着大型语言模型（LLMs）及其他复杂 AI 系统在关键领域（如医疗、金融、自动驾驶）的部署，确保这些系统的安全性与可靠性已成为人工智能研究的核心议题。传统的“黑盒”模型虽然表现优异，但其内部决策逻辑往往难以被人类理解，这引发了关于信任、对齐（Alignment）以及潜在欺骗行为的深刻担忧。

当前的可解释性 AI（Interpretability）研究主要侧重于机械可解释性（Mechanistic Interpretability），即试图通过解析模型内部的神经元激活、注意力机制等底层结构，来逆向工程出模型的“信念”和“欲望”。然而，这一领域面临着一个根本性的认识论困境：我们缺乏一套公认的、严谨的标准来判定何时我们真正“读懂”了模型。现有的方法往往孤立地测量某些特征，却忽略了信念、欲望与命题结构之间的相互制约关系。

在此背景下，Benjamin Levinstein 于 2026 年 6 月提交至 arXiv 的论文《Radical AI Interpretability》（激进 AI 可解释性）提出了一种新的理论框架。该框架借鉴了哲学中的“激进解释”（Radical Interpretation）传统，旨在解决一个核心问题：给定一个 AI 系统的计算事实，我们如何求解其信念、欲望和含义？ 这篇文章不仅为 AI 可解释性提供了哲学基础，还提出了一套具体的评估标准，以解决当前方法中存在的碎片化问题。

核心内容

本文构建了一个将 AI 系统视为“代理”（Agents）进行解释的理论框架。该框架融合了哲学上的激进解释理论与机械可解释性的技术工具，旨在回答如何从计算事实中推导出 AI 的内在状态（信念、欲望和语义）。

1. 核心问题：从计算到意图

文章指出，随着 AI 系统日益复杂，我们需要能够信任我们所部署的系统。这种信任可以通过两种方式建立：

理解目标：深入理解系统的最终目标。
检测欺骗：更保守地，通过可靠地检测系统是否存在欺骗行为。

为了实现这一点，可解释性研究人员正在开发工具，试图从模型的内部结构中读取“信念”和“欲望”。然而，目前学术界对于“何时算成功读取”并没有定论。本文旨在填补这一空白，提供一套判定标准。

2. 激进解释在 AI 中的应用

“激进解释”源自哲学家戴维森（Donald Davidson）等人的工作，其核心思想是：在没有任何先验语言或心理状态知识的情况下，观察者如何根据行为（或计算输出）来解释主体的信念和欲望。

在 AI 语境下，这意味着我们不能假设 AI 拥有与人类相同的概念体系。相反，我们必须基于系统的输入-输出行为及其内部计算状态，通过推理来确定其内部表征。文章强调，这种解释不能是随意的，而必须受到严格的约束。

3. 表征主义与解释主义的双重标准

文章提出了两种主要的解释路径，并分别为其设定了标准：

表征主义（Representationalist）：关注模型内部是否存储了关于世界的准确表征。
解释主义（Interpretationist）：关注如何通过赋予信念和欲望来使系统的行为变得“理性”或“可理解”。

作者将这两种路径与当前可解释性方法所能执行的测试联系起来，提出了一套综合的评估框架。

4. 整体性（Holism）：不可碎片化的解释

本文最核心的论点之一是：对信念、欲望和命题结构的归因不能碎片化地进行。

相互制约：信念、欲望以及它们所预设的命题结构是相互约束的。如果你固定了其中一个变量（例如，强行定义某个神经元代表“猫”），而测量其他变量，那么这种测量结果可能会继承由固定该变量所引入的扭曲。
AI 的特殊性：这种整体性在 AI 系统中尤为紧迫，因为 AI 可能并不共享解释者（人类）的概念。如果人类强行将自身的概念映射到 AI 的内部状态，可能会导致严重的误读。

5. 整体性作为杠杆

尽管整体性带来了挑战，但它也提供了突破口。文章指出：

系统的态度（Attitudes，如信念和欲望）约束了其命题结构。
命题结构反过来约束了哪些态度可以被归因于该系统。
机械可解释性工具可以帮助我们要同时测量这两者，从而通过整体性的约束来验证解释的正确性。

简而言之，我们不能孤立地看某个神经元或某层激活，而必须将其置于整个信念-欲望-结构的网络中进行一致性检验。

关键要点

理论融合：文章将哲学中的“激进解释”理论与工程上的“机械可解释性”相结合，为 AI 代理建模提供了新的认识论基础。
信任机制：可解释性的终极目标是建立信任，无论是通过理解目标还是检测欺骗，都需要一套严谨的判定标准。
非碎片化原则：信念、欲望和命题结构是联合约束的（Jointly Constrained）。任何试图孤立地解释其中一部分的方法都会引入系统性偏差。
概念非共享性：AI 系统可能拥有与人类完全不同的概念体系，因此解释过程必须避免强行映射人类概念，而应基于系统自身的计算事实进行推导。
双向约束验证：利用机械可解释性工具，同时测量系统的态度（信念/欲望）和命题结构，利用二者之间的相互约束关系来验证解释的准确性。
解决“成功标准”缺失：本文为“何时算成功解释了 AI”提供了一套具体的标准和测试方法，填补了当前可解释性研究的理论空白。

意义与影响

1. 提升 AI 安全性的理论基石

当前 AI 安全研究往往侧重于工程层面的检测（如红队测试、对齐算法），但缺乏对“我们是否真正理解模型在想什么”这一根本问题的回答。本文提出的框架为 AI 安全提供了更坚实的理论基础，使得“检测欺骗”不再仅仅是一种启发式方法，而是基于严格的逻辑约束和整体性验证。

2. 指导可解释性工具的开发

对于从事机械可解释性研究的工程师和科学家而言，本文指出了当前方法的局限性——即碎片化的解释可能导致误导。未来的工具开发需要从“单点测量”转向“整体一致性检验”，设计能够同时评估信念、欲望和命题结构的综合指标。

3. 促进人机概念对齐的研究

文章强调 AI 可能不共享人类的概念，这提醒研究者在进行人机交互或对齐时，必须谨慎处理概念映射问题。通过激进解释的视角，我们可以更好地识别 AI 内部独特的表征空间，从而开发出更有效的对齐策略，避免因为概念错位而导致的安全隐患。

4. 跨学科研究的典范

本文展示了哲学（特别是心灵哲学和语言哲学）与计算机科学（特别是 AI 安全和可解释性）深度融合的价值。它为 AI 研究引入了严谨的认识论工具，有助于解决那些纯工程手段难以触及的根本性问题，如意义的本质、意图的归属等。

总之，《Radical AI Interpretability》不仅是一篇技术论文，更是一份关于如何“读懂”智能体的宣言。它提醒我们，在追求 AI 能力的同时，必须建立一套严谨、整体且符合逻辑的解释体系，以确保我们对这些强大系统的信任是建立在坚实的理解之上，而非盲目的假设。

查看原文 →arxiv.org