技术博客arXiv cs.AI·7 天前

为何大语言模型在因果发现中失败，以及干预智能体如何破局

原标题：Why LLMs Fail at Causal Discovery and How Interventional Agents Escape

速览

该研究证明大语言模型通过监督微调或上下文学习无法可靠进行因果发现，因为区分相似观测数据需要无限增长的内部表示。为此，作者提出代理因果贝叶斯优化（A-CBO），利用冻结模型作为干预预言机，通过外部贝叶斯循环高效搜索。该方法无需训练即可在基准测试中匹配或超越微调模型，证明了突破学习范式局限的可行性。

因果发现（Causal Discovery）是科学推理的基石，旨在从观测数据中推断出变量之间的因果结构。然而，尽管大语言模型（LLMs）在自然语言处理和逻辑推理任务上取得了巨大进展，它们能否可靠地执行因果发现仍然是一个未解之谜。

近期的基准测试显示，即使是经过微调（Fine-tuning）的模型，在简单的因果图任务上也会遇到性能瓶颈，且随着因果图复杂度的增加，性能反而下降。尽管这一现象已被观察到，但其背后的根本原因——即模型为何会失败——此前并未得到明确的理论解释。

这篇来自 arXiv 的研究论文深入探讨了大语言模型在因果发现任务中的局限性，并提出了一个名为“Agentic Causal Bayesian Optimization”（A-CBO，代理因果贝叶斯优化）的新框架来突破这一限制。

研究团队通过理论证明指出，LLMs 在因果发现上的失败并非源于数据不足或模型架构缺陷，而是根本性的（fundamental）。

观测数据的相似性陷阱：不同的因果图（Causal Graphs）可能会生成非常相似的观测数据分布。现有的学习方法难以区分这些在统计上难以分辨但因果结构截然不同的图。
内部表示的无限增长需求：要准确区分这些相似的因果图，模型的内部表示（Internal Representations）必须无限增长以捕捉细微的因果差异。
学习范式的内在矛盾：然而，当前的主流学习方法——包括监督微调（Supervised Fine-Tuning, SFT）、直接偏好优化（Direct Preference Optimization, DPO）以及上下文学习（In-context Learning）——都依赖于有限的模型容量和特定的学习条件。要求内部表示无限增长违反了这些方法有效运作的基本前提。

作者将此现象形式化为**“核障碍定理”。该定理确立了一个关键结论：这种局限性是学习范式本身的固有属性**，而非任何特定模型或数据集的问题。这意味着，无论使用哪种现有的预训练模型或微调策略，只要依赖上述范式，就无法从根本上解决复杂因果发现中的区分难题。

为了绕过这一理论障碍，作者提出了 A-CBO 框架。其核心思想是将“决策”与“知识表示”分离，利用外部循环来弥补内部表示的不足。

冻结的语言模型作为干预预言机（Interventional Oracle）：在 A-CBO 中，LLM 被冻结（不进行训练），仅作为一个“预言机”使用。它不直接输出因果图，而是回答关于“干预效果”（Intervention Effects）的针对性查询。例如，当系统询问“如果强制变量 X 取特定值，变量 Y 会如何变化？”时，LLM 利用其预训练知识提供回答。
外部贝叶斯循环：一个外部的贝叶斯优化循环负责在候选因果图空间中集中信念（Concentrate Beliefs）。该循环通过向 LLM 提出查询，逐步缩小可能因果图的范围。
** logarithmic 轮次收敛**：由于决策过程发生在 LLM 内部表示所受的“核障碍”空间之外，A-CBO 能够在对数轮次（logarithmically many rounds）内证明其收敛性。LLM 本身保持不变，但通过外部交互，系统能够有效地探索复杂的因果结构。

研究在两个基准测试上验证了 A-CBO 的有效性：

Corr2Cause：A-CBO 在没有进行任何训练的情况下，性能匹配了经过微调的基线模型。这证明了无需微调即可达到同等水平。
Extended Corr2Cause：这是一个新的基准测试，扩展到包含 24 个变量和 18,000 个测试样本，旨在测试模型在更高复杂度下的表现。结果显示，A-CBO 显著优于微调和偏好优化方法，且随着复杂度的增加，其优势愈发明显。

理论突破：研究证明了 LLM 在因果发现上的失败是范式层面的固有缺陷，而非模型或数据问题。现有的 SFT、DPO 和 In-context Learning 无法克服“核障碍”，因为它们要求内部表示无限增长，这与有限模型容量相悖。
方法创新：提出的 A-CBO 框架通过将 LLM 用作回答干预查询的“预言机”，并将因果图搜索留给外部贝叶斯优化循环，成功绕过了内部表示的限制。
无需训练：A-CBO 使用冻结的 LLM，无需进行任何微调或偏好优化训练，即可在简单基准上匹配微调模型的性能。
可扩展性优势：在包含 24 个变量的高复杂度基准测试（Extended Corr2Cause）中，A-CBO 显著优于传统微调方法，证明了其在处理复杂因果结构时的优越性。
收敛性保证：由于决策空间与模型内部表示空间解耦，A-CBO 在理论上具有收敛性保证，且所需交互轮次随复杂度对数增长。

这项研究对 AI 领域，特别是因果 AI 和大模型应用方向，具有深远的影响：

重新审视 LLM 的能力边界：它提醒研究者，不能简单地假设通过更多的数据或微调就能解决所有推理问题。对于某些涉及复杂结构推断的任务，现有的监督学习范式存在理论上的天花板。
推动“代理式”AI 架构的发展：A-CBO 展示了将 LLM 作为“知识库”或“推理引擎”的一部分，而非唯一的决策主体，是一种有效的策略。这种“冻结模型 + 外部优化/搜索”的范式可能适用于其他需要精确结构推断或组合优化的领域。
因果 AI 的实用化路径：因果发现对于科学发现、医疗诊断和政策制定至关重要。A-CBO 提供了一种无需重新训练庞大模型即可提升因果推理能力的方法，降低了计算成本，并提高了在复杂场景下的可靠性。
理论指导实践：通过提出“核障碍定理”，研究为未来设计更强大的因果推理模型提供了理论指导。未来的模型架构可能需要专门设计以支持更高效的因果区分，或者更多地依赖外部交互机制来弥补内部表示的不足。

总之，这篇论文不仅解释了 LLM 为何在因果发现中“跌倒”，更提供了一条通过架构创新“爬起”的路径，强调了在复杂推理任务中，结合传统优化方法与大型语言模型潜力的重要性。