技术博客arXiv cs.CL·3 小时前

Fodor与Pylyshyn系统性挑战仍未被神经网络攻克

原标题：Fodor and Pylyshyn's Systematicity Challenge Still Stands

速览

针对神经网络是否解决认知科学中Fodor和Pylyshyn提出的系统性挑战，近期有研究声称Lake和Baroni的元学习模型已达成突破。然而，新论文通过实验证明该模型在分布外数据上难以学习规则，且在分布内问题上也表现出不系统性。研究结论认为，神经网络尚未真正满足系统性要求，该挑战依然成立。

AI 深度解读

Fodor 和 Pylyshyn 的系统性挑战依然矗立：对神经网络语言理解能力的再审视

背景

近年来，神经网络在生成类人语言方面取得了显著成功，这在认知科学领域引发了巨大反响。许多研究者认为，神经网络正在解决关于人类认知的经典难题，并克服人工智能面临的诸多挑战。

其中，一个备受瞩目的案例是 Jerry Fodor 和 Zenon Pylyshyn 提出的“系统性论证”（argument from systematicity）。该论点指出，人类在语言理解和思维中表现出系统的双条件依赖关系（systematic biconditional dependencies）。例如，如果一个人能理解句子“John saw Mary”（约翰看到了玛丽），那么他必然也能理解句子“Mary saw John”（玛丽看到了约翰）。

传统的符号系统（Symbolic systems）能够很好地解释这种语言和思维的系统性，而神经网络模型则长期以来被认为缺乏对此现象的即时解释能力。尽管近期有几篇文章声称神经网络已经成功应对了这一挑战——特别是 Brenden Lake 和 Marco Baroni 提出的用于组合性的元学习协议（meta-learning for compositionality protocol）——但本文作者通过实证研究指出，这些结论为时过早。

核心内容

本文旨在重新评估神经网络是否真正解决了 Fodor 和 Pylyshyn 提出的系统性挑战。作者通过实验分析 Brenden Lake 和 Marco Baroni 的研究成果，发现其模型在应对系统性问题时存在根本性的缺陷。

1. 对“系统性”的定义与测试 Fodor 和 Pylyshyn 的核心观点是，人类认知具有系统性：一旦掌握了构成某种表达的基本概念和组合规则，个体就能理解或生成所有由这些概念按规则组合而成的新表达。在语言中，这意味着理解“A 看到 B”意味着必然理解“B 看到 A”（在特定语境下）或类似的结构变换。如果神经网络要真正模拟人类认知，它们必须展现出这种内在的、结构化的系统性，而不仅仅是通过统计关联来拟合数据。

2. 对 Lake 和 Baroni 模型的批判性分析 Lake 和 Baroni 声称他们的元学习模型能够匹配甚至解释人类的系统性。然而，本文作者通过一系列实验揭示了该模型的局限性：

分布外（Out-of-Distribution, OOD）泛化能力不足：研究发现，当面对与训练数据略有不同的规则或组合时，该模型的学习能力显著下降。这意味着模型并未真正内化通用的组合规则，而是依赖于训练数据中的特定统计模式。一旦输入偏离训练分布，模型的表现就会崩溃。
分布内（Within-Distribution）行为依然非系统性：更令人担忧的是，即使在训练数据的分布范围内，该模型在许多问题上表现出的行为也是非系统性的。这表明，即使是在它“应该”擅长的领域，模型也未能稳定地展现出 Fodor 和 Pylyshyn 所描述的那种严格的系统性依赖。

3. 结论：挑战依然有效 基于上述发现，作者得出结论：Lake 和 Baroni 的研究并不能证明神经网络已经克服了系统性挑战。相反，这些结果进一步证实了 Fodor 和 Pylyshyn 的论点：目前的神经网络架构在本质上缺乏对人类语言和理解中那种深层、结构化的系统性的解释能力。因此，Fodor 和 Pylyshyn 对神经网络提出的系统性挑战依然矗立，未被解决。

关键要点

系统性挑战的核心：Fodor 和 Pylyshyn 认为，人类认知的系统性（如理解“John saw Mary”蕴含理解“Mary saw John”）是符号系统的强项，而神经网络缺乏内在机制来解释这一现象。
近期主张的局限性：Brenden Lake 和 Marco Baroni 提出的元学习模型声称解决了这一问题，但本文证明其结论是 premature（过早的）。
泛化能力缺陷：该模型在处理略微偏离训练分布的规则时，表现出显著的学习困难，说明其未掌握真正的通用组合规则。
分布内非系统性：即使在训练数据分布内，模型在许多任务上也表现出非系统性的行为，未能稳定复现人类认知的系统性特征。
最终结论：神经网络尚未真正满足 Fodor 和 Pylyshyn 提出的系统性要求，该挑战在认知科学和人工智能领域依然具有有效性。

意义与影响

这篇论文对于当前人工智能和认知科学的交叉研究具有重要的警示意义：

对“大模型即智能”叙事的冷静反思：尽管大型语言模型在表面任务上表现出色，但本文提醒我们，表面的流畅性并不等同于底层认知机制的成熟。神经网络可能通过统计捷径完成任务，但这与人类基于规则的、系统性的认知过程存在本质区别。
认知科学理论的持续相关性：Fodor 和 Pylyshyn 在几十年前提出的理论并未因神经网络的崛起而过时。相反，它们为评估 AI 系统的认知能力提供了严格的基准。任何声称 AI 具备类人认知能力的说法，都必须通过“系统性”这一严格测试。
未来研究方向的指引：研究重点应从单纯提升性能指标，转向探索如何让神经网络具备真正的组合性（compositionality）和系统性泛化能力。这可能需要在架构设计（如结合符号与子符号方法）或训练策略上进行根本性的创新，而不仅仅是增加数据量或模型规模。
方法论的严谨性：在评估 AI 模型时，必须引入更严格的分布外（OOD）测试和系统性行为分析，以避免被在特定分布下表现良好的模型所误导。

查看原文 →arxiv.org