技术博客arXiv cs.CL·11 小时前

噪声记忆编码解释否定极性错觉

原标题：Noisy memory encoding explains negative polarity illusions

速览

研究发现，由于人类对复杂句子的编码存在损耗，常出现否定极性错觉，即误判不合语法的句子为可接受。实验表明，主句与从句主语中相似的限定词会加剧这种错觉。该结果证实人类语言处理在记忆限制下具有资源理性，倾向于从噪声输入中重建最可能的解释。

AI 深度解读

噪声记忆编码解释负极性错觉：人类语言处理的资源理性视角

背景

在自然语言处理与心理语言学的交叉领域，人类对复杂句子的理解机制一直是一个核心研究课题。尽管人类具备处理极其复杂句法结构的能力，但这种能力并非完美无缺。一个典型的例子是“负极性项错觉”（Negative Polarity Illusions）。

负极性项（Negative Polarity Items, NPIs），如英语中的 "ever"（曾经）、"any"（任何）或 "ever"，通常需要特定的语境（通常是负向语境，如 "not" 或 "never"）才能合法出现。例如，句子 "I have never seen him" 是合法的，因为 "never" 许可了 "ever" 的存在；而 "I have seen him ever" 则是不合语法的。

然而，实验发现，当句子结构变得复杂时，人类受试者往往会错误地判断那些实际上不合语法的句子为“可接受”。例如：

"The authors that no critics recommended have ever received acknowledgment for a best-selling novel." （那些没有评论家推荐的作者们，曾经获得过畅销书的认可。）

严格从语法上讲，这个句子是不合法的，因为 "ever" 出现在主句的肯定语境中，并未被任何负向算子许可。但在实验中，许多受试者认为这句话是可以接受的。这种现象被称为“负极性错觉”。

传统的生成语法理论往往将这种现象视为句法计算的错误，但本文提出，这可能与人类工作记忆的局限性以及信息编码过程中的噪声有关。

核心内容

本文基于 Hahn 等人（2022）提出的有损上下文 surprisal 理论（lossy context surprisal theory），对负极性错觉进行了解释。该理论的核心观点是：人类在处理复杂句子时，对上下文的编码是不完美的（imperfect encoding）。由于工作记忆资源的限制，大脑在编码长距离依赖关系时会产生“噪声”，导致信息丢失或扭曲。

1. 假设：限定词的记忆表征模糊

作者提出，人们在处理主句主语和嵌入从句主语时，对其中限定词（determiners，如 "the", "no", "many", "few" 等）的记忆表征非常薄弱。

在句子 "The authors that no critics recommended..." 中：

主句主语限定词是 "The"。
嵌入从句主语限定词是 "no"。

由于记忆编码的有损性，受试者可能无法准确保留 "The" 和 "no" 的具体语义特征，而是倾向于用一种更概括或更相似的记忆痕迹来替代。

2. 机制：限定词交换许可错觉

作者假设，受试者的大脑可能会在潜意识中进行一种限定词交换（determiner exchange）。如果受试者错误地将主句的限定词记忆为与嵌入从句的限定词相似，或者反之，这种混淆可能导致原本不合法的 NPI（如 "ever"）被错误地“许可”。

具体来说，如果受试者将主句的 "The" 误记为与 "no" 更相似的词，或者将 "no" 的影响错误地扩散到主句，那么 "ever" 就可能被错误地认为处于一个负向语境中，从而被判定为合法。

3. 实验验证：限定词相似度效应

为了验证这一假设，作者设计了一系列可接受性判断任务（Acceptability Judgment Tasks），使用了六对新的限定词组合，例如：

"few"（很少）和 "many"（许多）
"few"（很少）和 "most"（大多数）

实验的关键发现是：当两个位置的限定词在语义或形式上更相似时，错觉效应更强。

例如，实验生成了一个新句子：

"Many authors that few critics recommended have ever received acknowledgment for a best-selling novel."

在这个句子中，主句限定词是 "Many"，嵌入从句限定词是 "few"。尽管 "Many" 和 "few" 都不是负向词，但由于它们在语义上具有一定的对立相似性（都涉及数量量化），且相比 "The" 和 "no" 的组合，受试者更容易在记忆中将它们混淆或建立联系。结果发现，这个句子触发的错觉效应比经典的 "The... no..." 句子还要强，即使在没有时间压力的情况下也是如此。

这一结果有力地支持了“噪声记忆编码”假说：人类在处理语言时，并非进行完美的句法计算，而是在资源受限的情况下，基于噪声输入进行最大可能性的重建。

关键要点

理论框架：研究基于“有损上下文 surprisal 理论”，认为人类语言处理受工作记忆限制，导致对复杂句子的编码存在噪声和不完美性。
错觉机制：负极性错觉并非单纯的句法错误，而是源于人类对主句和从句主语中限定词的记忆表征模糊。大脑可能在潜意识中进行了“限定词交换”，导致 NPI 被错误许可。
相似度效应：实验证明，当主句和从句中的限定词在语义或形式上更相似时（如 "many" 和 "few"），产生的错觉效应更强。这支持了记忆混淆导致错觉的观点。
资源理性：人类语言处理是“资源理性”（resource-rational）的。面对工作记忆的限制，人类倾向于从噪声输入中重建最可能的解释，以优化下游处理效率，即使这会导致偶尔的语法误判。
实验证据：通过六对新颖限定词组合的可接受性判断任务，证实了即使在没有时间压力的情况下，基于相似性的记忆混淆依然会导致强烈的负极性错觉。

意义与影响

这项研究对理解人类语言处理机制具有深远意义：

挑战完美句法观：它提供了实证证据，表明人类语言处理并非一个完美的、模块化的句法引擎，而是一个受到认知资源约束的、带有噪声的概率系统。这支持了基于用法（usage-based）和认知约束的语言处理模型。
对 NLP 模型的启示：当前的深度学习语言模型（如 LLMs）通常基于大规模数据训练，能够很好地捕捉统计规律，但它们往往缺乏对人类认知局限性的建模。理解人类如何处理“噪声”和“资源限制”，有助于开发更符合人类认知特性的 AI 模型，特别是在处理长距离依赖和复杂句法时。
语言习得与障碍研究：如果语言处理本质上是资源理性的，那么语言习得障碍（如阅读障碍）可能与工作记忆编码效率低下有关。这一视角为语言病理学研究提供了新的理论框架。
认知效率的权衡：研究揭示了人类大脑在“准确性”和“效率”之间的权衡。为了快速处理语言，大脑允许一定程度的错误（如错觉），以换取更低的认知负荷和更快的处理速度。这种“有损压缩”策略是人类智能高效运作的关键特征。

总之，这项研究通过细致的实验设计，将抽象的“负极性错觉”现象与具体的认知机制（记忆编码噪声、限定词相似性）联系起来，深化了我们对人类语言处理本质的理解。

查看原文 →arxiv.org