When transformers learn "impossible" languages, what do they learn?
AI 深度解读
背景
在语言学和人工智能的交叉领域,长期存在一个核心问题:为什么人类语言呈现出特定的结构,而某些逻辑上可能的语言变体(即“不可能语言”)从未在人类自然语言中出现?传统观点认为,人类受限于自身的认知与语言习得机制,无法掌握这些“不可能语言”。近期,随着大语言模型的兴起,研究者开始探讨 Transformer 架构是否同样存在这种偏向。然而,现有研究多停留在模型对“不可能语言”的样本效率或测试集困惑度差异上,缺乏对模型内部语言能力的直接评估,未能从语言学角度真正解释这些语言为何在人类语言中“不存在”。
核心内容
本文旨在填补这一空白,通过直接评估 Transformer 的语言能力,探讨模型在面对“不可能语言”时的具体表现。研究提出了两个理论驱动的关联假设:一是“不可能性”源于模型对语法的敏感性不足(语法敏感性缺陷);二是源于模型在生成句子时的能力受限(生成产出缺陷)。
为了验证这两个假设,研究者采用了 GPT-2 风格的模型,并在经过扰动生成的英语“不可能变体”上进行训练。在评估语法敏感性方面,研究使用了 BLiMP(The Benchmark of Linguistic Minimal Pairs)最小对立对进行测试。结果显示,模型在语法判断上的表现并没有出现断崖式下跌,而是呈现出渐进的退化趋势,且这种退化程度受到语言“信息局部性
查看原文 →arxiv.org
