← 返回信息流
技术博客arXiv cs.CL·1 天前

大语言模型具备语言创造力但无法通过统计预emption避免过度泛化

原标题:Linguistic Productivity in Large Language Models: Models Coerce, but do not Preempt

速览

基于使用理论,研究测试了固化效应和预emption效应对大语言模型语言创造力的影响。结果显示,大模型能利用上下文强制力处理非常规词汇,展现出结构生产力。然而,模型无法利用否定证据避免对语义合理但未见过的模式进行过度泛化。这表明大模型虽具备一定创造力,但在利用统计预emption约束方面存在局限。

AI 深度解读

大语言模型的语言生产力:模型会施加“强制”,但不会“抢先”

背景

基于用法(Usage-based)的语法理论认为,语言结构的创造性生产力受到两种截然不同的频率信号的支持与制约:

  1. 固化(Entrenchment):源于高频使用。当某种语言结构被反复使用时,它在说话者或模型的心理表征中会变得根深蒂固,从而支持对该结构的熟练运用。
  2. 抢先(Preemption):源于从未在特定语境中观察到某种预期的语言结构。如果在一个本该出现结构 A 的语境中,我们总是听到结构 B,那么结构 B 就会“抢先”占据该位置,从而抑制结构 A 的使用。这种负证据(Negative Evidence)帮助语言使用者避免过度泛化。

大语言模型(LLMs)本质上也是基于用法的,因为它们通过接触海量文本数据来学习语言结构。然而,现有的研究尚不清楚,支撑人类语言习得的这两种对立统计力量——固化和抢先,是否同样在 LLM 的语言生产力中发挥作用。

核心内容

本研究旨在测试固化和抢先这两种统计力量是否也能在 LLM 中促进和制约语言生产力。研究团队通过跨模型架构的实验,得出了以下关键发现:

1. 固化效应:模型具备结构生产力

研究证实,更大的模型能够识别并复现由nonce words(临时造词/无意义词)构成的结构生产力。这主要体现为**强制(Coercion)**现象。

  • 强制的定义:当更广泛的结构语境迫使一个词汇项目产生非典型解释时,即发生强制。
  • 实验逻辑:如果模型能够理解并生成在特定语法框架下对无意义词或新词的合理用法,说明它已经内化了该语法结构的规则(即固化)。
  • 结论:大模型确实受益于高频使用带来的固化效应,能够利用上下文语境对新颖或非常规词汇进行合理的语义解释和生成。

2. 抢先效应缺失:模型无法避免过度泛化

尽管大模型在正向证据(固化)上表现良好,但研究揭示了一个显著的局限性:即使是最先进的模型,也不会将负证据扩展到新的语言中。

  • 统计抢先的失效:在人类语言习得中,如果某个语义上通顺但数据中从未出现的结构被其他结构“抢先”占据,学习者会避免使用该结构。但在 LLM 中,统计抢先机制并未生效。
  • 过度泛化问题:由于缺乏对“未观察到结构”的敏感性,模型无法避免对某些模式的过度泛化。具体来说,当某些语言模式在语义上是合适的(semantically felicitous),但在训练数据中从未出现过时,模型仍然倾向于生成这些模式。
  • 核心矛盾:模型无法区分“未观察到”和“被禁止”。它仅仅因为语义上的合理性就生成了数据中不存在的结构,这表明它缺乏人类语言使用者那种基于负证据的抑制能力。

关键要点

  • 基于用法的共性:LLMs 和人类语言使用者一样,是基于用法的学习系统,依赖数据中的频率信号。
  • 固化(Entrenchment)有效:大模型能够利用高频语境中的结构规则,通过“强制”机制对无意义词或新词进行合理的语义解读和生成。
  • 抢先(Preemption)失效:大模型无法利用负证据(即“某事从未发生”)来约束其行为。
  • 过度泛化根源:由于缺乏统计抢先机制,模型会生成语义上合理但在训练数据中从未出现过的结构,导致过度泛化。
  • 规模不解决根本问题:即使模型规模更大,这种对负证据的忽视依然存在,说明这是当前架构或训练范式的一个固有缺陷,而非单纯的数据量不足。

意义与影响

这项研究对理解大语言模型的能力边界和局限性具有重要意义:

  1. 揭示模型认知的不对称性:LLMs 擅长从正向数据中学习规则(固化),但在利用负数据进行排除和约束方面存在先天不足。这解释了为什么模型有时会生成“听起来很对但实际不存在”的语言现象。
  2. 挑战“通用语言习得”假设:虽然 LLMs 在表面上表现出类似人类的语言能力,但在处理语言习得的核心机制(如负证据的使用)上,它们与人类存在本质差异。
  3. 指导未来模型改进:为了减少过度泛化并提高语言生成的准确性,未来的模型架构或训练策略可能需要引入显式的负证据学习机制,或增强模型对“未观察到结构”的敏感度,以模拟人类语言中的抢先效应。
  4. 评估基准的完善:在评估 LLM 的语言能力时,除了测试其生成流畅性和语法正确性外,还应关注其对罕见或潜在冲突结构的处理能力,以全面衡量其语言生产力的真实性。
查看原文 →arxiv.org