← 返回信息流
技术博客arXiv cs.CL·3 小时前

文本与语音模型均对动词短语存在整体存储

原标题:The Holistic Storage of Verb+Up Phrases in Text-based and Audio-based Language Models

速览

该研究探讨了语言模型在存储表示与抽象知识之间的权衡,重点关注多词单位的整体存储。通过分析文本大语言模型和语音识别模型,发现动词短语(V+up)会根据频率和可预测性发展出独特的表示。这一发现为基于使用的语言理论提供了有力支持。

AI 深度解读

文本与音频语言模型中“动词+Up”短语的整体存储机制解读

背景

语言能力的核心挑战之一在于如何在“存储的表征”与“抽象知识”之间进行权衡。人类语言使用者既需要检索已习得的固定表达,也需要通过应用能产性规则(productive rules)来生成全新的语言结构。

近年来,尽管学术界对语言模型中抽象知识(abstract knowledge)的研究日益增多,但对于多词单位(multi-word units, MWUs)的**整体存储(holistic storage)**机制关注甚少。现有的大语言模型(LLMs)和自动语音识别(ASR)模型是否像人类一样,将高频出现的短语作为整体单元进行存储,而非仅仅将其拆解为独立的单词进行组合,仍是一个未被充分探索的问题。

此外,基于使用(usage-based)的语言学理论认为,语言知识是通过语言输入的频率和可预测性构建的。然而,这一理论在当前的文本生成模型和音频处理模型中是否依然成立,缺乏直接的实证支持。

核心内容

本研究深入探究了文本语言模型(Text-based LLMs)和自动语音识别模型(ASR model)的内部表征机制,重点考察了“动词+Up”(Verb+Up)短语动词(phrasal verbs)的存储方式。研究团队通过实验测试了这些模型是否会根据短语的**频率(frequency)可预测性(predictability)**发展出distinct(独特/独立)的整体表征。

1. 研究对象:Verb+Up 短语动词

研究选取了英语中常见的“动词+Up”结构(如 give up, look up, turn up)作为测试对象。这类短语动词具有高度的多词性,其整体意义往往不能简单通过组成部分推导,是检验“整体存储”与“组合生成”机制的理想样本。

2. 实验方法

研究并未仅停留在表面输出,而是通过探针(probing)技术深入模型内部,分析其隐藏层表示(internal representations)。研究变量主要聚焦于两个语言学维度:

  • 频率:该短语在训练数据中出现的次数。
  • 可预测性:根据上下文语境预测该短语出现的难易程度。

3. 主要发现

实验结果显示,无论是基于文本的大语言模型,还是基于音频的 ASR 模型,均表现出由频率和可预测性驱动的整体存储证据。具体而言:

  • 高频且高可预测性的短语在模型内部形成了更紧密、更独立的表征簇。
  • 模型在处理这些短语时,表现出类似于“整体检索”而非“逐词组合”的特征。
  • 这一现象在文本模型和音频模型中均存在,表明这种存储机制可能具有跨模态的普遍性。

关键要点

  • 整体存储的存在性:LLMs 和 ASR 模型并非完全依赖抽象规则生成语言,而是确实存在对多词单位(如短语动词)的整体存储机制。
  • 驱动因素:这种整体存储主要受频率可预测性两个因素驱动。高频出现的短语更容易被模型作为整体单元记忆和检索。
  • 跨模态一致性:不仅在文本生成的 LLM 中观察到这一现象,在音频处理的 ASR 模型中也发现了类似的证据,暗示这可能是一种通用的语言处理优化策略。
  • 支持基于使用的理论:研究结果有力地支持了语言学中的“基于使用理论”(usage-based theories),即语言结构的学习和存储与输入数据的统计特性(如频率)密切相关。
  • 填补研究空白:此前研究多关注抽象语法知识,本研究将焦点转向了多词单位的整体存储,弥补了现有文献在这一细分领域的不足。

意义与影响

1. 对语言模型架构的启示

这一发现表明,当前的语言模型在某种程度上模拟了人类语言习得的统计学习机制。理解模型如何存储多词单位,有助于优化模型的训练策略,例如通过调整数据采样频率或引入特定的正则化手段,来增强模型对固定搭配和习语的处理能力,从而减少“幻觉”或生成不自然的语言组合。

2. 连接计算语言学与心理语言学

本研究在计算模型与认知科学之间架起了桥梁。既然 AI 模型表现出与人类类似的“频率驱动的整体存储”,这为验证人类语言处理模型提供了新的计算基准。研究人员可以利用这些模型作为代理(proxy),进一步探索人类大脑如何处理高频短语,从而深化对语言认知机制的理解。

3. 提升多模态语言理解

由于 ASR 模型也表现出相同的整体存储特征,这意味着音频到文本的转换过程并非简单的声学映射,而是涉及深层的语言结构整合。这对于改进语音识别系统的鲁棒性,特别是在处理口语中大量存在的短语动词和习语时,具有重要的工程指导意义。

4. 理论验证

该研究为“基于使用的语言理论”提供了来自人工智能领域的独立实证支持。它证明,即使在没有显式语法规则灌输的情况下,仅通过统计学习,模型也会自发地发展出对高频多词单位的整体表征,这与人类语言习得的观察结果高度一致。

查看原文 →arxiv.org