技术博客arXiv cs.CL·3 小时前

文本与语音模型均对动词短语存在整体存储

原标题：The Holistic Storage of Verb+Up Phrases in Text-based and Audio-based Language Models

速览

该研究探讨了语言模型在存储表示与抽象知识之间的权衡，重点关注多词单位的整体存储。通过分析文本大语言模型和语音识别模型，发现动词短语（V+up）会根据频率和可预测性发展出独特的表示。这一发现为基于使用的语言理论提供了有力支持。

AI 深度解读

文本与音频语言模型中“动词+Up”短语的整体存储机制解读

背景

语言能力的核心挑战之一在于如何在“存储的表征”与“抽象知识”之间进行权衡。人类语言使用者既需要检索已习得的固定表达，也需要通过应用能产性规则（productive rules）来生成全新的语言结构。

近年来，尽管学术界对语言模型中抽象知识（abstract knowledge）的研究日益增多，但对于多词单位（multi-word units, MWUs）的**整体存储（holistic storage）**机制关注甚少。现有的大语言模型（LLMs）和自动语音识别（ASR）模型是否像人类一样，将高频出现的短语作为整体单元进行存储，而非仅仅将其拆解为独立的单词进行组合，仍是一个未被充分探索的问题。

此外，基于使用（usage-based）的语言学理论认为，语言知识是通过语言输入的频率和可预测性构建的。然而，这一理论在当前的文本生成模型和音频处理模型中是否依然成立，缺乏直接的实证支持。

核心内容

本研究深入探究了文本语言模型（Text-based LLMs）和自动语音识别模型（ASR model）的内部表征机制，重点考察了“动词+Up”（Verb+Up）短语动词（phrasal verbs）的存储方式。研究团队通过实验测试了这些模型是否会根据短语的**频率（frequency）和可预测性（predictability）**发展出distinct（独特/独立）的整体表征。

1. 研究对象：Verb+Up 短语动词

研究选取了英语中常见的“动词+Up”结构（如 give up, look up, turn up）作为测试对象。这类短语动词具有高度的多词性，其整体意义往往不能简单通过组成部分推导，是检验“整体存储”与“组合生成”机制的理想样本。

2. 实验方法

研究并未仅停留在表面输出，而是通过探针（probing）技术深入模型内部，分析其隐藏层表示（internal representations）。研究变量主要聚焦于两个语言学维度：

频率：该短语在训练数据中出现的次数。
可预测性：根据上下文语境预测该短语出现的难易程度。

3. 主要发现

实验结果显示，无论是基于文本的大语言模型，还是基于音频的 ASR 模型，均表现出由频率和可预测性驱动的整体存储证据。具体而言：

高频且高可预测性的短语在模型内部形成了更紧密、更独立的表征簇。
模型在处理这些短语时，表现出类似于“整体检索”而非“逐词组合”的特征。
这一现象在文本模型和音频模型中均存在，表明这种存储机制可能具有跨模态的普遍性。

关键要点

整体存储的存在性：LLMs 和 ASR 模型并非完全依赖抽象规则生成语言，而是确实存在对多词单位（如短语动词）的整体存储机制。
驱动因素：这种整体存储主要受频率和可预测性两个因素驱动。高频出现的短语更容易被模型作为整体单元记忆和检索。
跨模态一致性：不仅在文本生成的 LLM 中观察到这一现象，在音频处理的 ASR 模型中也发现了类似的证据，暗示这可能是一种通用的语言处理优化策略。
支持基于使用的理论：研究结果有力地支持了语言学中的“基于使用理论”（usage-based theories），即语言结构的学习和存储与输入数据的统计特性（如频率）密切相关。
填补研究空白：此前研究多关注抽象语法知识，本研究将焦点转向了多词单位的整体存储，弥补了现有文献在这一细分领域的不足。

意义与影响

1. 对语言模型架构的启示

这一发现表明，当前的语言模型在某种程度上模拟了人类语言习得的统计学习机制。理解模型如何存储多词单位，有助于优化模型的训练策略，例如通过调整数据采样频率或引入特定的正则化手段，来增强模型对固定搭配和习语的处理能力，从而减少“幻觉”或生成不自然的语言组合。

2. 连接计算语言学与心理语言学

本研究在计算模型与认知科学之间架起了桥梁。既然 AI 模型表现出与人类类似的“频率驱动的整体存储”，这为验证人类语言处理模型提供了新的计算基准。研究人员可以利用这些模型作为代理（proxy），进一步探索人类大脑如何处理高频短语，从而深化对语言认知机制的理解。

3. 提升多模态语言理解

由于 ASR 模型也表现出相同的整体存储特征，这意味着音频到文本的转换过程并非简单的声学映射，而是涉及深层的语言结构整合。这对于改进语音识别系统的鲁棒性，特别是在处理口语中大量存在的短语动词和习语时，具有重要的工程指导意义。

4. 理论验证

该研究为“基于使用的语言理论”提供了来自人工智能领域的独立实证支持。它证明，即使在没有显式语法规则灌输的情况下，仅通过统计学习，模型也会自发地发展出对高频多词单位的整体表征，这与人类语言习得的观察结果高度一致。

查看原文 →arxiv.org