技术博客arXiv cs.CL·2 小时前

语音大模型融合ASR的新思路：交错训练提升识别准确率

原标题：Rethinking Speech-LLM Integration for ASR: Effective Joint Speech-Text Training by Interleaving

速览

Speech-LLM集成在ASR中面临LLM先验利用不足的问题。JSTIP是一种面向ASR的交错预训练方法，使用对齐语音文本序列进行词级与段级交错训练。在38k小时ASR数据上，实验显示实体识别准确率显著提升。JSTIP在领域转录文本上已能达到合成语音文本的水平，简化了领域适应过程。它还受益于文本预训练和领域数据，性能接近开源ASR与Speech-LLM系统。零样本语音问答实验表明，交错训练缩小了语音与文本模态差距，保留了LLM生成先验，这正是ASR实体识别改进的关键原因。

AI 深度解读

## 背景

当前，Speech-LLM（语音-大语言模型）集成技术在自动语音识别（ASR）任务中展现出显著潜力，这主要得益于利用大规模文本预训练数据来增强模型的语言理解能力。然而，研究者观察到，随着监督式ASR训练数据的增加，LLM先验（LLM priors）对ASR性能的贡献逐渐减弱。传统的简单语音-文本联合训练方法未能充分挖掘文本知识的潜力，导致在实体识别等任务上，模型的准确性提升有限。

为此，作者提出了一种全新的ASR导向预训练策略——Joint Speech-Text Interleaved Pretraining (JSTIP)。该策略的核心是构建词级和段级的交错语音-文本序列，并将其嵌入对齐的语音-文本对中，专为接受连续输入的Speech-LLM架构设计。实验在38,000小时的ASR数据上验证了其有效性，展示了其在简化领域适应、保持LLM生成先验以及缩小语音-文本模态差距方面的优势。

## 核心内容

Speech-LLM集成通过结合LLM的文本预训练知识，已在ASR领域取得初步成功，但其具体对ASR的实际益处仍需深入探究。作者指出，随着监督ASR数据的逐步增加，LLM先验的贡献变得不明显，简单的语音-文本联合训练进一步导致文本知识的未充分利用。

针对这一问题，作者提出Joint Speech-Text Interleaved Pretraining (JSTIP)，一种专为ASR设计的预训练策略。它构造了词级和段级的交错语音-文本序列，这些序列嵌入在对齐的语音-文本对中，适用于接受连续输入的Speech-LLM架构。

在实验验证中，作者使用38k小时的ASR数据进行测试，对比了ASR-only训练、简单的语音-文本联合训练以及JSTIP三种方法。结果显示，JSTIP在实体准确率（entity accuracy）上取得了一致的提升。

进一步分析发现，JSTIP在利用领域转录文本（domain transcription text）时，能达到与使用合成语音-文本对相当的实体识别性能，从而简化了领域适应过程。受益于文本预训练和领域文本数据的优势，JSTIP在医学实体识别任务上与开源ASR系统以及Speech-LLM系统表现出竞争力。

此外，JSTIP的零样本语音问答（zero-shot speech question answering）行为进一步表明，交错训练有效缩小了语音-文本模态差距，同时保留了LLM的生成先验，这可能是ASR实体识别提升的主要原因。

## 关键要点

JSTIP的提出背景：随着ASR监督数据增加，LLM先验贡献减弱，简单联合训练未充分利用文本知识。
JSTIP的核心机制：构造词级和段级交错语音-文本序列，嵌入对齐语音-文本对，专为连续输入的Speech-LLM设计。
实验证据：在38k小时ASR数据上，JSTIP的实体准确率显著优于ASR-only和简单联合训练基线。
领域适应简化：JSTIP利用领域转录文本即可达到与合成语音-文本对同等的实体识别性能。
医学实体识别表现：JSTIP与开源ASR和Speech-LLM系统在医学领域达到竞争力。
零样本能力提升：JSTIP通过交错训练缩小模态差距并保留LLM生成先验，是ASR实体识别提升的关键。

## 意义与影响

JSTIP为Speech-LLM在ASR任务中的实际应用提供了更高效的预训练路径，有效平衡了LLM的文本先验与语音数据的适应需求，简化了领域特定模型的部署过程。其在实体识别任务上的稳定提升和零样本问答能力的保留，为未来基于LLM的端到端ASR系统设计开辟了新思路，尤其在资源有限或领域敏感场景中具有重要价值。

查看原文 →arxiv.org

语音大模型融合ASR的新思路：交错训练提升识别准确率

速览

AI 深度解读

相关推荐