技术博客arXiv cs.CL·3 小时前

学会倾听犹豫：持续学习提升ASR对不流畅语音的识别能力

原标题：Learning to Hear Hesitation: Continual Learning for Disfluency-Aware ASR

速览

针对现有ASR系统在处理不流畅语音时易产生信息丢失和幻觉的问题，研究提出结合显式犹豫标记的持续学习方法。通过在预训练模型中引入稳定标记机制，并在不同分布的数据集上继续训练，有效缓解了灾难性遗忘。该方法在标记学习与ASR性能之间找到了平衡，揭示了跨注意力头机制的一致性。

AI 深度解读

学习聆听犹豫：面向流利度感知的持续学习 ASR 方法

背景

尽管大规模自动语音识别（ASR）技术取得了显著进展，但处理不流利语音（disfluent speech）——即包含填充词（如“嗯”、“啊”）、重复、自我修正和犹豫的口语——仍然是该领域的一大挑战。

目前最先进的 ASR 系统通常经过优化，旨在省略这些不流利成分，以生成更整洁的文本。然而，这种“净化”策略导致了两个主要问题：

信息丢失：说话者的犹豫、不确定性和情感状态等副语言信息被抹去。
幻觉现象（Hallucinations）：模型在试图“修正”语音时，可能会错误地生成原文中不存在的词汇或句子结构。

prior work（先前工作）主要聚焦于逐字转录（verbatim transcription）或集成不流利标记（disfluency markers）。然而，在有限的数据集上直接微调（fine-tuning）模型，往往会导致模型对通用领域知识的灾难性遗忘（catastrophic forgetting），即模型虽然学会了识别不流利语音，却失去了在普通对话中保持高准确率的能力。

核心内容

本文提出了一种基于持续学习（Continual Learning, CL）的新框架，旨在解决上述困境。该方法通过引入显式的不流利标记，使模型能够在保留通用 ASR 能力的同时，学会“聆听”并识别说话者的犹豫。

1. 方法论：两阶段持续学习策略

作者设计了一个分阶段的训练流程，利用持续学习技术来平衡新技能（识别不流利）与旧知识（通用识别能力）：

第一阶段：建立稳定的标记机制 首先，将显式的不流利标记（disfluency tokens）引入到一个预训练的 ASR 模型中。这一阶段的目标不是立即优化整体性能，而是让模型建立一种稳定的机制来处理和输出这些特殊标记。这为后续的学习奠定了结构基础。
第二阶段：跨分布数据的持续训练 在建立标记机制后，模型继续在具有不同不流利分布（varying disfluency distributions）的额外数据集上进行训练。通过持续学习算法，模型逐步适应不同场景下的不流利语音模式，同时通过正则化或回放等技术防止对通用领域知识的遗忘。

2. 模型动态分析

通过对训练过程中模型动态的详细分析，研究团队发现了两个关键现象：

标记学习与 ASR 性能之间的权衡（Trade-off）模型在学习如何准确标记不流利成分（如插入 <filler> 或 <repeat> 标签）与保持整体 ASR 转录准确率之间存在明显的权衡关系。过度关注标记可能导致通用识别精度下降，而忽视标记则无法实现流利度感知。
跨方法的共同注意力机制 研究发现，尽管采用的持续学习方法各异，但模型内部存在一种一致的跨注意力头（cross-attention head）机制。这种机制在不同方法中共享，表明模型倾向于通过特定的注意力路径来协调不流利标记的生成与语音内容的识别。

关键要点

问题定义：现有 SOTA ASR 系统倾向于“清洗”语音，导致不流利语音中的关键副语言信息丢失及模型幻觉。
核心挑战：在有限数据上微调以支持不流利识别，极易引发灾难性遗忘，损害通用领域的识别性能。
解决方案：采用持续学习（Continual Learning）范式，结合显式不流利标记（disfluency tokens）。
实施路径：
1. 在预训练模型中引入标记，建立稳定的标记处理机制。
2. 在具有不同不流利分布的数据集上继续训练，实现技能迁移。
关键发现：
- 存在标记学习精度与通用 ASR 准确率之间的权衡。
- 跨注意力头机制在不同持续学习方法中表现出一致性，是处理不流利语音的关键组件。

意义与影响

这项研究为构建更人性化、更鲁棒的语音识别系统提供了新的思路。

提升交互真实性：通过保留不流利信息，ASR 系统能够更真实地反映人类口语的自然状态，有助于捕捉说话者的情感、不确定性和认知负荷，这对于心理咨询、教育评估和高端客服等场景具有重要意义。
解决灾难性遗忘：引入持续学习框架证明了在专用任务（如不流利识别）和通用任务（如标准转录）之间取得平衡的可行性，为垂直领域的模型适配提供了方法论参考。
减少幻觉：通过显式标记不流利成分而非强行“修正”，可以有效降低模型因过度自信而产生的幻觉现象，提高转录的可信度。

总之，该工作不仅改进了 ASR 对不流利语音的处理能力，还通过深入分析模型内部机制，揭示了多任务学习中的注意力动态，为后续相关研究提供了宝贵的洞察。

查看原文 →arxiv.org