技术博客arXiv cs.CL·2 小时前

Mamba在南非语言语音识别评估：从单语到多语性能提升

原标题：From Monolingual to Multilingual: Evaluating Mamba for ASR in South African Languages

速览

这篇博客基于arXiv新论文，评估了Mamba状态空间模型在南非七种语言ASR任务中的效果。作者进行了单语和多语言实验，比较了Mamba与同参数规模的Conformer基线。结果显示Mamba在识别准确率相当的前提下，训练速度更快、计算资源更低。研究还探讨了多语言训练的优势，以及语言家族嵌入和LID多任务学习在提高跨语料鲁棒性方面的作用，为低资源语言的语音识别提供了新思路。

AI 深度解读

背景

自动语音识别（ASR）领域近年来发展迅速，研究人员探索了多种序列建模架构，包括基于Conformer的模型以及新兴的状态空间模型（如Mamba）。尽管已有研究在多语言设置下评估了这些架构的有效性，但在非洲语言上的表现仍缺乏深入探索。本文针对南非的七种语言评估了Mamba在ASR任务中的应用，旨在填补这一空白。

核心内容

单语言训练与Mamba-比Conformer的比较

在单语言实验中，每个模型分别使用每种语言50小时的语音数据进行训练。研究者将Mamba模型与参数规模相似的Conformer基线模型进行了对比。结果表明，Mamba在识别准确率上与Conformer相当，但显著减少了计算资源消耗，并在训练速度上更快。研究者进一步评估了模型的泛化能力，发现两种模型在处理训练数据之外的、更长的语音时均表现不佳，难以实现有效泛化。

多语言训练与Mamba的扩展实验

接下来，研究转向多语言ASR设置，基线模型通过简单地将所有语言的语音数据池化训练。研究者在这一基础上设计了三种扩展方案：

语言家族信息注入：通过为下采样后的声学表示添加语言和语言家族嵌入作为偏差；
多任务学习：结合CTC ASR目标和语言识别（LID）头部。

实验结果显示，多语言训练始终优于单语言训练，显著提升了整体性能。然而，添加显式语言信息并未在域内表现上带来改进，但能提升跨语料库的鲁棒性。在低资源多语言设置中，使用每种语言仅5小时或10小时的训练数据进行消融研究，发现语言嵌入能够带来性能提升，而移除或修改这些嵌入会直接损害模型性能。研究者最后对这些嵌入进行了分析，发现它们并非基于语言类型学的相似性建模，而是作为任务特定的控制向量。

关键要点

Mamba在单语言ASR上的优势：在每种南非语言上，Mamba与参数相似的Conformer基线在识别准确率上相当，但训练速度更快且计算资源消耗更少。
泛化能力局限：无论是Mamba还是Conformer，都难以泛化到训练数据以外、更长的语音样本。
多语言训练的持续优势：将所有语言数据池化训练始终优于单语言训练，显著提升ASR性能。
语言家族嵌入的作用：添加语言和语言家族嵌入提升了跨语料库鲁棒性，但对域内性能无显著改进；消融实验确认，嵌入的存在是低资源设置中性能提升的关键因素。
嵌入的分析发现：语言嵌入并非捕捉语言的类型学相似性，而是作为任务特定的控制向量发挥作用。
多任务学习的辅助作用：结合CTC ASR和LID头部，进一步支持了多语言训练的有效性。

意义与影响

本研究为ASR领域在低资源、数据稀缺的非洲语言上的应用提供了宝贵参考，尤其针对南非语种，它们的多样性和资源限制使其在全球语音技术中面临独特挑战。Mamba模型的快速训练和高效性使其在资源受限环境中更具可行性，而多语言训练的成功为后续开发覆盖更多非洲语言的统一系统奠定了基础。语言家族嵌入的发现——其作为控制向量的功能——揭示了新型序列模型在跨语言泛化中的潜在优化空间，间接提示未来研究可能需更深入挖掘语言结构信息以提升鲁棒性。尽管模型在长语音泛化上仍存局限，但该工作为推进非洲语言的语音技术普及、支持多语言AI应用提供了切实可行的技术路径，推动全球语音识别向更具包容性的方向发展。

查看原文 →arxiv.org