技术博客arXiv cs.CL·14 小时前

结合自监督表示与动态规划的多语言词级强制对齐方法

原标题：Multilingual Word-Level Forced Alignment with Self-Supervised Representations and Learned Dynamic Programming

速览

该研究提出一种基于自监督表示和动态规划的多语言词级强制对齐方法。模型通过融合Massively Multilingual Speech (MMS) 模型与自监督音素边界检测器 (UnSupSeg) 的特征，精准估计词边界概率。实验显示，该方法在TIMIT和Buckeye数据集上优于MFA，且在荷兰语、德语等未见语言上表现稳定，具备扩展至1100多种语言的潜力。

AI 深度解读

多语言词级强制对齐：结合自监督表示与学习动态规划

背景

在语音处理领域，强制对齐（Forced Alignment）是一项基础且关键的任务，旨在将语音信号中的音素或单词边界与对应的文本转录精确匹配。传统的强制对齐工具（如 Montreal Forced Aligner, MFA）通常依赖于预定义的声学模型和发音词典，这限制了它们在低资源语言或未见语言上的泛化能力。

随着大规模多语言语音模型（如 Meta 的 Massively Multilingual Speech, MMS）和自监督学习技术的发展，利用深层语义和音素边界信息来提升对齐精度成为可能。然而，如何有效地融合来自不同来源的特征，并解决长时序上下文中的边界预测问题，仍然是当前的研究难点。

核心内容

本文提出了一种用于高精度多语言词级强制对齐的新方法。该方法由两个核心组件构成：对齐编码器（Alignment Encoder）和学习动态规划解码器（Learned Alignment Decoder）。

1. 双源特征融合的对齐编码器

编码器旨在整合两种互补的表示形式：

MMS 模型表示：来自大规模多语言语音模型 MMS 的特征，提供了丰富的跨语言语音上下文信息。
UnSupSeg 表示：来自自监督音素边界检测器 UnSupSeg 的特征，专门用于捕捉细粒度的音素边界信息。

编码器通过自监督学习机制，学习如何融合上述两种表示，并在长时序上下文（long temporal contexts）中估计单词边界的概率分布。这种设计使得模型能够同时利用宏观的语义上下文和微观的音素边界线索。

2. 学习动态规划解码器

传统的动态规划（Dynamic Programming, DP）通常基于固定的代价函数，而本文提出的解码器是一个**学习动态规划（Learned DP）**模块。

它结合了编码器的输出与基于 MMS 和 UnSupSeg 表示的片段特征（segmental features）。
通过端到端的训练，该模块能够推断出最终的单词边界，从而克服了传统 DP 方法在复杂语境下灵活性不足的问题。

3. 训练与评估

训练数据：该方法在 TIMIT 和 Buckeye 数据集上进行迭代训练。
性能对比：在 TIMIT 和 Buckeye 数据集上，该方法的表现均优于传统的 Montreal Forced Aligner (MFA) 以及基于 MMS 的对齐方法。
跨语言泛化能力：在未见过的语言（荷兰语、德语和希伯来语）上，该模型的性能持续优于或至少持平于现有的对齐方法。

关键要点

架构创新：提出了“编码器+学习动态规划解码器”的两阶段架构，分别负责特征融合与边界决策。
特征互补：有效融合了 MMS 的宏观多语言表征与 UnSupSeg 的微观音素边界表征，解决了单一特征源信息不足的问题。
长上下文建模：编码器能够处理长时序上下文，提高了在复杂语流中识别单词边界的准确性。
零样本/少样本泛化：在未见语言（Dutch, German, Hebrew）上的优异表现证明了模型强大的泛化能力。
可扩展性潜力：由于 MMS 模型支持超过 1100 种语言，且该对齐方法无需针对每种新语言进行额外训练，因此具备向这 1100+ 种语言扩展的巨大潜力。

意义与影响

这项研究在多语言语音处理领域具有重要的理论和应用价值：

突破低资源语言瓶颈：传统强制对齐工具严重依赖特定语言的标注数据和发音词典，而本文方法通过自监督表示实现了跨语言迁移，为低资源甚至无资源语言的对齐提供了可行的解决方案。
提升自动化语音处理流水线效率：高精度的词级对齐是语音识别、说话人验证、情感分析等下游任务的基础。更准确的对齐可以直接提升这些任务的性能，特别是在多语言场景下。
推动大规模多语言模型落地：MMS 模型虽然强大，但缺乏精细的对齐信息限制了其在某些应用中的使用。本文方法填补了这一空白，使得 MMS 模型能够直接服务于需要精确时间戳的应用场景。
方法论启示：将学习动态规划引入语音对齐任务，展示了深度学习与传统算法结合的有效性，为其他序列标注任务提供了新的思路。

综上所述，该方法不仅在现有基准上取得了SOTA（State-of-the-Art）性能，更因其无需额外训练即可扩展至千余种语言的特性，为构建全球通用的语音基础设施奠定了重要基础。

查看原文 →arxiv.org