技术博客arXiv cs.CL·2 小时前

SPARCLE通过对比语言嵌入实现说话人感知对齐表示

原标题：SPARCLE: SPeaker-aware Aligned Representations via Contrastive Language Embeddings

速览

针对语音合成领域从音素表示转向直接字形建模的趋势，本文提出SPARCLE模型。该模型将字形丰富为精确的声学实现，并采用对比学习目标与Wav2Vec2声学表示对齐，同时包含说话人身份信息。作为G2P系统的替代方案，SPARCLE在下游文本到语音任务中表现出色。实验证明，在极端低资源设置下，其生成质量显著提升，词错误率较标准字形模型减半。该工作为低资源场景下的语音合成提供了更高效的说话人感知方法，推动了TTS技术的实际应用。

AI 深度解读

背景

语音合成技术近年来发生了显著转变，从传统的音素表示（phoneme representations）转向了直接的字形建模（grapheme modeling）。音素能够解决文本与声学之间的一对多映射问题，但它们依赖于字形到音素（grapheme-to-phoneme，G2P）系统，而这些系统无法捕捉说话人特有的声学变异。已有研究表明，在大规模数据上，基于字形的模型优于基于音素的系统，但在低资源设置（low-resource settings）中表现并不理想。

核心内容

论文提出了一种名为SPARCLE的新型说话人感知字形表示模型（speaker-aware grapheme representation model），该模型通过将字符精确的声学实现（precise acoustic realizations）融入其中来丰富字符表示。SPARCLE的训练采用对比学习目标（contrastive objective），旨在将字形与相应的Wav2Vec2声学表示对齐，同时将条件限定为说话人身份（conditioned on speaker identity）。该模型被设计为下游文本到语音（text-to-speech，TTS）任务中G2P系统的替代品。通过在极端低资源设置中进行评估，实验结果表明，SPARCLE在生成质量上显著提升，相比于标准的基于字形的模型，语音错误率（word error rates）降低了50%。

关键要点

SPARCLE是一种说话人感知的字形表示模型，通过在字符中融入其精确的声学实现来丰富表示。
模型采用对比学习目标训练，将字形与Wav2Vec2对应的声学表示对齐，同时以说话人身份作为条件。
SPARCLE作为G2P系统的替代品，用于下游TTS任务。
在极端低资源设置下，SPARCLE将语音错误率降低了50%，显著优于标准字形模型，提升了生成质量。
背景指出，字形模型在低资源场景下仍存在不足，而SPARCLE针对这一痛点进行了优化。

意义与影响

SPARCLE为低资源环境下的TTS系统提供了更有效的解决方案，能够更准确地捕捉说话人特有的声学变异，从而提升整体语音合成质量。这一改进尤其在数据稀缺的场景中具有实用价值，有望推动跨语言或低资源语言的语音合成技术发展，进一步扩大TTS应用的范围和适用性。

查看原文 →arxiv.org

SPARCLE通过对比语言嵌入实现说话人感知对齐表示

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐