技术博客arXiv cs.CL·3 小时前

LoRA微调VoxCPM2显著改善低资源语言TTS质量

原标题：Closing the Quality Gap in Low-Resource Text-to-Speech: LoRA Fine-Tuning of VoxCPM2 for Khmer and Korean

速览

针对低资源语言TTS质量差距问题，研究使用VoxCPM2模型进行LoRA微调。在仅训练0.19%至3.03%参数的情况下，高棉语MOS评分从3.85显著提升至4.23。该适配对韩语无增益，表明微调主要帮助基础模型薄弱的语言。

AI 深度解读

低资源文本转语音的质量差距弥合：VoxCPM2 的 LoRA 微调与高棉语、韩语实验

背景

尽管大型预训练文本转语音（Text-to-Speech, TTS）模型在资源丰富（Well-resourced）的语言上已经能够生成近乎人类水平的语音，但在其训练数据中罕见的低资源语言（Low-resource languages）上，表现往往大打折扣。这种“质量差距”限制了多语言语音合成技术的公平性与普及性。

为了探究并解决这一问题，研究团队选取了高棉语（Khmer）和韩语（Korean）作为研究对象。高棉语作为典型的低资源语言，其数据稀缺性显著；而韩语虽然拥有相对较多的数据，但在某些基础模型中仍可能存在优化空间，或者作为对照语言来验证微调策略的普适性。

本研究的核心模型是 VoxCPM2，这是一个拥有 24 亿参数（2.4B-parameter）的无分词器（tokenizer-free）TTS 模型。VoxCPM2 结合了 MiniCPM-4 语言模型骨干网络与流匹配扩散解码器（flow-matching diffusion decoder）。研究旨在通过低秩自适应（Low-Rank Adaptation, LoRA）技术，仅用少量数据和时间，评估该模型在低资源场景下的适应潜力。

核心内容

1. 实验设置与数据构建

研究构建了一个共享的、带有语言标签（language-tagged）的语料库，总时长约为 26 小时，涵盖了高棉语和韩语。研究团队采用了一种高效的微调策略：

单一适配器：使用一个单一的 LoRA 适配器（adapter），同时在两种语言上进行训练。
联合训练：该适配器被添加到语言模型和扩散解码器中，实现端到端的适配。
零初始化：适配器采用零初始化（zero-initialized），这意味着训练过程从原始模型的零样本（zero-shot）状态开始，确保了基线的一致性。
参数效率：仅训练模型总参数的 0.19% 到 3.03%，极大地降低了计算成本和过拟合风险。

2. 高棉语（Khmer）的显著改善

在高棉语这一低资源语言上，LoRA 微调带来了统计学上显著的质量提升：

主观评分提升：在母语者听力测试中，最佳适配器（秩 rank 为 64）将高棉语的平均意见得分（Mean Opinion Score, MOS）从 3.85 提升至 4.23。
统计显著性：配对 Wilcoxon 检验显示，这一提升具有高度显著性（p < 0.001）。
最佳秩的选择：虽然验证损失（validation loss）在秩 128 时最低，但人类主观评分（MOS）在秩 64 时达到峰值。这表明自动评估指标与人类感知之间可能存在偏差，或者较低的秩在泛化能力和主观听感之间取得了更好的平衡。

3. 韩语（Korean）的无增益甚至退化

与高棉语形成鲜明对比的是，韩语的表现并未因微调而改善：

基线表现良好：基础模型（Base Model）本身已经能较好地处理韩语，因此微调带来的边际收益极低。
潜在退化：在高秩（high rank）设置下，微调甚至导致韩语语音质量下降。
结论指向：这表明适配（Adaptation）主要帮助那些基础模型真正薄弱的领域。如果基线模型已经具备较强的语言能力，强行微调可能引入噪声或导致过拟合。

关键要点

VoxCPM2 架构优势：VoxCPM2 作为一个 24 亿参数的无分词器 TTS 模型，结合了 MiniCPM-4 骨干和流匹配扩散解码器，为多语言语音合成提供了强大的基础。
LoRA 的高效性：仅通过微调 0.19% - 3.03% 的参数，即可显著提升低资源语言（如高棉语）的语音质量，证明了参数高效微调（PEFT）在 TTS 领域的巨大潜力。
自动指标与人类感知的分歧：验证损失最低的模型（秩 128）并非人类听感最佳的模型（秩 64）。这提醒研究者，在评估 TTS 质量时，不能完全依赖自动损失函数，必须结合主观听力测试。
语言依赖性的微调策略：微调的效果高度依赖于基础模型在该语言上的初始能力。对于基础模型表现良好的语言（如韩语），微调可能无效甚至有害；而对于基础模型表现较差的语言（如高棉语），微调能带来质的飞跃。
共享适配器的可行性：使用一个共享的、带有语言标签的适配器和语料库同时训练多种语言是可行的，但这要求模型具备足够的容量和泛化能力，以避免不同语言间的干扰。

意义与影响

这项研究为低资源语言的语音合成技术提供了重要的实践指导。它证明了利用大型预训练模型（如 VoxCPM2）结合参数高效微调技术（如 LoRA），可以以极低的成本弥合不同语言间的语音质量差距。

对于技术开发者而言，这意味着无需为每种低资源语言重新训练庞大的模型，只需收集少量数据并进行轻量级微调即可实现高质量的语音合成。这对于保护语言多样性、开发多语言 AI 助手以及服务边缘化语言群体具有深远的社会意义。

此外，研究揭示的“自动指标与人类感知不一致”的现象，呼吁社区在 TTS 评估标准上更加谨慎，强调主观评估在模型迭代中的核心地位。未来，如何设计更鲁棒的自动评估指标，以及如何优化多语言共享适配器的结构，将是值得进一步探索的方向。

查看原文 →arxiv.org