← 返回信息流
技术博客美团技术团队·2 小时前

美团开源LongCat-AudioDiT:突破零样本TTS音色克隆上限

原标题:突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

速览

美团LongCat团队开源LongCat-AudioDiT模型,彻底抛弃梅尔谱等中间表征,直接在波形潜空间进行扩散模型TTS生成,从根源阻断级联误差。该模型通过修复训练-推理不匹配问题及引入自适应投影引导(APG),在Seed基准测试中取得当前最优的零样本语音克隆性能。此举验证了波形空间直接生成范式的有效性,大幅提升了语音生成的自然度与说话人相似度。

AI 深度解读

背景

音频生成技术正经历从传统级联架构向端到端生成范式的重大迁移。长期以来,主流 Text-to-Speech (TTS) 系统采用“曲线救国”的多阶段流程:先合成梅尔频谱图等中间声学特征,再依赖独立的神经声码器将其“翻译”回波形。这种“预测+翻译”的范式本质上是在不同空间间传递信息,不可避免地导致信息损失与误差累积,最终使得合成语音丢失了高保真、个性化的音色细节——而这恰恰是零样本语音克隆任务中最需要保留的核心要素。

为破解这一技术瓶颈,美团 LongCat 团队发布了 LongCat-AudioDiT 模型。该模型彻底摒弃了梅尔谱等中间表示,直接在波形潜空间(Waveform Latent Space)基于扩散模型进行端到端的文本转语音生成,从根源上阻断了数据转换带来的级联误差。

核心内容

LongCat-AudioDiT 的核心创新在于构建了一个纯粹的波形潜在空间直接生成架构,并结合了两项关键的推理机制改进,从而在零样本语音克隆性能上取得了当前最优(SOTA)的结果。

1. 波形潜在空间直接生成架构

该架构仅使用一个波形变分自编码器(Wav-VAE)和一个扩散 Transformer(DiT),在波形隐空间内完成声音的压缩、建模与重建。

  • Wav-VAE:为波形量身定制的压缩器

    • 高效下采样与多尺度建模:编码器通过多级 Oobleck 块实现层级下采样,每个块内堆叠带空洞卷积的残差单元,捕获从局部到全局的时序依赖。它将 24kHz 的波形压缩至约 11.7Hz 的帧率,压缩比超过 2000 倍。
    • 非参数捷径稳定训练:在每个编码器/解码器块中引入非参数的“空间到通道”或“通道到空间”捷径分支,为梯度提供直接的线性通路,大幅提升了激进下采样时的收敛稳定性。
    • 对抗式多目标训练:优化目标融合了多分辨率 STFT 损失、多尺度梅尔损失、时域 L1 损失、KL 散度正则,以及多尺度 STFT 判别器的对抗损失和特征匹配损失,确保重建波形既保持精确的时频结构,又具备自然听感。
  • 扩散 Transformer (DiT):在隐空间中学习映射

    • 文本编码优化:选用支持 107 种语言的 UMT5 作为文本编码器。研究发现仅使用最后一层隐藏状态会导致可懂度下降,因此创新性地将原始词嵌入(第一层)与最后一层隐藏状态相加,经 LayerNorm 平衡后送入后续模块。此外,引入轻量级的 ConvNeXt V2 序列模块细化文本表征,加速文本-语音对齐。
    • 结构优化
      • 全局自适应层归一化 (Global AdaLN):注入时间步信息,并通过全局共享的 AdaLN 块减少参数量。
      • QK-Norm + RoPE:稳定注意力训练,利用旋转位置编码捕捉相对位置关系。
      • 长跳跃连接:将输入直接加到输出,带来一致的质量提升。
      • 表征对齐 (REPA):借助 mHuBERT 的自监督特征引导 DiT 中间层,虽不提升最终质量,但显著加速收敛。

2. 推理机制的双重关键突破

  • 修复流匹配 TTS 的「训练-推理」不匹配问题 在标准条件流匹配 (CFM) 训练中,模型仅在掩码区域计算损失,音频提示区域(Prompt)不参与优化;但在推理阶段,提示区域会自由演化,导致分布轨迹偏离训练条件,造成音色漂移。为此提出双重约束机制:

    • 提示区域隐变量强制重置:在每一步推理迭代中,将提示区域的隐变量严格重置为其理论真值(Ground Truth),确保演化轨迹与训练分布对齐。
    • 无条件预测净化:计算无条件速度场时,移除提示区域的隐变量输入,避免信息泄漏,计算出完全正确的无条件速度。
  • 自适应投影引导 (APG):缓解 CFG「过饱和」问题 传统的无分类器引导 (CFG) 通过放大条件与无条件预测的差异来提升质量,但引导过强易导致频谱“过饱和”,音质劣化。APG 将引导信号分解为平行与正交两个分量:保留正交分量(有益部分),抑制平行分量(劣化部分)。这种“精准筛选”机制在提升自然度的同时避免了音质损失。

3. 核心洞察:VAE 重建质量与 TTS 生成的权衡

实验发现,VAE 重建质量越好并不等同于 TTS 生成效果越好。单纯追求高重建分数会导致潜空间维度膨胀,增加下游扩散模型的学习难度。经过系统性对比,团队确定了最优配置:64 维潜在维度 + 11.7Hz 帧率。这一配置在重建保真度与生成质量之间取得了最佳平衡。

4. 性能表现

在 Seed 基准测试中,LongCat-AudioDiT 展现了卓越的零样本语音克隆性能:

  • 说话人相似度 (SIM)
    • Seed-ZH (中文):LongCat-AudioDiT-3.5B 达到 0.818,超越此前 SOTA 的 Seed-DiT (0.809)。
    • Seed-Hard (中文难句):LongCat-AudioDiT-3.5B 达到 0.797,同样为 SOTA。
  • 文本准确率 (WER/CER)
    • 中文 CER:1B 模型为 1.18%,3.5B 模型为 1.09%。
    • 英文 WER:1B 模型为 1.78%,3.5B 模型为 1.50%(参评模型中第二低)。
    • 中文难句 CER:3.5B 模型为 6.04%,显著低于基于扩散模型的 F5 TTS (8.67%)。

值得注意的是,LongCat-AudioDiT 仅通过 ASR 转写的预训练数据和单阶段预训练,便取得了优于 Seed-TTS、CosyVoice3.5、MiniMax-Speech 等多阶段训练模型的表现。

关键要点

  • 端到端范式革新:LongCat-AudioDiT 彻底抛弃梅尔谱等中间表征,直接在波形潜空间进行扩散模型生成,从根源阻断级联误差。
  • Wav-VAE 高效压缩:采用多级 Oobleck 块和非参数捷径,实现 24kHz 到 11.7Hz 的高效压缩(压缩比 >2000),并通过对抗式多目标训练保证重建质量。
  • DiT 文本编码创新:结合 UMT5 的低层词嵌入与高层语义特征,并引入 ConvNeXt V2 细化表征,显著提升语音可懂度。
  • 解决训练-推理不匹配:通过提示区域隐变量强制重置和无条件预测净化,解决了流匹配 TTS 中因提示区域自由演化导致的音色漂移问题。
  • APG 替代 CFG:提出自适应投影引导 (APG),通过分解引导信号的正交与平行分量,解决传统 CFG 导致的频谱过饱和和音质劣化问题。
  • 潜空间维度权衡:发现 VAE 重建质量并非越高越好,确定 64 维潜在维度 + 11.7Hz 帧率为生成质量与重建保真度的最佳平衡点。
  • SOTA 性能与开源:在 Seed 基准上取得说话人相似度 SOTA,同时保持高可懂度。模型(1B/3.5B)已完全开源。

意义与影响

LongCat-AudioDiT 的发布证明了“波形隐空间直通”的扩散 TTS 路线不仅可行,更能达到业界最佳水平。其意义主要体现在

查看原文 →tech.meituan.com