技术博客美团技术团队·2 小时前

美团开源LongCat-AudioDiT：突破零样本TTS音色克隆上限

原标题：突破零样本 TTS 音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

速览

美团LongCat团队开源LongCat-AudioDiT模型，彻底抛弃梅尔谱等中间表征，直接在波形潜空间进行扩散模型TTS生成，从根源阻断级联误差。该模型通过修复训练-推理不匹配问题及引入自适应投影引导（APG），在Seed基准测试中取得当前最优的零样本语音克隆性能。此举验证了波形空间直接生成范式的有效性，大幅提升了语音生成的自然度与说话人相似度。

AI 深度解读

背景

音频生成技术正经历从传统级联架构向端到端生成范式的重大迁移。长期以来，主流 Text-to-Speech (TTS) 系统采用“曲线救国”的多阶段流程：先合成梅尔频谱图等中间声学特征，再依赖独立的神经声码器将其“翻译”回波形。这种“预测+翻译”的范式本质上是在不同空间间传递信息，不可避免地导致信息损失与误差累积，最终使得合成语音丢失了高保真、个性化的音色细节——而这恰恰是零样本语音克隆任务中最需要保留的核心要素。

为破解这一技术瓶颈，美团 LongCat 团队发布了 LongCat-AudioDiT 模型。该模型彻底摒弃了梅尔谱等中间表示，直接在波形潜空间（Waveform Latent Space）基于扩散模型进行端到端的文本转语音生成，从根源上阻断了数据转换带来的级联误差。

核心内容

LongCat-AudioDiT 的核心创新在于构建了一个纯粹的波形潜在空间直接生成架构，并结合了两项关键的推理机制改进，从而在零样本语音克隆性能上取得了当前最优（SOTA）的结果。

1. 波形潜在空间直接生成架构

该架构仅使用一个波形变分自编码器（Wav-VAE）和一个扩散 Transformer（DiT），在波形隐空间内完成声音的压缩、建模与重建。

Wav-VAE：为波形量身定制的压缩器
- 高效下采样与多尺度建模：编码器通过多级 Oobleck 块实现层级下采样，每个块内堆叠带空洞卷积的残差单元，捕获从局部到全局的时序依赖。它将 24kHz 的波形压缩至约 11.7Hz 的帧率，压缩比超过 2000 倍。
- 非参数捷径稳定训练：在每个编码器/解码器块中引入非参数的“空间到通道”或“通道到空间”捷径分支，为梯度提供直接的线性通路，大幅提升了激进下采样时的收敛稳定性。
- 对抗式多目标训练：优化目标融合了多分辨率 STFT 损失、多尺度梅尔损失、时域 L1 损失、KL 散度正则，以及多尺度 STFT 判别器的对抗损失和特征匹配损失，确保重建波形既保持精确的时频结构，又具备自然听感。
扩散 Transformer (DiT)：在隐空间中学习映射
- 文本编码优化：选用支持 107 种语言的 UMT5 作为文本编码器。研究发现仅使用最后一层隐藏状态会导致可懂度下降，因此创新性地将原始词嵌入（第一层）与最后一层隐藏状态相加，经 LayerNorm 平衡后送入后续模块。此外，引入轻量级的 ConvNeXt V2 序列模块细化文本表征，加速文本-语音对齐。
- 结构优化：
  - 全局自适应层归一化 (Global AdaLN)：注入时间步信息，并通过全局共享的 AdaLN 块减少参数量。
  - QK-Norm + RoPE：稳定注意力训练，利用旋转位置编码捕捉相对位置关系。
  - 长跳跃连接：将输入直接加到输出，带来一致的质量提升。
  - 表征对齐 (REPA)：借助 mHuBERT 的自监督特征引导 DiT 中间层，虽不提升最终质量，但显著加速收敛。

2. 推理机制的双重关键突破

修复流匹配 TTS 的「训练-推理」不匹配问题 在标准条件流匹配 (CFM) 训练中，模型仅在掩码区域计算损失，音频提示区域（Prompt）不参与优化；但在推理阶段，提示区域会自由演化，导致分布轨迹偏离训练条件，造成音色漂移。为此提出双重约束机制：
- 提示区域隐变量强制重置：在每一步推理迭代中，将提示区域的隐变量严格重置为其理论真值（Ground Truth），确保演化轨迹与训练分布对齐。
- 无条件预测净化：计算无条件速度场时，移除提示区域的隐变量输入，避免信息泄漏，计算出完全正确的无条件速度。
自适应投影引导 (APG)：缓解 CFG「过饱和」问题 传统的无分类器引导 (CFG) 通过放大条件与无条件预测的差异来提升质量，但引导过强易导致频谱“过饱和”，音质劣化。APG 将引导信号分解为平行与正交两个分量：保留正交分量（有益部分），抑制平行分量（劣化部分）。这种“精准筛选”机制在提升自然度的同时避免了音质损失。

3. 核心洞察：VAE 重建质量与 TTS 生成的权衡

实验发现，VAE 重建质量越好并不等同于 TTS 生成效果越好。单纯追求高重建分数会导致潜空间维度膨胀，增加下游扩散模型的学习难度。经过系统性对比，团队确定了最优配置：64 维潜在维度 + 11.7Hz 帧率。这一配置在重建保真度与生成质量之间取得了最佳平衡。

4. 性能表现

在 Seed 基准测试中，LongCat-AudioDiT 展现了卓越的零样本语音克隆性能：

说话人相似度 (SIM)：
- Seed-ZH (中文)：LongCat-AudioDiT-3.5B 达到 0.818，超越此前 SOTA 的 Seed-DiT (0.809)。
- Seed-Hard (中文难句)：LongCat-AudioDiT-3.5B 达到 0.797，同样为 SOTA。
文本准确率 (WER/CER)：
- 中文 CER：1B 模型为 1.18%，3.5B 模型为 1.09%。
- 英文 WER：1B 模型为 1.78%，3.5B 模型为 1.50%（参评模型中第二低）。
- 中文难句 CER：3.5B 模型为 6.04%，显著低于基于扩散模型的 F5 TTS (8.67%)。

值得注意的是，LongCat-AudioDiT 仅通过 ASR 转写的预训练数据和单阶段预训练，便取得了优于 Seed-TTS、CosyVoice3.5、MiniMax-Speech 等多阶段训练模型的表现。

关键要点

端到端范式革新：LongCat-AudioDiT 彻底抛弃梅尔谱等中间表征，直接在波形潜空间进行扩散模型生成，从根源阻断级联误差。
Wav-VAE 高效压缩：采用多级 Oobleck 块和非参数捷径，实现 24kHz 到 11.7Hz 的高效压缩（压缩比 >2000），并通过对抗式多目标训练保证重建质量。
DiT 文本编码创新：结合 UMT5 的低层词嵌入与高层语义特征，并引入 ConvNeXt V2 细化表征，显著提升语音可懂度。
解决训练-推理不匹配：通过提示区域隐变量强制重置和无条件预测净化，解决了流匹配 TTS 中因提示区域自由演化导致的音色漂移问题。
APG 替代 CFG：提出自适应投影引导 (APG)，通过分解引导信号的正交与平行分量，解决传统 CFG 导致的频谱过饱和和音质劣化问题。
潜空间维度权衡：发现 VAE 重建质量并非越高越好，确定 64 维潜在维度 + 11.7Hz 帧率为生成质量与重建保真度的最佳平衡点。
SOTA 性能与开源：在 Seed 基准上取得说话人相似度 SOTA，同时保持高可懂度。模型（1B/3.5B）已完全开源。

意义与影响

LongCat-AudioDiT 的发布证明了“波形隐空间直通”的扩散 TTS 路线不仅可行，更能达到业界最佳水平。其意义主要体现在

查看原文 →tech.meituan.com