← 返回信息流
GitHub 热榜GitHub Trending · 日·7 天前

MOSS-TTS:开源高保真语音与声音生成模型家族

原标题:OpenMOSS/MOSS-TTS
Python2,048 stars+53 今日

速览

MOSS-TTS 是由 MOSI.AI 和 OpenMOSS 团队推出的开源语音与声音生成模型家族,专为高保真和高表现力设计。它支持稳定长文本语音、多角色对话、声音角色定制、环境音效以及实时流式 TTS,适用于需要复杂声音生成的各类应用场景。

AI 深度解读

这是什么

MOSS-TTS 是由 MOSI.AI 与 OpenMOSS 团队联合推出的开源语音与声音生成模型家族。该项目旨在解决高保真、高表现力以及复杂现实场景下的音频生成需求,涵盖了从稳定长文本语音合成、多角色对话、声音/角色设计,到环境音效生成及实时流式 TTS 的全链路能力。

作为 GitHub 上的热门开源项目(截至统计拥有 2048+ Star),MOSS-TTS 不仅仅是一个单一的 TTS 模型,而是一个模块化、生产就绪的模型家族。其最新版本(如 v1.5 和 v2.0)在 2026 年进行了重大更新,引入了基于 DiT 主干和 Flow Matching 目标的新架构,支持 48kHz 双语音效生成,并显著增强了多语言合成、声音克隆稳定性及细粒度控制能力。

解决的问题

传统 TTS 模型往往难以同时满足“高保真”、“长稳定性”、“多角色交互”和“低延迟实时交互”等多重需求。MOSS-TTS 通过解耦工作流,解决了以下核心痛点:

  1. 单一模型能力瓶颈:单个 TTS 模型很难在保持高保真度的同时,兼顾数十分钟的长文本稳定性、多角色对话切换以及实时交互的低延迟。
  2. 声音克隆的不稳定性:现有模型在零样本声音克隆中,常出现重复生成时音色方差大、长参考音频对应短文本时表现不佳的问题。
  3. 多语言与代码切换困难:许多模型对非主流语言(如粤语、泰语、斯瓦希里语等)支持有限,且在多语言混合场景下表现不稳定。
  4. 部署成本高:大型 TTS 模型通常依赖高性能 GPU,难以在边缘设备或低资源环境下部署。MOSS-TTS 提供了轻量化版本(Nano)及 llama.cpp/ONNX 推理支持,大幅降低硬件门槛。
  5. 音效与语音分离:传统方案中,语音合成与背景音效生成通常需要不同的工具链,MOSS-TTS 将其整合进同一生态,支持从文本直接生成高质量环境音效。

核心功能

MOSS-TTS 家族由五个核心模型组成,可根据需求独立使用或组合成完整管线:

  • MOSS-TTS(旗舰合成模型)

    • 支持高保真语音生成及最优的零样本声音克隆。
    • 支持长文本生成,具备拼音、音素及音节的细粒度控制能力。
    • 支持 31 种语言及多语言/代码切换合成。
    • v1.5 版本新增显式停顿控制(如 [pause 3.2s])及标点驱动的韵律控制。
  • MOSS-TTSD(对话生成模型)

    • 专为表达性、多角色及超长对话设计。
    • v1.0 版本在主观评估中超越 Doubao 和 Gemini 2.5-pro 等闭源模型,客观指标达到行业领先。
  • MOSS-VoiceGenerator(声音设计模型)

    • 无需参考音频,仅通过文本提示即可生成多样化音色和风格。
    • 统一了声音设计、风格控制与合成,可作为下游 TTS 的设计层。
  • MOSS-TTS-Realtime(实时语音代理模型)

    • 针对多轮上下文感知的实时语音代理设计。
    • 采用增量合成技术,TTFB(首字节时间)低至 180ms,配合 LLM 的首句生成时间,端到端延迟极具优势。
  • MOSS-SoundEffect(音效生成模型)

    • 基于 DiT 主干和 Flow Matching 目标(v2.0)。
    • 支持 48kHz 双语音效生成,时长可达 30 秒,覆盖自然环境、城市场景、生物声音、人类动作及音乐片段。
  • 辅助架构

    • MossTTSDelay:强调长上下文稳定性、推理速度和生产就绪性。
    • MossTTSLocal:强调轻量级灵活性和流式系统的强客观性能。
    • MOSS-TTS-Nano:约 1 亿参数,支持 48kHz 立体声输入输出,仅需 4 个 CPU 核心即可实现流式输出。

亮点 / 与同类相比

  1. 多语言覆盖广度与深度

    • MOSS-TTS-v1.5 支持 31 种语言,在原有 20 种语言基础上,新增了对粤语、荷兰语、芬兰语、印地语、马其顿语、马来语、罗马尼亚语、斯瓦希里语、他加禄语、泰语和越南语的持续训练支持。
    • 通过语言标签(Language Tags)显著增强多语言合成效果,特别是在已知语言场景下。
  2. 声音克隆性能跃升

    • 稳定性:v1.5 显著提升了说话人相似度,减少了重复生成时的方差。
    • 长参考短文本:在处理远长于目标文本的参考音频时,表现更加可靠。
    • 韵律控制:更紧密地遵循标点驱动的停顿,尤其在长句中表现自然。
  3. 极致的部署灵活性

    • 无 PyTorch 推理:支持 llama.cpp + ONNX Runtime,实现轻量级设备部署。
    • 量化支持:提供量化 GGUF 权重,8B 模型可在 8GB 显存 GPU 上运行。
    • SGLang 后端:支持 SGLang 后端,使 MOSS-TTS (Delay) 和 MOSS-SoundEffect 的生成吞吐量提升约 3 倍。
  4. 行业领先的对话与实时性能

    • MOSS-TTSD 在主观评估中超越顶级闭源模型。
    • MOSS-TTS-Realtime 专为低延迟语音代理设计,上下文一致性极佳。
  5. 开源生态整合

    • 支持 mlx-audio,便于 Apple Silicon 设备部署。
    • 集成至 OpenClaw 的 ClawHub,提供现成的 API 技能。

适合谁用 / 上手

适合人群:

  • AI 应用开发者:需要构建高保真、多语言、支持实时交互的语音代理或智能助手。
  • 内容创作者:需要生成高质量旁白、多角色对话音频或特定环境音效的游戏/影视开发者。
  • 声音设计师:希望无需参考音频即可通过文本提示快速生成多样化音色的设计师。
  • 边缘计算/嵌入式开发者:受限于硬件资源,需要轻量化模型(如 Nano 版本或 llama.cpp 推理)进行本地部署的工程师。

快速上手指南:

  1. 环境准备: 建议使用干净的 Python 3.12 环境,并安装 Transformers 5.0.0 以避免依赖冲突。

    conda create -n moss-tts python=3.12 -y
    conda activate moss-tts
    
  2. 安装依赖: 克隆仓库并安装核心依赖。推荐使用 pipuv

    使用 pip:

    git clone https://github.com/OpenMOSS/MOSS-TTS.git
    cd MOSS-TTS
    pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime]"
    

    使用 uv (推荐,更快):

    # 先安装 uv: https://docs.astral.sh/uv/getting-started/installation/
    git clone https://github.com/OpenMOSS/MOSS-TTS.git
    cd MOSS-TTS
    uv venv --python 3.12 .venv
    source .venv/bin
    
查看原文 →github.com