GitHub 热榜GitHub Trending · 日·7 天前

MOSS-TTS：开源高保真语音与声音生成模型家族

原标题：OpenMOSS/MOSS-TTS

Python★ 2,048 stars+53 今日

速览

MOSS-TTS 是由 MOSI.AI 和 OpenMOSS 团队推出的开源语音与声音生成模型家族，专为高保真和高表现力设计。它支持稳定长文本语音、多角色对话、声音角色定制、环境音效以及实时流式 TTS，适用于需要复杂声音生成的各类应用场景。

AI 深度解读

这是什么

MOSS-TTS 是由 MOSI.AI 与 OpenMOSS 团队联合推出的开源语音与声音生成模型家族。该项目旨在解决高保真、高表现力以及复杂现实场景下的音频生成需求，涵盖了从稳定长文本语音合成、多角色对话、声音/角色设计，到环境音效生成及实时流式 TTS 的全链路能力。

作为 GitHub 上的热门开源项目（截至统计拥有 2048+ Star），MOSS-TTS 不仅仅是一个单一的 TTS 模型，而是一个模块化、生产就绪的模型家族。其最新版本（如 v1.5 和 v2.0）在 2026 年进行了重大更新，引入了基于 DiT 主干和 Flow Matching 目标的新架构，支持 48kHz 双语音效生成，并显著增强了多语言合成、声音克隆稳定性及细粒度控制能力。

解决的问题

传统 TTS 模型往往难以同时满足“高保真”、“长稳定性”、“多角色交互”和“低延迟实时交互”等多重需求。MOSS-TTS 通过解耦工作流，解决了以下核心痛点：

单一模型能力瓶颈：单个 TTS 模型很难在保持高保真度的同时，兼顾数十分钟的长文本稳定性、多角色对话切换以及实时交互的低延迟。
声音克隆的不稳定性：现有模型在零样本声音克隆中，常出现重复生成时音色方差大、长参考音频对应短文本时表现不佳的问题。
多语言与代码切换困难：许多模型对非主流语言（如粤语、泰语、斯瓦希里语等）支持有限，且在多语言混合场景下表现不稳定。
部署成本高：大型 TTS 模型通常依赖高性能 GPU，难以在边缘设备或低资源环境下部署。MOSS-TTS 提供了轻量化版本（Nano）及 llama.cpp/ONNX 推理支持，大幅降低硬件门槛。
音效与语音分离：传统方案中，语音合成与背景音效生成通常需要不同的工具链，MOSS-TTS 将其整合进同一生态，支持从文本直接生成高质量环境音效。

核心功能

MOSS-TTS 家族由五个核心模型组成，可根据需求独立使用或组合成完整管线：

MOSS-TTS（旗舰合成模型）：
- 支持高保真语音生成及最优的零样本声音克隆。
- 支持长文本生成，具备拼音、音素及音节的细粒度控制能力。
- 支持 31 种语言及多语言/代码切换合成。
- v1.5 版本新增显式停顿控制（如 [pause 3.2s]）及标点驱动的韵律控制。
MOSS-TTSD（对话生成模型）：
- 专为表达性、多角色及超长对话设计。
- v1.0 版本在主观评估中超越 Doubao 和 Gemini 2.5-pro 等闭源模型，客观指标达到行业领先。
MOSS-VoiceGenerator（声音设计模型）：
- 无需参考音频，仅通过文本提示即可生成多样化音色和风格。
- 统一了声音设计、风格控制与合成，可作为下游 TTS 的设计层。
MOSS-TTS-Realtime（实时语音代理模型）：
- 针对多轮上下文感知的实时语音代理设计。
- 采用增量合成技术，TTFB（首字节时间）低至 180ms，配合 LLM 的首句生成时间，端到端延迟极具优势。
MOSS-SoundEffect（音效生成模型）：
- 基于 DiT 主干和 Flow Matching 目标（v2.0）。
- 支持 48kHz 双语音效生成，时长可达 30 秒，覆盖自然环境、城市场景、生物声音、人类动作及音乐片段。
辅助架构：
- MossTTSDelay：强调长上下文稳定性、推理速度和生产就绪性。
- MossTTSLocal：强调轻量级灵活性和流式系统的强客观性能。
- MOSS-TTS-Nano：约 1 亿参数，支持 48kHz 立体声输入输出，仅需 4 个 CPU 核心即可实现流式输出。

亮点 / 与同类相比

多语言覆盖广度与深度：
- MOSS-TTS-v1.5 支持 31 种语言，在原有 20 种语言基础上，新增了对粤语、荷兰语、芬兰语、印地语、马其顿语、马来语、罗马尼亚语、斯瓦希里语、他加禄语、泰语和越南语的持续训练支持。
- 通过语言标签（Language Tags）显著增强多语言合成效果，特别是在已知语言场景下。
声音克隆性能跃升：
- 稳定性：v1.5 显著提升了说话人相似度，减少了重复生成时的方差。
- 长参考短文本：在处理远长于目标文本的参考音频时，表现更加可靠。
- 韵律控制：更紧密地遵循标点驱动的停顿，尤其在长句中表现自然。
极致的部署灵活性：
- 无 PyTorch 推理：支持 llama.cpp + ONNX Runtime，实现轻量级设备部署。
- 量化支持：提供量化 GGUF 权重，8B 模型可在 8GB 显存 GPU 上运行。
- SGLang 后端：支持 SGLang 后端，使 MOSS-TTS (Delay) 和 MOSS-SoundEffect 的生成吞吐量提升约 3 倍。
行业领先的对话与实时性能：
- MOSS-TTSD 在主观评估中超越顶级闭源模型。
- MOSS-TTS-Realtime 专为低延迟语音代理设计，上下文一致性极佳。
开源生态整合：
- 支持 mlx-audio，便于 Apple Silicon 设备部署。
- 集成至 OpenClaw 的 ClawHub，提供现成的 API 技能。

适合谁用 / 上手

适合人群：

AI 应用开发者：需要构建高保真、多语言、支持实时交互的语音代理或智能助手。
内容创作者：需要生成高质量旁白、多角色对话音频或特定环境音效的游戏/影视开发者。
声音设计师：希望无需参考音频即可通过文本提示快速生成多样化音色的设计师。
边缘计算/嵌入式开发者：受限于硬件资源，需要轻量化模型（如 Nano 版本或 llama.cpp 推理）进行本地部署的工程师。

快速上手指南：

环境准备：建议使用干净的 Python 3.12 环境，并安装 Transformers 5.0.0 以避免依赖冲突。
```
conda create -n moss-tts python=3.12 -y
conda activate moss-tts
```

安装依赖：克隆仓库并安装核心依赖。推荐使用 pip 或 uv。

使用 pip:

git clone https://github.com/OpenMOSS/MOSS-TTS.git
cd MOSS-TTS
pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime]"

使用 uv (推荐，更快):

# 先安装 uv: https://docs.astral.sh/uv/getting-started/installation/
git clone https://github.com/OpenMOSS/MOSS-TTS.git
cd MOSS-TTS
uv venv --python 3.12 .venv
source .venv/bin

查看原文 →github.com