GitHub 热榜GitHub Trending · 日·1 小时前

VibeVoice：微软开源的前沿语音AI模型

原标题：microsoft/VibeVoice

Python★ 48,320 stars+219 今日

速览

VibeVoice 是微软推出的开源前沿语音AI项目，旨在降低高质量语音AI的开发门槛。它集成了先进的语音合成与理解技术，适用于构建智能语音助手、内容创作及沉浸式交互应用。

AI 深度解读

这是什么

VibeVoice 是 Microsoft 开源的前沿语音 AI 模型家族，包含语音合成（TTS）和自动语音识别（ASR）两大核心组件。该项目旨在通过开放研究框架，推动语音合成社区的协作与创新。

VibeVoice 的核心技术突破在于其采用的连续语音分词器（Continuous Speech Tokenizers），包括声学（Acoustic）和语义（Semantic）两个层面，运行在极低的 7.5 Hz 帧率下。这种设计在保持高保真音频质量的同时，显著提升了处理长序列音频的计算效率。在架构上，VibeVoice 采用下一个词扩散框架（Next-token Diffusion Framework）：利用大型语言模型（LLM）理解文本上下文和对话流，并通过扩散头（Diffusion Head）生成高保真的声学细节。

该项目近期在 GitHub 上获得广泛关注（截至 2026 年初），并持续更新其 ASR 和实时 TTS 能力。

解决的问题

传统语音 AI 模型在处理长音频时面临两大痛点：

上下文断裂与效率低下：常规 ASR 模型通常将音频切片为短片段进行处理，导致全局上下文丢失，且无法实现跨时段的说话人一致性追踪。
长程生成中的连贯性缺失：在长文本 TTS 生成中，模型容易在长时间跨度内出现说话人音色漂移、语义不连贯或情感断层。

VibeVoice 通过单次传递（Single-pass）处理长达数十分钟的音频，解决了长程语音处理中的上下文保持和计算效率问题，同时提供了结构化的输出能力，满足了复杂对话场景的需求。

核心功能

VibeVoice 家族目前主要包含三个核心模块：

1. VibeVoice-ASR（长程语音识别）

单次传递处理：支持长达 60 分钟 的连续音频输入，Token 长度可达 64K，无需切片。
结构化转录：联合执行 ASR、说话人分离（Diarization）和时间戳定位，输出包含 Who（说话人）、When（时间戳） 和 What（内容） 的结构化数据。
自定义热词：支持用户注入特定名称、术语或背景信息作为热词，显著提升垂直领域内容的识别准确率。
多语言支持：原生支持超过 50 种语言。

2. VibeVoice-TTS（长程多说话人合成）

超长生成：单次传递可合成高达 90 分钟 的对话或单说话人语音。
多说话人管理：支持单次对话中最多 4 位 不同说话人，保持自然的轮流对话节奏和音色一致性。
表达力增强：生成的语音具有自然的情感细微差别和对话动态，非机械式朗读。
多语言支持：主要支持英语、中文及其他多种语言。
- 注：2025 年 9 月因负责任 AI 原则，原始 TTS 代码曾短暂移除，后于 2025 年 8 月 ICLR 2026 Oral 论文发布前后重新开源并优化。

3. VibeVoice-Realtime（实时流式 TTS）

轻量化部署：模型参数量为 0.5B，适合边缘或快速部署场景。
低延迟流式输出：首音延迟约 300 毫秒，支持流式文本输入。
长程流式生成：在流式模式下也能保持约 10 分钟 的稳健生成能力。
多风格/多语言声音：实验性支持 9 种语言的多语言声音及 11 种英语风格变体。

亮点 / 与同类相比

7.5 Hz 超低帧率分词器：相比传统模型，VibeVoice 的声学/语义分词器以极低的帧率运行，在保证音频高保真的前提下，大幅降低了长序列处理的计算负载。这是其能处理 60-90 分钟长音频的关键技术壁垒。
LLM + Diffusion 混合架构：不同于纯端到端的声学模型，VibeVoice 利用 LLM 强大的语义理解能力来规划对话流，再结合扩散模型生成细节。这种架构在长程生成的语义连贯性和声学自然度之间取得了更好的平衡。
结构化 ASR 输出：大多数 ASR 模型仅输出纯文本。VibeVoice-ASR 原生输出包含说话人身份和时间戳的结构化数据，直接适用于会议纪要、播客转录等需要精细标注的场景，减少了后处理成本。
Transformer 集成：2026 年 3 月，VibeVoice ASR 已集成至 Hugging Face Transformers 库，使得开发者可以像使用其他 Hugging Face 模型一样无缝集成，降低了部署门槛。
vLLM 推理支持：针对 ASR 模块，官方提供了基于 vLLM 的推理支持，进一步提升了推理速度。

适合谁用 / 上手

适合人群：

AI 研究人员：关注长程语音生成、扩散模型在语音领域的应用、以及多说话人对话建模的研究者。
开发者：需要构建长音频处理管道（如自动会议纪要、播客生成、有声书制作）的工程团队。
语音应用创业者：寻找高保真、多说话人、长程稳定 TTS/ASR 解决方案的技术负责人。

如何上手：

环境准备：项目主语言为 Python。确保安装 PyTorch 及 Hugging Face Transformers 库。
ASR 使用：
- 直接通过 transformers 库调用模型。
- 参考官方提供的 vllm-asr 指南进行高性能推理。
- 利用 Playground 进行在线体验。
TTS 使用：
- 访问 Hugging Face 模型页面下载权重。
- 参考官方文档进行微调（Finetuning），官方已开源微调代码。
- 对于实时场景，可尝试 Colab 上的 VibeVoice-Realtime 示例。
注意事项：
- 负责任使用：模型可能继承基座模型（如 Qwen2.5 1.5b）的偏见或错误。生成的语音可能被用于深度伪造（Deepfakes），用户需确保内容合法合规，并在分享 AI 生成内容时进行披露。
- 非商业建议：官方建议在进行商业或真实世界应用前进行充分的测试和开发，目前主要面向研发目的。

查看原文 →github.com