GitHub 热榜GitHub Trending · 日·1 小时前

Voicebox：开源 AI 语音工作室

原标题：jamiepine/voicebox

TypeScript★ 30,766 stars+140 今日

速览

Voicebox 是一个开源的 AI 语音工作室，支持用户克隆声音、进行语音听写以及创建新的语音内容。它旨在为开发者和创作者提供一个灵活且强大的工具，用于处理各种语音生成与转换需求。

AI 深度解读

这是什么

Voicebox 是一个本地优先（Local-first）的开源 AI 语音工作室，由 jamiepine 开发，主语言为 TypeScript，基于 Tauri (Rust) 构建。它旨在成为 ElevenLabs 和 WisprFlow 的免费开源替代方案，提供完整的语音 I/O（输入/输出）栈。

该项目允许用户在本地机器上克隆声音、生成语音、通过全局快捷键将语音转录输入到任何应用中，并让支持 MCP（Model Context Protocol）的 AI 代理使用用户自定义的声音进行交互。其核心理念是“数据不出本机”，确保模型、语音数据和捕获内容完全在用户本地运行，不依赖云端服务。

解决的问题

当前的语音 AI 生态存在明显的割裂：

输出与输入分离：主流云服务如 ElevenLabs 专注于高质量的语音合成（TTS/输出），而 WisprFlow 等工具专注于语音识别（STT/输入）。用户通常需要在不同平台间切换，且数据需上传至云端。
隐私与成本顾虑：云端方案涉及数据隐私泄露风险，且长期使用成本较高。
缺乏本地化整合：现有的开源方案往往只解决单一环节（仅 TTS 或仅 STT），缺乏将语音生成、处理、输入以及 AI 代理交互整合在一起的完整工作流。

Voicebox 通过在一个应用中桥接语音 I/O 的两端，并利用本地 LLM 进行文本润色和人格化设定，解决了上述割裂问题，实现了全链路本地化运行。

核心功能

1. 多引擎语音合成 (TTS)

7 大 TTS 引擎：支持 Qwen3-TTS、Qwen CustomVoice、LuxTTS、Chatterbox Multilingual、Chatterbox Turbo、HumeAI TADA 和 Kokoro。
多语言支持：涵盖英语、阿拉伯语、日语、印地语、斯瓦希里语等 23 种语言。
声音克隆：支持零样本克隆（Zero-shot cloning），仅需几秒参考音频即可克隆声音；同时提供 50+ 预设声音。
超长文本生成：支持高达 50,000 字符的脚本生成，自动在句子边界分块并添加交叉淡入淡出（Crossfade），确保音频连贯。

2. 语音输入与转录 (STT)

全局听写：通过全局热键实现“按住说话”，在 macOS 上可直接将转录文本粘贴到当前聚焦的文本框中。
多平台支持：基于 OpenAI Whisper 模型，支持 MLX (Apple Silicon)、PyTorch (CUDA/ROCm/DirectML/CPU)。
智能润色：可选的 LLM 润色功能，自动去除口癖、重复和错误起始词。

3. AI 代理语音交互 (MCP Integration)

MCP 工具调用：任何支持 MCP 的 AI 代理（如 Claude Code, Cursor, Cline）只需一次工具调用 (voicebox.speak) 即可使用克隆的声音说话。
人格化设定：可为每个声音配置文件附加自由文本的“人格”（Persona），通过本地 LLM 进行 compose、rewrite 或 respond，使代理交互更具个性。

4. 故事编辑器 (Stories Editor)

多轨道时间线：支持对话、播客和叙事的多轨道编辑，具备拖放功能、音频裁剪和同步播放头。
版本管理：每个生成结果保留原始版本、应用不同效果链的版本以及不同随机种子的变体，并追踪来源。

5. 音频后处理

8 种音频效果：基于 Spotify 的 pedalboard library，提供变调、混响、延迟、合唱、压缩和滤波等效果。
预设系统：内置机器人、广播、回声室、深沉声音等预设，支持自定义预设并绑定到特定声音配置文件。

亮点 / 与同类相比

全栈本地化与隐私：与 ElevenLabs 等云端服务不同，Voicebox 的所有模型、数据和捕获内容均保留在本地机器上，适合对隐私有极高要求的用户。
I/O 闭环整合：不同于单一功能的工具，Voicebox 同时解决了语音生成（输出）和语音识别（输入），并通过本地 LLM 连接两者，形成完整的工作流。
MCP 原生集成：率先将语音输出能力深度集成到 MCP 生态中，使得开发者可以轻松让代码助手、IDE 插件等 AI 代理具备“说话”的能力，且声音可定制。
高性能架构：基于 Tauri (Rust) 构建，相比 Electron 应用更轻量、启动更快、内存占用更低。
跨平台硬件支持：广泛支持 macOS (MLX/Metal)、Windows (CUDA)、Linux、AMD ROCm 和 Intel Arc，甚至支持 Docker 部署。
** expressive Speech (表现力语音)**：Chatterbox Turbo 引擎支持解析 [laugh]、[sigh] 等副语言标签，使生成的语音更具情感色彩，这是许多传统 TTS 引擎不具备的。

适合谁用 / 上手

适合人群：

隐私倡导者：不希望语音数据上传至云端的个人和企业用户。
AI 开发者：希望为 MCP 兼容的 AI 代理添加语音交互能力的开发者。
内容创作者：需要制作播客、有声书或视频配音，且希望拥有精细控制（如多轨道编辑、音效处理）的用户。
无障碍需求用户：需要高效语音输入以辅助打字或控制电脑的用户。

上手指南：

安装：
- macOS/Windows：可直接从 voicebox.sh 下载预编译二进制文件。
- Linux：目前尚无预编译二进制文件，需参考官方文档从源码构建。
- Docker：支持通过 Docker 部署。
配置：
- 首次运行需授予麦克风权限（macOS 需通过系统设置授予辅助功能和输入监控权限）。
- 选择所需的 TTS 引擎和 STT 模型（如 Whisper 大小），系统会根据平台自动选择最佳后端（MLX 或 PyTorch）。
开始使用：
- 克隆声音：上传几秒音频样本创建声音配置文件。
- 生成语音：在文本框输入文本，选择引擎和声音，点击生成。
- 听写输入：按下全局热键（如 Cmd+Space 或自定义组合键）按住说话，松开后文本自动粘贴到当前焦点。
- 代理交互：在支持的 AI 代理中调用 voicebox.speak 工具，即可听到代理用指定声音回答。

注意事项：Linux 用户需具备构建环境；生成高质量语音需要一定的 GPU 算力支持（尤其是使用 Qwen3-TTS 或大型 Whisper 模型时）。

查看原文 →github.com