← 返回信息流
GitHub 热榜GitHub Trending · 日·1 小时前

Voicebox:开源 AI 语音工作室

原标题:jamiepine/voicebox
TypeScript30,766 stars+140 今日

速览

Voicebox 是一个开源的 AI 语音工作室,支持用户克隆声音、进行语音听写以及创建新的语音内容。它旨在为开发者和创作者提供一个灵活且强大的工具,用于处理各种语音生成与转换需求。

AI 深度解读

这是什么

Voicebox 是一个本地优先(Local-first)的开源 AI 语音工作室,由 jamiepine 开发,主语言为 TypeScript,基于 Tauri (Rust) 构建。它旨在成为 ElevenLabs 和 WisprFlow 的免费开源替代方案,提供完整的语音 I/O(输入/输出)栈。

该项目允许用户在本地机器上克隆声音、生成语音、通过全局快捷键将语音转录输入到任何应用中,并让支持 MCP(Model Context Protocol)的 AI 代理使用用户自定义的声音进行交互。其核心理念是“数据不出本机”,确保模型、语音数据和捕获内容完全在用户本地运行,不依赖云端服务。

解决的问题

当前的语音 AI 生态存在明显的割裂:

  1. 输出与输入分离:主流云服务如 ElevenLabs 专注于高质量的语音合成(TTS/输出),而 WisprFlow 等工具专注于语音识别(STT/输入)。用户通常需要在不同平台间切换,且数据需上传至云端。
  2. 隐私与成本顾虑:云端方案涉及数据隐私泄露风险,且长期使用成本较高。
  3. 缺乏本地化整合:现有的开源方案往往只解决单一环节(仅 TTS 或仅 STT),缺乏将语音生成、处理、输入以及 AI 代理交互整合在一起的完整工作流。

Voicebox 通过在一个应用中桥接语音 I/O 的两端,并利用本地 LLM 进行文本润色和人格化设定,解决了上述割裂问题,实现了全链路本地化运行。

核心功能

1. 多引擎语音合成 (TTS)

  • 7 大 TTS 引擎:支持 Qwen3-TTS、Qwen CustomVoice、LuxTTS、Chatterbox Multilingual、Chatterbox Turbo、HumeAI TADA 和 Kokoro。
  • 多语言支持:涵盖英语、阿拉伯语、日语、印地语、斯瓦希里语等 23 种语言。
  • 声音克隆:支持零样本克隆(Zero-shot cloning),仅需几秒参考音频即可克隆声音;同时提供 50+ 预设声音。
  • 超长文本生成:支持高达 50,000 字符的脚本生成,自动在句子边界分块并添加交叉淡入淡出(Crossfade),确保音频连贯。

2. 语音输入与转录 (STT)

  • 全局听写:通过全局热键实现“按住说话”,在 macOS 上可直接将转录文本粘贴到当前聚焦的文本框中。
  • 多平台支持:基于 OpenAI Whisper 模型,支持 MLX (Apple Silicon)、PyTorch (CUDA/ROCm/DirectML/CPU)。
  • 智能润色:可选的 LLM 润色功能,自动去除口癖、重复和错误起始词。

3. AI 代理语音交互 (MCP Integration)

  • MCP 工具调用:任何支持 MCP 的 AI 代理(如 Claude Code, Cursor, Cline)只需一次工具调用 (voicebox.speak) 即可使用克隆的声音说话。
  • 人格化设定:可为每个声音配置文件附加自由文本的“人格”(Persona),通过本地 LLM 进行 compose、rewrite 或 respond,使代理交互更具个性。

4. 故事编辑器 (Stories Editor)

  • 多轨道时间线:支持对话、播客和叙事的多轨道编辑,具备拖放功能、音频裁剪和同步播放头。
  • 版本管理:每个生成结果保留原始版本、应用不同效果链的版本以及不同随机种子的变体,并追踪来源。

5. 音频后处理

  • 8 种音频效果:基于 Spotify 的 pedalboard library,提供变调、混响、延迟、合唱、压缩和滤波等效果。
  • 预设系统:内置机器人、广播、回声室、深沉声音等预设,支持自定义预设并绑定到特定声音配置文件。

亮点 / 与同类相比

  • 全栈本地化与隐私:与 ElevenLabs 等云端服务不同,Voicebox 的所有模型、数据和捕获内容均保留在本地机器上,适合对隐私有极高要求的用户。
  • I/O 闭环整合:不同于单一功能的工具,Voicebox 同时解决了语音生成(输出)和语音识别(输入),并通过本地 LLM 连接两者,形成完整的工作流。
  • MCP 原生集成:率先将语音输出能力深度集成到 MCP 生态中,使得开发者可以轻松让代码助手、IDE 插件等 AI 代理具备“说话”的能力,且声音可定制。
  • 高性能架构:基于 Tauri (Rust) 构建,相比 Electron 应用更轻量、启动更快、内存占用更低。
  • 跨平台硬件支持:广泛支持 macOS (MLX/Metal)、Windows (CUDA)、Linux、AMD ROCm 和 Intel Arc,甚至支持 Docker 部署。
  • ** expressive Speech (表现力语音)**:Chatterbox Turbo 引擎支持解析 [laugh][sigh] 等副语言标签,使生成的语音更具情感色彩,这是许多传统 TTS 引擎不具备的。

适合谁用 / 上手

适合人群:

  • 隐私倡导者:不希望语音数据上传至云端的个人和企业用户。
  • AI 开发者:希望为 MCP 兼容的 AI 代理添加语音交互能力的开发者。
  • 内容创作者:需要制作播客、有声书或视频配音,且希望拥有精细控制(如多轨道编辑、音效处理)的用户。
  • 无障碍需求用户:需要高效语音输入以辅助打字或控制电脑的用户。

上手指南:

  1. 安装
    • macOS/Windows:可直接从 voicebox.sh 下载预编译二进制文件。
    • Linux:目前尚无预编译二进制文件,需参考官方文档从源码构建。
    • Docker:支持通过 Docker 部署。
  2. 配置
    • 首次运行需授予麦克风权限(macOS 需通过系统设置授予辅助功能和输入监控权限)。
    • 选择所需的 TTS 引擎和 STT 模型(如 Whisper 大小),系统会根据平台自动选择最佳后端(MLX 或 PyTorch)。
  3. 开始使用
    • 克隆声音:上传几秒音频样本创建声音配置文件。
    • 生成语音:在文本框输入文本,选择引擎和声音,点击生成。
    • 听写输入:按下全局热键(如 Cmd+Space 或自定义组合键)按住说话,松开后文本自动粘贴到当前焦点。
    • 代理交互:在支持的 AI 代理中调用 voicebox.speak 工具,即可听到代理用指定声音回答。

注意事项:Linux 用户需具备构建环境;生成高质量语音需要一定的 GPU 算力支持(尤其是使用 Qwen3-TTS 或大型 Whisper 模型时)。

查看原文 →github.com