GitHub 热榜GitHub Trending · 周·7 天前

Dograh：开源自托管语音AI平台

原标题：dograh-hq/dograh

Python★ 3,408 stars+881 本周

速览

Dograh是一个基于Python的开源语音AI平台，允许用户通过可视化工作流构建器轻松搭建语音应用。它支持MCP原生集成、电话网络功能以及BYOK（自带密钥）模式，适用于需要数据隐私控制或私有化部署的语音交互场景。

AI 深度解读

这是什么

Dograh 是一个开源、可自托管的语音智能体（Voice Agent）构建平台，旨在成为 Vapi 和 Retell AI 的开源替代方案。该项目由 YC 校友及连续创业者维护，采用 Python 编写，核心特性是通过拖拽式工作流（Drag-and-drop workflow builder）让用户在 2 分钟内从零搭建出生产级的 AI 语音助手。

Dograh 提供完整的语音 AI 技术栈，包括大语言模型（LLM）、文本转语音（TTS）和语音转文本（STT）的集成。它采用模块化架构，支持 Docker 容器化部署，确保用户拥有 100% 的代码透明度和控制权，彻底消除供应商锁定（Vendor Lock-in）。

解决的问题

在当前的语音 AI 领域，许多商业平台（如 Vapi、Retell）虽然功能强大，但存在以下痛点：

供应商锁定与黑盒操作：用户无法查看底层代码，难以进行深度定制或审计，且数据隐私存在隐患。
部署复杂度高：自建语音助手通常涉及复杂的 STT/TTS/LLM 链路配置，门槛较高。
成本不可控：随着调用量增加，商业平台的 API 费用可能迅速攀升，且缺乏灵活的本地化部署选项。

Dograh 通过提供“开箱即用”的开源解决方案，解决了上述问题。它允许开发者在本地或私有服务器完全掌控数据流向和模型选择，同时通过内置的自动配置机制降低了初始搭建的技术门槛。

核心功能

可视化工作流构建器：提供拖拽式界面，用户可通过简单的节点连接（如输入/输出、LLM 处理、TTS 合成等）构建复杂的语音交互逻辑。
全栈语音集成：
- Telephony（电话网络）：内置对 Twilio、Vonage、Vobiz、Cloudonix 等主流电话服务商的支持，并支持将通话转接至人工坐席。
- 多模型支持：允许用户接入自定义的 LLM、TTS 和 STT 模型，也可使用平台默认配置。
实时低延迟交互：针对语音交互进行了优化，确保端到端的低延迟响应，提升对话自然度。
内置测试与 QA 节点：
- Web Call 测试：无需配置电话线路，直接在 Dashboard 中进行 Web 语音通话测试。
- QA Node：内置质量分析节点，可自动评估工作流中提示词（Prompt）的质量，辅助优化。
灵活的身份验证与密钥管理：首次启动时自动生成 API 密钥，支持随时替换为第三方服务密钥（如 Twilio、Vonage 等）。
遥测数据可选：默认收集匿名使用数据以改进产品，但用户可通过环境变量 ENABLE_TELEMETRY=false 轻松关闭。

亮点 / 与同类相比

主要亮点总结：

零配置启动：内置自动生成的 API 密钥和默认模型栈，无需预先申请第三方 Key 即可体验完整功能。
模块化架构：LLM、TTS、STT 组件解耦，用户可根据需求灵活替换（例如将默认的 TTS 替换为更高质量的商业模型）。
YC 背景背书：由经验丰富的创始人团队维护，社区活跃，文档完善（支持中文）。

适合谁用 / 上手

适合人群：

开发者与技术团队：希望拥有数据主权，需要深度定制语音 AI 逻辑，或希望降低长期运营成本的团队。
隐私敏感型企业：金融、医疗等行业，要求通话数据不出内网或私有云环境。
AI 爱好者与研究者：希望基于开源架构进行二次开发、实验新模型或构建特定场景的语音助手。
初创公司：需要快速验证语音 AI 产品原型，同时保留未来迁移或自托管灵活性的团队。

快速上手指南：

环境准备：确保服务器已安装 Docker 和 Docker Compose。

一键部署：执行以下命令拉取配置并启动服务：

curl -o docker-compose.yaml https://raw.githubusercontent.com/dograh-hq/dograh/main/docker-compose.yaml && REGISTRY=ghcr.io/dograh-hq ENABLE_TELEMETRY=true docker compose up --pull always

注：首次启动可能需要 2-3 分钟下载所有镜像。

访问控制台：启动完成后，在浏览器打开 http://localhost:3010。
创建第一个助手：
- 选择“Inbound”（呼入）或“Outbound”（呼出）模式。
- 为机器人命名（例如：“潜在客户筛选”）。
- 用 5-10 个词描述用例（例如：“筛选保险表单提交中的购买意向”）。
- 点击“Web Call”，即可直接在浏览器中与你的 AI 机器人进行语音对话。

进阶支持：

如需部署到远程服务器或配置 HTTPS，请参考官方 Docker 部署指南。
可通过 Python SDK (dograh-sdk) 或 Node SDK 进行代码级集成。
加入社区 Slack 或 GitHub Discussions 获取技术支持和贡献代码。

查看原文 →github.com