← 返回信息流
GitHub 热榜GitHub Trending · 周·7 天前

Dograh:开源自托管语音AI平台

原标题:dograh-hq/dograh
Python3,408 stars+881 本周

速览

Dograh是一个基于Python的开源语音AI平台,允许用户通过可视化工作流构建器轻松搭建语音应用。它支持MCP原生集成、电话网络功能以及BYOK(自带密钥)模式,适用于需要数据隐私控制或私有化部署的语音交互场景。

AI 深度解读

这是什么

Dograh 是一个开源、可自托管的语音智能体(Voice Agent)构建平台,旨在成为 Vapi 和 Retell AI 的开源替代方案。该项目由 YC 校友及连续创业者维护,采用 Python 编写,核心特性是通过拖拽式工作流(Drag-and-drop workflow builder)让用户在 2 分钟内从零搭建出生产级的 AI 语音助手。

Dograh 提供完整的语音 AI 技术栈,包括大语言模型(LLM)、文本转语音(TTS)和语音转文本(STT)的集成。它采用模块化架构,支持 Docker 容器化部署,确保用户拥有 100% 的代码透明度和控制权,彻底消除供应商锁定(Vendor Lock-in)。

解决的问题

在当前的语音 AI 领域,许多商业平台(如 Vapi、Retell)虽然功能强大,但存在以下痛点:

  1. 供应商锁定与黑盒操作:用户无法查看底层代码,难以进行深度定制或审计,且数据隐私存在隐患。
  2. 部署复杂度高:自建语音助手通常涉及复杂的 STT/TTS/LLM 链路配置,门槛较高。
  3. 成本不可控:随着调用量增加,商业平台的 API 费用可能迅速攀升,且缺乏灵活的本地化部署选项。

Dograh 通过提供“开箱即用”的开源解决方案,解决了上述问题。它允许开发者在本地或私有服务器完全掌控数据流向和模型选择,同时通过内置的自动配置机制降低了初始搭建的技术门槛。

核心功能

  • 可视化工作流构建器:提供拖拽式界面,用户可通过简单的节点连接(如输入/输出、LLM 处理、TTS 合成等)构建复杂的语音交互逻辑。
  • 全栈语音集成
    • Telephony(电话网络):内置对 Twilio、Vonage、Vobiz、Cloudonix 等主流电话服务商的支持,并支持将通话转接至人工坐席。
    • 多模型支持:允许用户接入自定义的 LLM、TTS 和 STT 模型,也可使用平台默认配置。
  • 实时低延迟交互:针对语音交互进行了优化,确保端到端的低延迟响应,提升对话自然度。
  • 内置测试与 QA 节点
    • Web Call 测试:无需配置电话线路,直接在 Dashboard 中进行 Web 语音通话测试。
    • QA Node:内置质量分析节点,可自动评估工作流中提示词(Prompt)的质量,辅助优化。
  • 灵活的身份验证与密钥管理:首次启动时自动生成 API 密钥,支持随时替换为第三方服务密钥(如 Twilio、Vonage 等)。
  • 遥测数据可选:默认收集匿名使用数据以改进产品,但用户可通过环境变量 ENABLE_TELEMETRY=false 轻松关闭。

亮点 / 与同类相比

| 特性 | Dograh (开源) | Vapi / Retell (商业) | | :--- | :--- | :--- | | 代码透明度 | 100% 开源,代码完全可见,可审计 | 闭源,黑盒运行 | | 部署方式 | 支持自托管(Self-hosted),数据私有 | 主要依赖云端 SaaS | | 供应商锁定 | 无锁定,可自由替换底层组件 | 存在锁定风险,迁移成本高 | | 定制能力 | 极高,可修改核心逻辑和接入任意模型 | 受限,仅支持配置层面的调整 | | 启动速度 | 极快,Docker 一键部署,2 分钟出原型 | 较快,但需注册和配置商业账号 | | 成本结构 | 基础设施成本可控,无 API 调用费(若自建模型) | 按调用量付费,长期成本高 |

主要亮点总结:

  • 零配置启动:内置自动生成的 API 密钥和默认模型栈,无需预先申请第三方 Key 即可体验完整功能。
  • 模块化架构:LLM、TTS、STT 组件解耦,用户可根据需求灵活替换(例如将默认的 TTS 替换为更高质量的商业模型)。
  • YC 背景背书:由经验丰富的创始人团队维护,社区活跃,文档完善(支持中文)。

适合谁用 / 上手

适合人群:

  • 开发者与技术团队:希望拥有数据主权,需要深度定制语音 AI 逻辑,或希望降低长期运营成本的团队。
  • 隐私敏感型企业:金融、医疗等行业,要求通话数据不出内网或私有云环境。
  • AI 爱好者与研究者:希望基于开源架构进行二次开发、实验新模型或构建特定场景的语音助手。
  • 初创公司:需要快速验证语音 AI 产品原型,同时保留未来迁移或自托管灵活性的团队。

快速上手指南:

  1. 环境准备:确保服务器已安装 Docker 和 Docker Compose。
  2. 一键部署: 执行以下命令拉取配置并启动服务:
    curl -o docker-compose.yaml https://raw.githubusercontent.com/dograh-hq/dograh/main/docker-compose.yaml && REGISTRY=ghcr.io/dograh-hq ENABLE_TELEMETRY=true docker compose up --pull always
    
    注:首次启动可能需要 2-3 分钟下载所有镜像。
  3. 访问控制台: 启动完成后,在浏览器打开 http://localhost:3010
  4. 创建第一个助手
    • 选择“Inbound”(呼入)或“Outbound”(呼出)模式。
    • 为机器人命名(例如:“潜在客户筛选”)。
    • 用 5-10 个词描述用例(例如:“筛选保险表单提交中的购买意向”)。
    • 点击“Web Call”,即可直接在浏览器中与你的 AI 机器人进行语音对话。

进阶支持:

  • 如需部署到远程服务器或配置 HTTPS,请参考官方 Docker 部署指南。
  • 可通过 Python SDK (dograh-sdk) 或 Node SDK 进行代码级集成。
  • 加入社区 Slack 或 GitHub Discussions 获取技术支持和贡献代码。
查看原文 →github.com