GitHub 热榜GitHub Trending · 日·2 天前

Open-LLM-VTuber：本地部署的AI虚拟主播交互系统

原标题：Open-LLM-VTuber/Open-LLM-VTuber

Python★ 8,179 stars+65 今日

速览

该项目允许用户将任意大语言模型接入Live2D虚拟形象，实现跨平台的本地化语音对话。其核心亮点包括免提语音交互、实时语音打断以及隐私安全的本地部署能力，适用于AI角色扮演、虚拟陪伴及个性化助手场景。

AI 深度解读

这是什么

Open-LLM-VTuber 是一个基于 Python 开发的开源项目，旨在打造一款完全可离线运行的个人 AI 虚拟伴侣。它集成了大语言模型（LLM）、语音识别（ASR）、语音合成（TTS）以及 Live2D 视觉表现技术，让用户能够拥有具备实时语音对话、视觉感知能力且形象生动的 AI 角色。

该项目最初的开发目标是利用开源方案在非 Windows 平台上复刻闭源的 AI Vtuber neuro-sama，因此得名。目前项目主要语言为 Python，在 GitHub 上拥有极高的关注度（★8179+）。它支持 Windows、macOS 和 Linux 三大主流操作系统，提供 Web 端和桌面客户端两种使用形态，其中桌面客户端特别支持“桌面宠物模式”，允许 AI 角色以透明背景悬浮在屏幕任意位置。

值得注意的是，项目团队正在全力开发 v2.0 版本，目前 v2.0 处于早期讨论和规划阶段，代码库正在进行全面重写。对于 v1.x 版本，团队仅进行 Bug 修复和处理现有的 Pull Request，新功能请求建议前往 Zulip 开发者社区参与 v2.0 的讨论。

解决的问题

隐私与数据安全问题：传统的 AI 助手通常依赖云端 API，用户对话数据需上传至服务器。Open-LLM-VTuber 支持完全本地化部署，所有推理、语音处理均在本地设备完成，确保对话内容不出本机，满足对隐私高度敏感用户的需求。
交互体验单一化：普通 LLM 聊天机器人仅具备文本交互能力，缺乏情感连接。该项目通过 Live2D 动态形象、语音交互以及视觉感知，解决了人机交互中“冷冰冰”的问题，提供了更接近真实陪伴的情感体验。
跨平台与离线可用性：许多高性能 AI 应用受限于操作系统或网络环境。该项目实现了跨平台兼容，并支持在无网络环境下运行，解决了依赖特定硬件或网络条件的痛点。
定制化需求缺失：通用 AI 产品难以满足用户个性化的角色设定（如外貌、性格、声音）。该项目提供了高度的模块化配置和角色定制指南，允许用户深度自定义 AI 伴侣的外观和人格。

核心功能

多模态交互：
- 实时语音对话：支持低延迟的语音输入与输出，实现流畅的自然对话。
- 视觉感知：支持调用摄像头、屏幕录制或截图，使 AI 能够“看见”用户或当前屏幕内容，增强上下文理解能力。
- 触觉反馈：支持通过点击或拖拽 Live2D 模型进行互动。
沉浸式桌面体验：
- 桌面宠物模式：支持透明背景、全局置顶和鼠标穿透，AI 角色可跟随鼠标移动，成为屏幕上的常驻伴侣。
- 内心独白显示：可在界面上显示 AI 的内心想法、表情和动作，而不必通过语音说出来，增加角色层次感。
智能记忆与管理：
- 对话持久化：虽然长期记忆功能暂时移除（计划回归），但聊天记录持久化存储允许用户随时恢复之前的对话，不丢失互动上下文。
- 主动说话：AI 具备主动发起对话的能力，而非仅被动响应。
高度可扩展的后端架构：
- 模块化设计：LLM、ASR、TTS 模块解耦，用户可通过修改配置文件 conf.yaml 自由切换不同服务商或本地模型，无需修改代码。
- Agent 扩展：支持继承和实现 Agent 接口，可集成 HumeAI EVI、OpenAI Her、Mem0 等先进架构。

亮点 / 与同类相比

极致的模型兼容性：
- LLM：支持 Ollama、OpenAI (及兼容 API)、Gemini、Claude、Mistral、DeepSeek、智谱 AI、GGUF、LM Studio、vLLM 等。
- ASR：集成 sherpa-onnx、FunASR、Faster-Whisper、Whisper.cpp、Groq Whisper、Azure ASR 等。
- TTS：支持 sherpa-onnx、pyttsx3、MeloTTS、Coqui-TTS、GPTSoVITS、Bark、CosyVoice、Edge TTS、Fish Audio、Azure TTS 等。
- 这种广泛的兼容性意味着用户可以根据硬件性能（CPU/GPU）和偏好，灵活选择最合适的模型组合，无论是追求极致速度的本地小模型，还是追求高质量云端 API 均可。
独特的“桌面宠物”交互范式：
- 相比单纯的 Web 聊天界面，其桌面客户端提供的“宠物模式”提供了更强的陪伴感。结合 Live2D 的表情映射（Emotion Mapping），AI 的情绪变化直观可见。
高级语音交互特性：
- 无耳机语音打断：支持在不开耳机的情况下进行语音交互，AI 不会听到自己的回声，解决了传统语音助手常见的啸叫或误触发问题。
- TTS 翻译支持：支持语音与语言分离，例如用户用中文聊天，AI 可以使用日语声音回答，实现跨语言的角色扮演体验。
完全离线与本地化：
- 与大多数必须联网的 AI 助手不同，Open-LLM-VTuber 的核心优势在于其强大的离线运行能力，所有组件均可在本地部署，不依赖外部互联网连接。

适合谁用 / 上手

适合人群：

AI 爱好者与开发者：希望探索 LLM 与语音、视觉结合的前沿应用，或对 Agent 架构感兴趣的技术人员。
隐私倡导者：对数据隐私有极高要求，不希望对话数据上传至云端的用户。
虚拟陪伴需求者：希望拥有个性化虚拟伴侣（如虚拟女友/男友、宠物、特定角色）的用户，享受情感陪伴。
多平台用户：需要在 Windows、macOS 或 Linux 环境下运行本地 AI 应用的用户。

上手指南与注意事项：

安装准备：
- 推荐使用 uv 进行依赖管理。
- 需安装 ffmpeg 等额外工具。
- 若需远程访问（如在手机上访问电脑上的服务），必须配置 HTTPS（因为浏览器麦克风仅在安全上下文/HTTPS 或 localhost 下可用），建议使用反向代理。
版本更新警告：
- v1.0.0 存在破坏性更新：配置文件 conf.yaml 不兼容，大部分依赖需使用 uv 重新安装。建议从旧版本升级的用户参考最新部署指南重新部署。
- 若已安装 v1.0.0 之后版本，请使用 uv run update.py 进行更新。
资源管理：
- 大部分文件和模型存储在项目文件夹内。
- 通过 ModelScope 或 Hugging Face 下载的模型可能存储在 MODELSCOPE_CACHE 或 HF_HOME 环境变量指定的目录中，建议检查并统一整理至项目的 models 目录。
模型许可：
- 项目包含由 Live2D Inc. 提供的 Live2D 示例模型。这些资产遵循独立的 Live2D Free Material License Agreement，不受项目 MIT 许可证保护。
- 商业用途注意：若计划用于商业场景（尤其是中大型企业），需确保获得 Live2D Inc. 的额外许可，或使用不含这些示例模型的项目版本。
社区支持：
- 常见问题文档（中文）：https://docs.qq.com/pdf/DTFZGQXdTUXhIYWRq
- 开发者社区（Zulip）：参与 v2.0 讨论及获取每周会议日程。

查看原文 →github.com