← 返回信息流
GitHub 热榜GitHub Trending · 日·2 天前

Open-LLM-VTuber:本地部署的AI虚拟主播交互系统

原标题:Open-LLM-VTuber/Open-LLM-VTuber
Python8,179 stars+65 今日

速览

该项目允许用户将任意大语言模型接入Live2D虚拟形象,实现跨平台的本地化语音对话。其核心亮点包括免提语音交互、实时语音打断以及隐私安全的本地部署能力,适用于AI角色扮演、虚拟陪伴及个性化助手场景。

AI 深度解读

这是什么

Open-LLM-VTuber 是一个基于 Python 开发的开源项目,旨在打造一款完全可离线运行的个人 AI 虚拟伴侣。它集成了大语言模型(LLM)、语音识别(ASR)、语音合成(TTS)以及 Live2D 视觉表现技术,让用户能够拥有具备实时语音对话、视觉感知能力且形象生动的 AI 角色。

该项目最初的开发目标是利用开源方案在非 Windows 平台上复刻闭源的 AI Vtuber neuro-sama,因此得名。目前项目主要语言为 Python,在 GitHub 上拥有极高的关注度(★8179+)。它支持 Windows、macOS 和 Linux 三大主流操作系统,提供 Web 端和桌面客户端两种使用形态,其中桌面客户端特别支持“桌面宠物模式”,允许 AI 角色以透明背景悬浮在屏幕任意位置。

值得注意的是,项目团队正在全力开发 v2.0 版本,目前 v2.0 处于早期讨论和规划阶段,代码库正在进行全面重写。对于 v1.x 版本,团队仅进行 Bug 修复和处理现有的 Pull Request,新功能请求建议前往 Zulip 开发者社区参与 v2.0 的讨论。

解决的问题

  1. 隐私与数据安全问题:传统的 AI 助手通常依赖云端 API,用户对话数据需上传至服务器。Open-LLM-VTuber 支持完全本地化部署,所有推理、语音处理均在本地设备完成,确保对话内容不出本机,满足对隐私高度敏感用户的需求。
  2. 交互体验单一化:普通 LLM 聊天机器人仅具备文本交互能力,缺乏情感连接。该项目通过 Live2D 动态形象、语音交互以及视觉感知,解决了人机交互中“冷冰冰”的问题,提供了更接近真实陪伴的情感体验。
  3. 跨平台与离线可用性:许多高性能 AI 应用受限于操作系统或网络环境。该项目实现了跨平台兼容,并支持在无网络环境下运行,解决了依赖特定硬件或网络条件的痛点。
  4. 定制化需求缺失:通用 AI 产品难以满足用户个性化的角色设定(如外貌、性格、声音)。该项目提供了高度的模块化配置和角色定制指南,允许用户深度自定义 AI 伴侣的外观和人格。

核心功能

  • 多模态交互
    • 实时语音对话:支持低延迟的语音输入与输出,实现流畅的自然对话。
    • 视觉感知:支持调用摄像头、屏幕录制或截图,使 AI 能够“看见”用户或当前屏幕内容,增强上下文理解能力。
    • 触觉反馈:支持通过点击或拖拽 Live2D 模型进行互动。
  • 沉浸式桌面体验
    • 桌面宠物模式:支持透明背景、全局置顶和鼠标穿透,AI 角色可跟随鼠标移动,成为屏幕上的常驻伴侣。
    • 内心独白显示:可在界面上显示 AI 的内心想法、表情和动作,而不必通过语音说出来,增加角色层次感。
  • 智能记忆与管理
    • 对话持久化:虽然长期记忆功能暂时移除(计划回归),但聊天记录持久化存储允许用户随时恢复之前的对话,不丢失互动上下文。
    • 主动说话:AI 具备主动发起对话的能力,而非仅被动响应。
  • 高度可扩展的后端架构
    • 模块化设计:LLM、ASR、TTS 模块解耦,用户可通过修改配置文件 conf.yaml 自由切换不同服务商或本地模型,无需修改代码。
    • Agent 扩展:支持继承和实现 Agent 接口,可集成 HumeAI EVI、OpenAI Her、Mem0 等先进架构。

亮点 / 与同类相比

  1. 极致的模型兼容性

    • LLM:支持 Ollama、OpenAI (及兼容 API)、Gemini、Claude、Mistral、DeepSeek、智谱 AI、GGUF、LM Studio、vLLM 等。
    • ASR:集成 sherpa-onnx、FunASR、Faster-Whisper、Whisper.cpp、Groq Whisper、Azure ASR 等。
    • TTS:支持 sherpa-onnx、pyttsx3、MeloTTS、Coqui-TTS、GPTSoVITS、Bark、CosyVoice、Edge TTS、Fish Audio、Azure TTS 等。
    • 这种广泛的兼容性意味着用户可以根据硬件性能(CPU/GPU)和偏好,灵活选择最合适的模型组合,无论是追求极致速度的本地小模型,还是追求高质量云端 API 均可。
  2. 独特的“桌面宠物”交互范式

    • 相比单纯的 Web 聊天界面,其桌面客户端提供的“宠物模式”提供了更强的陪伴感。结合 Live2D 的表情映射(Emotion Mapping),AI 的情绪变化直观可见。
  3. 高级语音交互特性

    • 无耳机语音打断:支持在不开耳机的情况下进行语音交互,AI 不会听到自己的回声,解决了传统语音助手常见的啸叫或误触发问题。
    • TTS 翻译支持:支持语音与语言分离,例如用户用中文聊天,AI 可以使用日语声音回答,实现跨语言的角色扮演体验。
  4. 完全离线与本地化

    • 与大多数必须联网的 AI 助手不同,Open-LLM-VTuber 的核心优势在于其强大的离线运行能力,所有组件均可在本地部署,不依赖外部互联网连接。

适合谁用 / 上手

适合人群:

  • AI 爱好者与开发者:希望探索 LLM 与语音、视觉结合的前沿应用,或对 Agent 架构感兴趣的技术人员。
  • 隐私倡导者:对数据隐私有极高要求,不希望对话数据上传至云端的用户。
  • 虚拟陪伴需求者:希望拥有个性化虚拟伴侣(如虚拟女友/男友、宠物、特定角色)的用户,享受情感陪伴。
  • 多平台用户:需要在 Windows、macOS 或 Linux 环境下运行本地 AI 应用的用户。

上手指南与注意事项:

  1. 安装准备

    • 推荐使用 uv 进行依赖管理。
    • 需安装 ffmpeg 等额外工具。
    • 若需远程访问(如在手机上访问电脑上的服务),必须配置 HTTPS(因为浏览器麦克风仅在安全上下文/HTTPS 或 localhost 下可用),建议使用反向代理。
  2. 版本更新警告

    • v1.0.0 存在破坏性更新:配置文件 conf.yaml 不兼容,大部分依赖需使用 uv 重新安装。建议从旧版本升级的用户参考最新部署指南重新部署。
    • 若已安装 v1.0.0 之后版本,请使用 uv run update.py 进行更新。
  3. 资源管理

    • 大部分文件和模型存储在项目文件夹内。
    • 通过 ModelScope 或 Hugging Face 下载的模型可能存储在 MODELSCOPE_CACHEHF_HOME 环境变量指定的目录中,建议检查并统一整理至项目的 models 目录。
  4. 模型许可

    • 项目包含由 Live2D Inc. 提供的 Live2D 示例模型。这些资产遵循独立的 Live2D Free Material License Agreement,不受项目 MIT 许可证保护。
    • 商业用途注意:若计划用于商业场景(尤其是中大型企业),需确保获得 Live2D Inc. 的额外许可,或使用不含这些示例模型的项目版本。
  5. 社区支持

    • 常见问题文档(中文):https://docs.qq.com/pdf/DTFZGQXdTUXhIYWRq
    • 开发者社区(Zulip):参与 v2.0 讨论及获取每周会议日程。
查看原文 →github.com