← 返回信息流
Agent SkillLINUX DO · AI·2026/4/21

DeLive 2.0开源发布:从转录工具升级为AI转录工作台

原标题:【开源自荐】DeLive 2.0 —— 从「字幕转录工具」到「AI 转录工作台」

速览

DeLive 2.0是一款开源的AI转录工作台,旨在解决转录后数据孤岛问题。它支持Windows、macOS和Linux平台,集成Soniox、火山引擎等6种ASR后端。项目内置MCP Server和Agent Skill,可直接对接Cherry Studio、Claude Code等AI工具,实现转录内容的自动化分析与处理。

AI 深度解读

DeLive 2.0:从字幕转录到 AI 工作台的进化

背景

在观看视频、直播或在线课程时,许多用户面临一个共同的痛点:平台通常不提供字幕导出功能。虽然早期的工具(如 DeLive 1.0 版本)解决了“实时将系统音频转为文字”这一基础需求,但用户在使用流程中发现了新的断点。

转录完成后,数据往往处于孤立状态。用户需要手动复制文本,切换到 AI 对话窗口(如 ChatGPT 或 Claude),再次粘贴并提问。这种割裂的操作流程不仅效率低下,也阻碍了 AI 对原始音频数据的深度利用。DeLive 2.0 的诞生正是为了解决这一“数据孤岛”问题,旨在构建一个从捕获、转录到 AI 处理的闭环工作台。

核心内容

DeLive 2.0 并非简单的功能迭代,而是基于新核心思路的重写版本。其核心逻辑是将“捕获 → 转录 → AI 处理 → 对外开放 MCP/Skill 接口调用”整合在一个统一的应用中。

1. 跨平台支持

DeLive 2.0 实现了真正的跨平台覆盖:

  • Windows:作为稳定版提供。
  • macOS / Linux:目前处于测试版阶段,但已具备可用性。

2. 多元化的 ASR(自动语音识别)后端

为了满足不同场景下的精度、延迟和成本需求,DeLive 2.0 集成了 6 种 ASR 后端服务:

  • Soniox:流式转录性能顶尖,支持翻译及说话人识别。
  • 火山引擎:在中文识别上表现最强,延迟低,且提供 20 小时的免费额度。
  • Groq:基于 Whisper 模型,以低成本甚至免费著称。
  • SiliconFlow:支持国内多模态模型,适合拥有相关资源的用户。
  • 本地 whisper.cpp:完全离线运行,零费用,保障隐私。
  • OpenAI-compatible:兼容 Ollama、OpenAI 兼容接口等服务,扩展性强。

3. AI 回顾与复盘工作台

除了基础的转录,2.0 版本引入了专门的 AI 回顾功能,帮助用户对转录内容进行结构化整理和深度分析。

4. 悬浮字幕升级

悬浮字幕功能进行了优化,提升了在观看视频时的实时辅助体验。

5. 数据备份能力

支持 S3 和 WebDAV 协议,允许用户将转录数据备份到云端或私有存储,确保数据安全。

6. MCP Server 与 Agent Skill(核心创新)

这是 DeLive 2.0 最具差异化的部分,旨在实现 AI Agent 与本地数据的无缝连接。

  • MCP Server 集成: DeLive 内置了 MCP (Model Context Protocol) Server。配置完成后,用户可以直接在 Cherry Studio、Cursor、Claude Code 等 AI 客户端中向 Agent 提问。例如,询问“把今天下午的讲座转录内容提炼成提纲”或“这段转录稿里最终决定用哪个方案?”。 Agent 会直接调用 DeLive 提供的工具接口(如 search_transcriptsget_sessionget_session_summary),从本地数据库拉取数据进行处理,全程无需用户手动复制粘贴。

  • Agent Skill 机制: 项目内置了 SKILL.md 文件。当安装 Skill 到 Claude Code 或 Cursor 等 Agent 环境时,这些文件会指导 AI 如何正确地与 DeLive 配合工作,定义了交互规范和工具使用逻辑。

关键要点

  • 解决数据孤岛:DeLive 2.0 的核心价值在于打通了“音频转录”与“AI 分析”之间的壁垒,实现了工作流的自动化。
  • MCP 协议落地:通过内置 MCP Server,DeLive 成为 AI Agent 可感知、可调用的本地数据源,极大提升了 Agent 处理本地多媒体数据的能力。
  • 灵活的后端选择:提供从云端高性能(Soniox、火山引擎)到本地离线(whisper.cpp)的全谱系 ASR 后端,兼顾了精度、速度和隐私需求。
  • 跨平台与开源:项目完全开源,无未开源部分,并支持 Windows、macOS 和 Linux,符合社区推广规范。
  • 工具接口标准化:通过 search_transcripts 等标准化接口,使得其他 AI 应用可以轻松集成 DeLive 的转录数据。

意义与影响

DeLive 2.0 的发布标志着本地音频转录工具从“单一功能软件”向“AI 基础设施组件”的转变。

首先,它顺应了 AI Agent 时代对本地数据访问的需求。随着 MCP 等协议的普及,AI 不再仅仅依赖云端 API,而是能够安全、高效地访问用户的本地文件和数据。DeLive 通过内置 MCP Server,为 AI 应用提供了一个标准化的本地音频数据入口。

其次,它优化了知识工作者的工作流。对于需要大量观看视频课程、会议记录或直播内容的用户来说,DeLive 2.0 将原本需要多步手动操作的任务(转录、复制、粘贴、提问)简化为一次自然的对话交互,显著提升了信息获取和处理的效率。

最后,其开源属性和多元化的后端支持,降低了用户构建个性化 AI 工作流的门槛,促进了本地 AI 应用生态的多样化发展。

查看原文 →linux.do