Agent SkillLINUX DO · AI·2 小时前

开源Skill：批量下载视频并本地转写文案

原标题：看世界杯分析视频太晕了直接做了个skill来提文案

速览

该开源项目提供批量下载抖音、B站、小红书公开视频的功能，并利用faster-whisper在本地进行语音转文字处理。工具无需API依赖，支持自动繁简转换及结构化JSON/TXT输出，可直接作为AI Agent Skill集成。

AI 深度解读

背景

随着世界杯等热门体育赛事的临近，各类赛前分析、战术解读视频在社交媒体上大量涌现。对于希望快速吸收信息或进行资料整理的用户而言，面对海量的视频内容，手动观看不仅耗时，且容易因信息过载产生“头晕”感。传统的文字提取方式往往依赖第三方 API 服务，存在成本高昂、数据隐私泄露或网络依赖性强等问题。

在此背景下，一位开发者针对这一具体痛点，开发了一款名为“Playwright 拦截 + Whisper 转写”的 Skill 工具。该工具旨在通过自动化流程，将抖音、B站、小红书等平台的公开视频转化为本地可处理的文本资料，实现从视频到结构化文案的零 API 依赖转换，便于用户利用 LLM（大语言模型）进行后续的内容总结、笔记整理或个人归档。

核心内容

该工具的核心逻辑在于构建一个端到端的自动化工作流，将视频下载、音频提取与语音转文字（ASR）环节无缝衔接，并强调“本地化”与“开源”属性。

1. 技术架构与流程 整个工作流分为以下几个关键步骤：

视频解析与下载：利用 Playwright 浏览器自动化工具拦截并解析抖音、B站、小红书等平台的公开视频链接，实现批量视频下载。
音频提取：使用 ffmpeg 从下载的视频文件中分离出音频轨道。
本地语音转写：调用 faster-whisper 模型在本地设备上进行语音转文字处理。这一步骤无需依赖外部云服务，保障了数据隐私并降低了长期运行成本。
后处理与输出：自动将繁体中文转换为简体中文，并将最终结果输出为结构化的 JSON 格式和纯文本 TXT 文件。

2. 功能特性

多平台支持：兼容抖音、B站、小红书三大主流视频平台。
零 API 依赖：全程本地运行，无需购买任何第三方语音识别 API 服务。
灵活集成：既可以通过 CLI（命令行界面）直接调用，也可以作为 Claude Code 或通用 Agent Skill 集成到 AI Agent 工作流中，实现智能化的内容摘要与分析。

3. 开源与合规声明 项目作者已在 LINUX DO 社区发布，并明确标注为“开源推广”。作者承诺项目完全开源，无未开源部分，且已链接认可社区。此外，作者声明帖子内的 AI 生成及润色内容已截图公示，接受社区监督，体现了对社区规范的严格遵守。

关键要点

痛点解决：针对世界杯期间海量分析视频带来的信息过载问题，提供自动化的文案提取方案。
技术栈组合：
- Playwright：用于处理动态网页的视频链接解析与下载。
- ffmpeg：用于音视频分离。
- faster-whisper：用于高效、低资源的本地语音识别。
数据隐私与成本：通过本地化部署 faster-whisper，实现了“零 API 依赖”，避免了数据上传云端的风险，同时消除了按次付费的成本压力。
输出标准化：输出 JSON 和 TXT 两种格式，JSON 便于程序进一步处理（如注入 LLM 上下文），TXT 便于人工阅读。
应用场景：不仅限于视频搬运，更侧重于将公开视频转化为学习笔记、资料整理、内容摘要和个人归档等深度使用场景。
社区互动：项目目前处于早期测试阶段，作者邀请社区用户帮忙测试稳定性与兼容性。

意义与影响

该工具的出现反映了当前 AI 应用开发的一个重要趋势：从“云端黑盒”向“本地可控”回归。

首先，它降低了普通用户利用 AI 处理多媒体内容的门槛。以往，将视频转为文字往往需要订阅昂贵的云服务或具备复杂的编程能力，而该工具通过封装 Playwright 和 faster-whisper，提供了一键式的解决方案。

其次，它强调了数据主权。在隐私意识日益增强的今天，能够本地处理敏感或私人资料（如学习笔记、内部归档）的工具更具吸引力。零 API 依赖的设计使得用户完全掌控数据流向，避免了潜在的数据泄露风险。

最后，作为 Agent Skill 的示例，它为 AI Agent 的生态建设提供了参考。通过将视频处理这一特定任务封装为 Skill，AI Agent 可以像调用 API 一样调用本地工具，极大地扩展了 Agent 处理非结构化数据（如视频、音频）的能力，推动了 AI 从单纯的文本交互向多模态内容处理的演进。

查看原文 →linux.do

开源Skill：批量下载视频并本地转写文案

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐