GitHub 热榜GitHub Trending · 日·1 小时前

video-use：基于编程代理的视频编辑工具

原标题：browser-use/video-use

Python★ 10,673 stars+186 今日

速览

该项目通过集成编程代理（Coding Agents）技术，允许用户通过自然语言指令或代码来自动化复杂的视频编辑流程。它简化了传统视频剪辑中繁琐的手动操作，适用于需要批量处理、自动化生成或精确控制视频内容的场景。

AI 深度解读

这是什么

video-use 是一个基于 Python 的开源项目，由知名 AI 代理框架 browser-use 团队开发。它的核心理念是将大语言模型（LLM）的能力引入视频编辑领域，通过自然语言对话驱动视频剪辑流程。

该项目并非传统的视频编辑软件，而是一个“代理技能（Skill）”。它允许用户将原始素材放入文件夹，通过 Claude Code、Codex、Hermes 或 Openclaw 等具备 Shell 访问权限的 AI 代理进行交互。用户只需下达指令（如“把这些剪辑成发布视频”），代理即可自动完成从转录、剪辑、调色、字幕生成到自我评估的全套流程，最终输出 final.mp4。

解决的问题

传统视频编辑工作流存在以下痛点，video-use 旨在解决这些问题：

繁琐的重复性操作：手动剔除口误（如 "umm", "uh"）、假开头和镜头间的死寂空间耗时且枯燥。
技术门槛高：自动色彩分级（Color Grading）、音频淡入淡出（Audio Fades）、字幕样式定制等通常需要复杂的 ffmpeg 命令或专业软件操作。
上下文缺失与效率低下：传统工具难以理解视频内容的语义。video-use 通过结构化数据让 LLM “阅读”视频，而非盲目处理像素，从而在语义层面进行精准剪辑。
会话记忆断层：通过 project.md 持久化会话记忆，解决跨天或跨次编辑时上下文丢失的问题，使编辑过程具有连续性。

核心功能

语义级自动剪辑：基于 ElevenLabs Scribe 提供的单词级时间戳、说话人分离（Speaker Diarization）及音频事件（笑声、掌声、叹息），精准识别并切除填充词和停顿。
自动化后期处理：
- 自动调色：支持暖色调电影感、中性冲击力或自定义 ffmpeg 链。
- 音频平滑：在每个剪辑点自动应用 30ms 音频淡入淡出，消除爆音（Pop）。
- 动态字幕：默认生成 2 词大写块状字幕，支持完全自定义样式。
并行动画生成：通过 HyperFrames、Remotion、Manim 或 PIL 生成动画叠加层，由独立的子代理并行处理。
双层视频理解机制：
- Layer 1（音频转录）：始终加载，生成约 12KB 的 takes_packed.md 结构化文本，包含时间戳、说话人和语义内容，作为 LLM 的主要阅读视图。
- Layer 2（视觉合成）：按需调用，生成包含胶片条、波形图和单词标签的 PNG 图像，仅在决策点（如模糊停顿、重拍对比）用于视觉校验。
自我评估循环（Self-Eval）：在渲染输出前，代理会在每个剪辑边界运行 timeline_view 检查视觉跳跃、音频爆音或隐藏字幕错误。只有通过后才会展示预览，若发现问题则自动修复并重渲染（最多 3 次）。
持久化会话：所有编辑策略和状态保存在 project.md 中，支持中断后继续。

亮点 / 与同类相比

“阅读”而非“观看”视频：与 naive 方法（将 30,000 帧视频转为图像，产生 45M tokens 的噪声）不同，video-use 借鉴了 browser-use 将网页 DOM 结构化给 LLM 的思路，将视频转化为“文本 + 按需视觉图”的结构。LLM 处理的是 12KB 的文本和少量 PNG，极大降低了 Token 消耗并提高了推理精度。
音频优先策略：剪辑逻辑基于语音边界和静音间隙，视觉辅助仅为验证手段。这符合人类编辑直觉，即先理清叙事节奏，再调整画面。
零预设，高灵活性：不依赖预设模板或菜单，适用于Talking Heads、蒙太奇、教程、旅行 vlog、采访等多种内容类型。遵循“12 条硬性规则（生产正确性）+ 其余艺术自由”的原则。
代理驱动工作流：不同于静态脚本，它通过代理（Agent）与用户交互，遵循 Ask → Confirm → Execute → Self-Eval → Persist 的流程，确保每一步剪辑都有策略批准。

适合谁用 / 上手

适合人群：

熟练使用 Claude Code、Codex 等 AI 编程代理的内容创作者。
希望自动化处理重复性剪辑任务（如去口误、加字幕）的 YouTuber、播客主或教程制作者。
对 ffmpeg 有一定了解，希望将视频编辑脚本化的开发者。

上手指南：

环境准备：

git clone https://github.com/browser-use/video-use ~/Developer/video-use
cd ~/Developer/video-use
uv sync # 或 pip install -e .
brew install ffmpeg # 必需
brew install yt-dlp # 可选，用于下载在线源

技能注册：将项目符号链接到代理的技能目录（以 Claude Code 为例）：
```
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use
```
配置 API Key：复制 .env.example 为 .env，并填入 ElevenLabs API Key（用于高精度转录）：
```
cp .env.example .env
$EDITOR .env # 填入 ELEVENLABS_API_KEY=...
```
开始使用：将原始视频素材放入文件夹，启动代理（如 claude），代理会提示你确认安装和 API 密钥。随后，你可以直接输入自然语言指令，如 edit these into a launch video，代理将自动执行后续步骤。

注意：安装完成后，代理不会自动转录，需等待用户将素材放入指定文件夹后，由代理发起转录请求。

查看原文 →github.com