video-use:基于编程代理的视频编辑工具
原标题:browser-use/video-use
Python★ 10,673 stars+186 今日
速览
该项目通过集成编程代理(Coding Agents)技术,允许用户通过自然语言指令或代码来自动化复杂的视频编辑流程。它简化了传统视频剪辑中繁琐的手动操作,适用于需要批量处理、自动化生成或精确控制视频内容的场景。
AI 深度解读
这是什么
video-use 是一个基于 Python 的开源项目,由知名 AI 代理框架 browser-use 团队开发。它的核心理念是将大语言模型(LLM)的能力引入视频编辑领域,通过自然语言对话驱动视频剪辑流程。
该项目并非传统的视频编辑软件,而是一个“代理技能(Skill)”。它允许用户将原始素材放入文件夹,通过 Claude Code、Codex、Hermes 或 Openclaw 等具备 Shell 访问权限的 AI 代理进行交互。用户只需下达指令(如“把这些剪辑成发布视频”),代理即可自动完成从转录、剪辑、调色、字幕生成到自我评估的全套流程,最终输出 final.mp4。
解决的问题
传统视频编辑工作流存在以下痛点,video-use 旨在解决这些问题:
- 繁琐的重复性操作:手动剔除口误(如 "umm", "uh")、假开头和镜头间的死寂空间耗时且枯燥。
- 技术门槛高:自动色彩分级(Color Grading)、音频淡入淡出(Audio Fades)、字幕样式定制等通常需要复杂的
ffmpeg命令或专业软件操作。 - 上下文缺失与效率低下:传统工具难以理解视频内容的语义。
video-use通过结构化数据让 LLM “阅读”视频,而非盲目处理像素,从而在语义层面进行精准剪辑。 - 会话记忆断层:通过
project.md持久化会话记忆,解决跨天或跨次编辑时上下文丢失的问题,使编辑过程具有连续性。
核心功能
- 语义级自动剪辑:基于 ElevenLabs Scribe 提供的单词级时间戳、说话人分离(Speaker Diarization)及音频事件(笑声、掌声、叹息),精准识别并切除填充词和停顿。
- 自动化后期处理:
- 自动调色:支持暖色调电影感、中性冲击力或自定义
ffmpeg链。 - 音频平滑:在每个剪辑点自动应用 30ms 音频淡入淡出,消除爆音(Pop)。
- 动态字幕:默认生成 2 词大写块状字幕,支持完全自定义样式。
- 自动调色:支持暖色调电影感、中性冲击力或自定义
- 并行动画生成:通过
HyperFrames、Remotion、Manim或PIL生成动画叠加层,由独立的子代理并行处理。 - 双层视频理解机制:
- Layer 1(音频转录):始终加载,生成约 12KB 的
takes_packed.md结构化文本,包含时间戳、说话人和语义内容,作为 LLM 的主要阅读视图。 - Layer 2(视觉合成):按需调用,生成包含胶片条、波形图和单词标签的 PNG 图像,仅在决策点(如模糊停顿、重拍对比)用于视觉校验。
- Layer 1(音频转录):始终加载,生成约 12KB 的
- 自我评估循环(Self-Eval):在渲染输出前,代理会在每个剪辑边界运行
timeline_view检查视觉跳跃、音频爆音或隐藏字幕错误。只有通过后才会展示预览,若发现问题则自动修复并重渲染(最多 3 次)。 - 持久化会话:所有编辑策略和状态保存在
project.md中,支持中断后继续。
亮点 / 与同类相比
- “阅读”而非“观看”视频:
与 naive 方法(将 30,000 帧视频转为图像,产生 45M tokens 的噪声)不同,
video-use借鉴了browser-use将网页 DOM 结构化给 LLM 的思路,将视频转化为“文本 + 按需视觉图”的结构。LLM 处理的是 12KB 的文本和少量 PNG,极大降低了 Token 消耗并提高了推理精度。 - 音频优先策略: 剪辑逻辑基于语音边界和静音间隙,视觉辅助仅为验证手段。这符合人类编辑直觉,即先理清叙事节奏,再调整画面。
- 零预设,高灵活性: 不依赖预设模板或菜单,适用于Talking Heads、蒙太奇、教程、旅行 vlog、采访等多种内容类型。遵循“12 条硬性规则(生产正确性)+ 其余艺术自由”的原则。
- 代理驱动工作流:
不同于静态脚本,它通过代理(Agent)与用户交互,遵循
Ask → Confirm → Execute → Self-Eval → Persist的流程,确保每一步剪辑都有策略批准。
适合谁用 / 上手
适合人群:
- 熟练使用
Claude Code、Codex等 AI 编程代理的内容创作者。 - 希望自动化处理重复性剪辑任务(如去口误、加字幕)的 YouTuber、播客主或教程制作者。
- 对
ffmpeg有一定了解,希望将视频编辑脚本化的开发者。
上手指南:
- 环境准备:
git clone https://github.com/browser-use/video-use ~/Developer/video-use cd ~/Developer/video-use uv sync # 或 pip install -e . brew install ffmpeg # 必需 brew install yt-dlp # 可选,用于下载在线源 - 技能注册:
将项目符号链接到代理的技能目录(以 Claude Code 为例):
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use - 配置 API Key:
复制
.env.example为.env,并填入 ElevenLabs API Key(用于高精度转录):cp .env.example .env $EDITOR .env # 填入 ELEVENLABS_API_KEY=... - 开始使用:
将原始视频素材放入文件夹,启动代理(如
claude),代理会提示你确认安装和 API 密钥。随后,你可以直接输入自然语言指令,如edit these into a launch video,代理将自动执行后续步骤。
注意:安装完成后,代理不会自动转录,需等待用户将素材放入指定文件夹后,由代理发起转录请求。
查看原文 →github.com
