← 返回信息流
GitHub 热榜GitHub Trending · 日·1 小时前

video-use:基于编程代理的视频编辑工具

原标题:browser-use/video-use
Python10,673 stars+186 今日

速览

该项目通过集成编程代理(Coding Agents)技术,允许用户通过自然语言指令或代码来自动化复杂的视频编辑流程。它简化了传统视频剪辑中繁琐的手动操作,适用于需要批量处理、自动化生成或精确控制视频内容的场景。

AI 深度解读

这是什么

video-use 是一个基于 Python 的开源项目,由知名 AI 代理框架 browser-use 团队开发。它的核心理念是将大语言模型(LLM)的能力引入视频编辑领域,通过自然语言对话驱动视频剪辑流程。

该项目并非传统的视频编辑软件,而是一个“代理技能(Skill)”。它允许用户将原始素材放入文件夹,通过 Claude CodeCodexHermesOpenclaw 等具备 Shell 访问权限的 AI 代理进行交互。用户只需下达指令(如“把这些剪辑成发布视频”),代理即可自动完成从转录、剪辑、调色、字幕生成到自我评估的全套流程,最终输出 final.mp4

解决的问题

传统视频编辑工作流存在以下痛点,video-use 旨在解决这些问题:

  1. 繁琐的重复性操作:手动剔除口误(如 "umm", "uh")、假开头和镜头间的死寂空间耗时且枯燥。
  2. 技术门槛高:自动色彩分级(Color Grading)、音频淡入淡出(Audio Fades)、字幕样式定制等通常需要复杂的 ffmpeg 命令或专业软件操作。
  3. 上下文缺失与效率低下:传统工具难以理解视频内容的语义。video-use 通过结构化数据让 LLM “阅读”视频,而非盲目处理像素,从而在语义层面进行精准剪辑。
  4. 会话记忆断层:通过 project.md 持久化会话记忆,解决跨天或跨次编辑时上下文丢失的问题,使编辑过程具有连续性。

核心功能

  • 语义级自动剪辑:基于 ElevenLabs Scribe 提供的单词级时间戳、说话人分离(Speaker Diarization)及音频事件(笑声、掌声、叹息),精准识别并切除填充词和停顿。
  • 自动化后期处理
    • 自动调色:支持暖色调电影感、中性冲击力或自定义 ffmpeg 链。
    • 音频平滑:在每个剪辑点自动应用 30ms 音频淡入淡出,消除爆音(Pop)。
    • 动态字幕:默认生成 2 词大写块状字幕,支持完全自定义样式。
  • 并行动画生成:通过 HyperFramesRemotionManimPIL 生成动画叠加层,由独立的子代理并行处理。
  • 双层视频理解机制
    • Layer 1(音频转录):始终加载,生成约 12KB 的 takes_packed.md 结构化文本,包含时间戳、说话人和语义内容,作为 LLM 的主要阅读视图。
    • Layer 2(视觉合成):按需调用,生成包含胶片条、波形图和单词标签的 PNG 图像,仅在决策点(如模糊停顿、重拍对比)用于视觉校验。
  • 自我评估循环(Self-Eval):在渲染输出前,代理会在每个剪辑边界运行 timeline_view 检查视觉跳跃、音频爆音或隐藏字幕错误。只有通过后才会展示预览,若发现问题则自动修复并重渲染(最多 3 次)。
  • 持久化会话:所有编辑策略和状态保存在 project.md 中,支持中断后继续。

亮点 / 与同类相比

  • “阅读”而非“观看”视频: 与 naive 方法(将 30,000 帧视频转为图像,产生 45M tokens 的噪声)不同,video-use 借鉴了 browser-use 将网页 DOM 结构化给 LLM 的思路,将视频转化为“文本 + 按需视觉图”的结构。LLM 处理的是 12KB 的文本和少量 PNG,极大降低了 Token 消耗并提高了推理精度。
  • 音频优先策略: 剪辑逻辑基于语音边界和静音间隙,视觉辅助仅为验证手段。这符合人类编辑直觉,即先理清叙事节奏,再调整画面。
  • 零预设,高灵活性: 不依赖预设模板或菜单,适用于Talking Heads、蒙太奇、教程、旅行 vlog、采访等多种内容类型。遵循“12 条硬性规则(生产正确性)+ 其余艺术自由”的原则。
  • 代理驱动工作流: 不同于静态脚本,它通过代理(Agent)与用户交互,遵循 Ask → Confirm → Execute → Self-Eval → Persist 的流程,确保每一步剪辑都有策略批准。

适合谁用 / 上手

适合人群:

  • 熟练使用 Claude CodeCodex 等 AI 编程代理的内容创作者。
  • 希望自动化处理重复性剪辑任务(如去口误、加字幕)的 YouTuber、播客主或教程制作者。
  • ffmpeg 有一定了解,希望将视频编辑脚本化的开发者。

上手指南:

  1. 环境准备
    git clone https://github.com/browser-use/video-use ~/Developer/video-use
    cd ~/Developer/video-use
    uv sync # 或 pip install -e .
    brew install ffmpeg # 必需
    brew install yt-dlp # 可选,用于下载在线源
    
  2. 技能注册: 将项目符号链接到代理的技能目录(以 Claude Code 为例):
    ln -sfn ~/Developer/video-use ~/.claude/skills/video-use
    
  3. 配置 API Key: 复制 .env.example.env,并填入 ElevenLabs API Key(用于高精度转录):
    cp .env.example .env
    $EDITOR .env # 填入 ELEVENLABS_API_KEY=...
    
  4. 开始使用: 将原始视频素材放入文件夹,启动代理(如 claude),代理会提示你确认安装和 API 密钥。随后,你可以直接输入自然语言指令,如 edit these into a launch video,代理将自动执行后续步骤。

注意:安装完成后,代理不会自动转录,需等待用户将素材放入指定文件夹后,由代理发起转录请求。

查看原文 →github.com