← 返回信息流
Agent SkillLINUX DO · AI·2 小时前

开源Mimo视频剪辑Skill:全流程自动化并支持导出剪映

原标题:mimo token用不完?来跑解说视频剪辑,skill完全开源无其他依赖,可导出到剪映

速览

该开源项目提供了一套完整的视频解说生成工作流,仅需ffmpeg和Mimo模型全家桶即可运行。流程涵盖场景切分、ASR转写、VLM画面理解、解说词撰写、TTS配音及动态混音,最终输出带字幕成片。此外,项目还支持将工程文件导出至剪映,方便用户进行二次编辑。

AI 深度解读

背景

在当前的 AI 视频创作工作流中,许多创作者面临着“Token 焦虑”的问题。无论是使用大语言模型生成脚本,还是依赖视觉语言模型(VLM)理解画面,高昂的 API 调用成本或有限的免费额度往往限制了创作的频率和复杂度。传统的视频剪辑辅助工具通常功能单一,要么只能做字幕,要么只能做配音,难以实现从原始视频到带解说、字幕、混音成片的自动化全流程。

此外,开源社区中虽然存在各类 AI 工具,但缺乏一种能够无缝衔接本地处理与主流剪辑软件(如剪映)的标准化工作流。用户往往需要在多个工具间反复导出导入,效率低下。在此背景下,LINUX DO 社区分享了一套基于 mimo 全家桶的开源解决方案,旨在通过本地化部署和开源协议,降低 AI 视频制作的门槛和成本,实现“零 Token 消耗”或极低成本的自动化视频解说生成。

核心内容

该项目核心是一个名为 video-recap-skills 的 Claude Code 插件,它构建了一个端到端的自动化视频解说生成工作流。该工作流完全依赖 ffmpeg 以及 mimo-2.5-promimo-2.5mimo-2.5-ttsmimo-2.5-asr 这一整套 mimo 系列模型,无需依赖其他外部闭源服务或额外的 Token 消耗。

整个自动化流程包含以下关键步骤:

  1. 场景切分:利用工具自动识别视频中的场景变化,将长视频分割为逻辑片段。
  2. ASR 转写:使用 mimo-2.5-asr 将视频中的原始音频转换为文字文本。
  3. 视觉理解:通过 mimo-2.5-promimo-2.5 等视觉语言模型分析画面内容,结合剧情背景理解视频语义。
  4. 解说词生成:基于画面理解和背景信息,自动生成匹配画面的解说文案。
  5. TTS 配音:利用 mimo-2.5-tts 将生成的解说词转换为语音音频。
  6. 后期合成:自动添加字幕,并进行动态混音,将背景音乐、原声、配音和音效进行合理混合。
  7. 成片输出:最终输出一条包含字幕、配音和混音效果的完整视频文件。

用户只需在 Claude Code 环境中安装该插件,将视频文件路径(如 /path/to/video.mp4)及简单的剧情背景(例如:“这是《庆余年》第一集,主角是范闲”)输入即可。系统会自动执行上述所有步骤。此外,该工作流还特别支持将中间工程文件导出至剪映(JianYing),方便用户进行后续的精细化手动调整。

关键要点

  • 零 Token 依赖:整个流程仅依赖本地运行的 mimo 系列模型和 ffmpeg,彻底解决了因 API Token 耗尽或费用高昂导致的创作中断问题。
  • 全链路自动化:实现了从视频输入到成片输出的全自动化,涵盖场景切分、语音识别、视觉理解、文案生成、语音合成、字幕添加及动态混音,无需人工干预中间环节。
  • 开源与合规:项目完全开源,无未开源部分,已在 LINUX DO 社区获得认可并打上“开源推广”标签,符合社区推广规范,接受社区监督。
  • 剪映兼容:支持导出工程文件到剪映,兼顾了自动化效率与专业剪辑软件的灵活性,满足了不同层次用户的需求。
  • 易用性:通过 Claude Code 插件形式封装,用户只需提供视频路径和简短背景描述即可启动任务,大幅降低了技术使用门槛。
  • 模型全家桶协同:深度整合了 mimo-2.5-promimo-2.5mimo-2.5-ttsmimo-2.5-asr,利用不同模型在各自领域的优势(如视觉理解、文本生成、语音合成、语音识别)实现最佳效果。

意义与影响

该项目的发布对 AI 视频创作领域具有多重积极意义:

  1. 降低创作成本与门槛:通过完全本地化和开源的方式,消除了对昂贵 API 服务的依赖,使得个人创作者和小团队能够以极低的成本进行高质量的 AI 视频解说制作,推动了 AI 视频工具的普及。
  2. 提升工作流效率:将原本需要多个独立工具串联、人工频繁介入的复杂流程整合为一个自动化插件,显著缩短了从原始素材到成片的周期,提高了内容生产的效率。
  3. 促进开源生态发展:作为在 LINUX DO 社区推广的开源项目,它展示了开源 AI 工具在实际应用中的潜力和价值,鼓励更多开发者参与开源视频处理工具的构建和优化。
  4. 增强用户控制权:本地化运行意味着用户数据无需上传至第三方云端,提升了隐私安全性。同时,导出到剪映的功能保留了用户对最终作品的控制权,平衡了自动化与个性化需求。
  5. 验证多模型协同范式:该项目成功展示了如何协同使用多个专用 AI 模型(ASR、VLM、TTS、LLM)来解决复杂的跨模态任务,为后续类似工作流的设计提供了可借鉴的范例。
查看原文 →linux.do