Agent SkillLINUX DO · AI·2 小时前

开源Mimo视频剪辑Skill：全流程自动化并支持导出剪映

原标题：mimo token用不完？来跑解说视频剪辑，skill完全开源无其他依赖，可导出到剪映

速览

该开源项目提供了一套完整的视频解说生成工作流，仅需ffmpeg和Mimo模型全家桶即可运行。流程涵盖场景切分、ASR转写、VLM画面理解、解说词撰写、TTS配音及动态混音，最终输出带字幕成片。此外，项目还支持将工程文件导出至剪映，方便用户进行二次编辑。

AI 深度解读

背景

在当前的 AI 视频创作工作流中，许多创作者面临着“Token 焦虑”的问题。无论是使用大语言模型生成脚本，还是依赖视觉语言模型（VLM）理解画面，高昂的 API 调用成本或有限的免费额度往往限制了创作的频率和复杂度。传统的视频剪辑辅助工具通常功能单一，要么只能做字幕，要么只能做配音，难以实现从原始视频到带解说、字幕、混音成片的自动化全流程。

此外，开源社区中虽然存在各类 AI 工具，但缺乏一种能够无缝衔接本地处理与主流剪辑软件（如剪映）的标准化工作流。用户往往需要在多个工具间反复导出导入，效率低下。在此背景下，LINUX DO 社区分享了一套基于 mimo 全家桶的开源解决方案，旨在通过本地化部署和开源协议，降低 AI 视频制作的门槛和成本，实现“零 Token 消耗”或极低成本的自动化视频解说生成。

核心内容

该项目核心是一个名为 video-recap-skills 的 Claude Code 插件，它构建了一个端到端的自动化视频解说生成工作流。该工作流完全依赖 ffmpeg 以及 mimo-2.5-pro、mimo-2.5、mimo-2.5-tts、mimo-2.5-asr 这一整套 mimo 系列模型，无需依赖其他外部闭源服务或额外的 Token 消耗。

整个自动化流程包含以下关键步骤：

场景切分：利用工具自动识别视频中的场景变化，将长视频分割为逻辑片段。
ASR 转写：使用 mimo-2.5-asr 将视频中的原始音频转换为文字文本。
视觉理解：通过 mimo-2.5-pro 或 mimo-2.5 等视觉语言模型分析画面内容，结合剧情背景理解视频语义。
解说词生成：基于画面理解和背景信息，自动生成匹配画面的解说文案。
TTS 配音：利用 mimo-2.5-tts 将生成的解说词转换为语音音频。
后期合成：自动添加字幕，并进行动态混音，将背景音乐、原声、配音和音效进行合理混合。
成片输出：最终输出一条包含字幕、配音和混音效果的完整视频文件。

用户只需在 Claude Code 环境中安装该插件，将视频文件路径（如 /path/to/video.mp4）及简单的剧情背景（例如：“这是《庆余年》第一集，主角是范闲”）输入即可。系统会自动执行上述所有步骤。此外，该工作流还特别支持将中间工程文件导出至剪映（JianYing），方便用户进行后续的精细化手动调整。

关键要点

零 Token 依赖：整个流程仅依赖本地运行的 mimo 系列模型和 ffmpeg，彻底解决了因 API Token 耗尽或费用高昂导致的创作中断问题。
全链路自动化：实现了从视频输入到成片输出的全自动化，涵盖场景切分、语音识别、视觉理解、文案生成、语音合成、字幕添加及动态混音，无需人工干预中间环节。
开源与合规：项目完全开源，无未开源部分，已在 LINUX DO 社区获得认可并打上“开源推广”标签，符合社区推广规范，接受社区监督。
剪映兼容：支持导出工程文件到剪映，兼顾了自动化效率与专业剪辑软件的灵活性，满足了不同层次用户的需求。
易用性：通过 Claude Code 插件形式封装，用户只需提供视频路径和简短背景描述即可启动任务，大幅降低了技术使用门槛。
模型全家桶协同：深度整合了 mimo-2.5-pro、mimo-2.5、mimo-2.5-tts 和 mimo-2.5-asr，利用不同模型在各自领域的优势（如视觉理解、文本生成、语音合成、语音识别）实现最佳效果。

意义与影响

该项目的发布对 AI 视频创作领域具有多重积极意义：

降低创作成本与门槛：通过完全本地化和开源的方式，消除了对昂贵 API 服务的依赖，使得个人创作者和小团队能够以极低的成本进行高质量的 AI 视频解说制作，推动了 AI 视频工具的普及。
提升工作流效率：将原本需要多个独立工具串联、人工频繁介入的复杂流程整合为一个自动化插件，显著缩短了从原始素材到成片的周期，提高了内容生产的效率。
促进开源生态发展：作为在 LINUX DO 社区推广的开源项目，它展示了开源 AI 工具在实际应用中的潜力和价值，鼓励更多开发者参与开源视频处理工具的构建和优化。
增强用户控制权：本地化运行意味着用户数据无需上传至第三方云端，提升了隐私安全性。同时，导出到剪映的功能保留了用户对最终作品的控制权，平衡了自动化与个性化需求。
验证多模型协同范式：该项目成功展示了如何协同使用多个专用 AI 模型（ASR、VLM、TTS、LLM）来解决复杂的跨模态任务，为后续类似工作流的设计提供了可借鉴的范例。

查看原文 →linux.do

开源Mimo视频剪辑Skill：全流程自动化并支持导出剪映

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐