GitHub 热榜GitHub Trending · 周·7 天前

ViMax：一站式智能视频生成代理（集导演、编剧、制片与生成于一体）

原标题：HKUDS/ViMax

Python★ 7,793 stars+2,466 本周

速览

ViMax 是一个多代理协作系统，整合了导演、编剧、制片人和视频生成器四大角色。它通过自动化脚本编写、镜头规划及视频合成，为用户提供了端到端的智能视频创作体验，适用于需要高效生成高质量叙事性视频的场景。

AI 深度解读

这是什么

ViMax 是由香港大学数据科学实验室（HKUDS）开发的一个多智能体视频生成框架。它不仅仅是一个简单的视频生成工具，而是一个集导演、编剧、制片人和视频生成器于一体的自动化创作系统。

ViMax 的核心逻辑在于将“创意输入”转化为“最终视频”的全流程自动化。通过引入多智能体（Multi-Agent）协作机制，它能够自主完成从剧本撰写、分镜设计、角色创建到最终视频生成的端到端任务。该项目旨在打破传统 AI 视频生成仅能处理短片段、缺乏叙事深度的局限，探索 AI 作为完整创意引擎的未来形态。

解决的问题

传统 AI 视频生成及影视制作流程中存在诸多痛点，ViMax 针对性地解决了以下核心挑战：

时长与一致性瓶颈：大多数 AI 工具只能生成几秒的片段，且角色和场景在帧之间经常发生不可预测的变化。ViMax 致力于解决长视频（分钟甚至小时级）中跨场景的连续性和多分镜设计的复杂性。
参考素材获取困难：手动获取、整理和对齐能准确捕捉角色、物体、位置和环境的参考帧耗时且繁琐。
一致性校验缺失：即使提供了正确的角色和环境参考图，图像生成器仍可能产生不可用的图像，缺乏类似人类创作者的自动校验机制。
叙事结构薄弱：高质量视频需要丰富的信息密度和结构化设计，而现有工具往往缺乏脚本生成、音频处理和叙事结构构建能力。
专业门槛高：将故事转化为视觉叙事需要电影摄影、场景构图和视觉讲故事的专业知识，普通创作者难以掌握。
生产效率低下：传统视频创作涉及多个专家角色和漫长的工作流，阻碍了独立创作者的快速原型制作。

核心功能

ViMax 通过一系列智能代理模块，实现了视频生产的全链路自动化：

智能长剧本生成 (Intelligent Long Script Generation) 基于 RAG（检索增强生成）技术，能够智能分析长篇、小说般的故事情节，并将其自动分割为多场景剧本格式。该过程确保所有关键情节发展和角色对话在新结构中得以准确保留。
表现力分镜设计 (Expressive Storyboard Design) 根据用户需求和目标受众，利用电影语言创建具有表现力的分镜。这不仅建立了后续视频生成的叙事节奏，还解决了从故事到视觉叙事的转化难题。
多机位拍摄模拟 (Multi-camera Filming Simulation) 模拟多机位拍摄以提供沉浸式观看体验，同时在同一场景内保持角色定位和背景的一致性。
智能参考图像选择 (Intelligent Reference Images Selection) 自动为当前视频的第一帧选择所需的参考图像，包括前一时间线中出现的分镜。随着视频变长，这确保了多个角色和环境元素的准确性。
自动化图像生成与一致性检查 (Automated Image Generation & Consistency Check)
- 生成：基于选定的参考图像和先前时间线的视觉逻辑顺序，自动生成图像生成器的提示词，合理排列角色与环境的空间交互位置。
- 校验：并行生成多张图像，并通过 MLLM/VLM（多模态大语言模型/视觉语言模型）筛选出一致性最佳的一张作为第一帧，模仿人类创作者的工作流。
高效并行镜头生成 (High-efficiency Parallel Shot Generation) 对从同一相机拍摄的连续镜头进行并行处理，极大地提高了视频生产效率。

亮点 / 与同类相比

端到端全流程自动化：不同于仅关注视频生成的工具，ViMax 覆盖了从“概念输入”到“最终视频输出”的完整管道，包括剧本、分镜和角色管理。
长视频生成能力：突破了 AI 视频通常局限于几秒短片的限制，通过复杂的跨场景连续性和多分镜处理能力，支持更长时长的内容创作。
多智能体协作架构：采用 Agent Loop 机制，各模块（编剧、分镜、生成、校验）协同工作，显著提升了输出的逻辑连贯性和视觉一致性。
灵活的模型支持：
- 默认支持 Google AI Studio API（如 Gemini 系列）。
- 兼容 MiniMax 模型（如 MiniMax-M2.7，支持 1M 上下文窗口），提供 OpenAI 兼容的 API 访问，增强了部署的灵活性。
人类工作流模拟：引入一致性检查环节，通过并行生成和模型筛选来优化结果，而非盲目生成，更接近专业影视制作流程。

适合谁用 / 上手

适合人群：

独立创作者与内容生产者：希望快速将创意转化为视频原型，无需组建庞大的专业团队。
AI 研究者与开发者：对多智能体协作、长视频生成一致性控制感兴趣的技术人员。
影视前期策划人员：需要快速生成故事板或概念视频以验证叙事节奏的用户。

上手指南：

环境准备：
- 支持 Linux 和 Windows 系统。
- 推荐使用 uv 管理 Python 环境。
```
git clone https://github.com/HKUDS/ViMax.git
cd ViMax
uv sync
```
配置 API：编辑 configs/idea2video.yaml 或 configs/script2video.yaml，配置聊天模型、图像生成器和视频生成器的 API 密钥。
- Chat Model: 支持 Google Gemini (通过 OpenRouter 等代理) 或 MiniMax。
- Image Generator: 如 Nanobanana Google API。
- Video Generator: 如 Veo Google API。
运行模式：
- 创意转视频 (main_idea2video.py)：输入一个简单的创意想法（如“猫和狗是好朋友，遇到新猫会发生什么？”）和风格要求（如“卡通风格，不超过3个场景”），系统自动生成视频。
- 剧本转视频 (main_script2video.py)：输入详细的场景脚本（包含角色、动作、对话）和创作要求（如“快节奏，不超过20个镜头”），系统将其转化为视频。

示例代码片段：

idea = """
If a cat and a dog are best friends, what would happen when they meet a new cat?
"""
user_requirement = """
For children, do not exceed 3 scenes.
"""
style = "Cartoon"

ViMax 通过降低技术门槛，让创作者能够专注于故事本身，而非繁琐的技术实现细节。

查看原文 →github.com