← 返回信息流
GitHub 热榜GitHub Trending · 周·7 天前

ViMax:一站式智能视频生成代理(集导演、编剧、制片与生成于一体)

原标题:HKUDS/ViMax
Python7,793 stars+2,466 本周

速览

ViMax 是一个多代理协作系统,整合了导演、编剧、制片人和视频生成器四大角色。它通过自动化脚本编写、镜头规划及视频合成,为用户提供了端到端的智能视频创作体验,适用于需要高效生成高质量叙事性视频的场景。

AI 深度解读

这是什么

ViMax 是由香港大学数据科学实验室(HKUDS)开发的一个多智能体视频生成框架。它不仅仅是一个简单的视频生成工具,而是一个集导演、编剧、制片人和视频生成器于一体的自动化创作系统。

ViMax 的核心逻辑在于将“创意输入”转化为“最终视频”的全流程自动化。通过引入多智能体(Multi-Agent)协作机制,它能够自主完成从剧本撰写、分镜设计、角色创建到最终视频生成的端到端任务。该项目旨在打破传统 AI 视频生成仅能处理短片段、缺乏叙事深度的局限,探索 AI 作为完整创意引擎的未来形态。

解决的问题

传统 AI 视频生成及影视制作流程中存在诸多痛点,ViMax 针对性地解决了以下核心挑战:

  • 时长与一致性瓶颈:大多数 AI 工具只能生成几秒的片段,且角色和场景在帧之间经常发生不可预测的变化。ViMax 致力于解决长视频(分钟甚至小时级)中跨场景的连续性和多分镜设计的复杂性。
  • 参考素材获取困难:手动获取、整理和对齐能准确捕捉角色、物体、位置和环境的参考帧耗时且繁琐。
  • 一致性校验缺失:即使提供了正确的角色和环境参考图,图像生成器仍可能产生不可用的图像,缺乏类似人类创作者的自动校验机制。
  • 叙事结构薄弱:高质量视频需要丰富的信息密度和结构化设计,而现有工具往往缺乏脚本生成、音频处理和叙事结构构建能力。
  • 专业门槛高:将故事转化为视觉叙事需要电影摄影、场景构图和视觉讲故事的专业知识,普通创作者难以掌握。
  • 生产效率低下:传统视频创作涉及多个专家角色和漫长的工作流,阻碍了独立创作者的快速原型制作。

核心功能

ViMax 通过一系列智能代理模块,实现了视频生产的全链路自动化:

  1. 智能长剧本生成 (Intelligent Long Script Generation) 基于 RAG(检索增强生成)技术,能够智能分析长篇、小说般的故事情节,并将其自动分割为多场景剧本格式。该过程确保所有关键情节发展和角色对话在新结构中得以准确保留。

  2. 表现力分镜设计 (Expressive Storyboard Design) 根据用户需求和目标受众,利用电影语言创建具有表现力的分镜。这不仅建立了后续视频生成的叙事节奏,还解决了从故事到视觉叙事的转化难题。

  3. 多机位拍摄模拟 (Multi-camera Filming Simulation) 模拟多机位拍摄以提供沉浸式观看体验,同时在同一场景内保持角色定位和背景的一致性。

  4. 智能参考图像选择 (Intelligent Reference Images Selection) 自动为当前视频的第一帧选择所需的参考图像,包括前一时间线中出现的分镜。随着视频变长,这确保了多个角色和环境元素的准确性。

  5. 自动化图像生成与一致性检查 (Automated Image Generation & Consistency Check)

    • 生成:基于选定的参考图像和先前时间线的视觉逻辑顺序,自动生成图像生成器的提示词,合理排列角色与环境的空间交互位置。
    • 校验:并行生成多张图像,并通过 MLLM/VLM(多模态大语言模型/视觉语言模型)筛选出一致性最佳的一张作为第一帧,模仿人类创作者的工作流。
  6. 高效并行镜头生成 (High-efficiency Parallel Shot Generation) 对从同一相机拍摄的连续镜头进行并行处理,极大地提高了视频生产效率。

亮点 / 与同类相比

  • 端到端全流程自动化:不同于仅关注视频生成的工具,ViMax 覆盖了从“概念输入”到“最终视频输出”的完整管道,包括剧本、分镜和角色管理。
  • 长视频生成能力:突破了 AI 视频通常局限于几秒短片的限制,通过复杂的跨场景连续性和多分镜处理能力,支持更长时长的内容创作。
  • 多智能体协作架构:采用 Agent Loop 机制,各模块(编剧、分镜、生成、校验)协同工作,显著提升了输出的逻辑连贯性和视觉一致性。
  • 灵活的模型支持
    • 默认支持 Google AI Studio API(如 Gemini 系列)。
    • 兼容 MiniMax 模型(如 MiniMax-M2.7,支持 1M 上下文窗口),提供 OpenAI 兼容的 API 访问,增强了部署的灵活性。
  • 人类工作流模拟:引入一致性检查环节,通过并行生成和模型筛选来优化结果,而非盲目生成,更接近专业影视制作流程。

适合谁用 / 上手

适合人群:

  • 独立创作者与内容生产者:希望快速将创意转化为视频原型,无需组建庞大的专业团队。
  • AI 研究者与开发者:对多智能体协作、长视频生成一致性控制感兴趣的技术人员。
  • 影视前期策划人员:需要快速生成故事板或概念视频以验证叙事节奏的用户。

上手指南:

  1. 环境准备

    • 支持 Linux 和 Windows 系统。
    • 推荐使用 uv 管理 Python 环境。
    git clone https://github.com/HKUDS/ViMax.git
    cd ViMax
    uv sync
    
  2. 配置 API: 编辑 configs/idea2video.yamlconfigs/script2video.yaml,配置聊天模型、图像生成器和视频生成器的 API 密钥。

    • Chat Model: 支持 Google Gemini (通过 OpenRouter 等代理) 或 MiniMax。
    • Image Generator: 如 Nanobanana Google API。
    • Video Generator: 如 Veo Google API。
  3. 运行模式

    • 创意转视频 (main_idea2video.py):输入一个简单的创意想法(如“猫和狗是好朋友,遇到新猫会发生什么?”)和风格要求(如“卡通风格,不超过3个场景”),系统自动生成视频。
    • 剧本转视频 (main_script2video.py):输入详细的场景脚本(包含角色、动作、对话)和创作要求(如“快节奏,不超过20个镜头”),系统将其转化为视频。
  4. 示例代码片段

    idea = """
    If a cat and a dog are best friends, what would happen when they meet a new cat?
    """
    user_requirement = """
    For children, do not exceed 3 scenes.
    """
    style = "Cartoon"
    

ViMax 通过降低技术门槛,让创作者能够专注于故事本身,而非繁琐的技术实现细节。

查看原文 →github.com