← 返回信息流
GitHub 热榜GitHub Trending · 日·22 小时前

LTX-2:Lightricks 官方音频视频生成模型推理与 LoRA 训练包

原标题:Lightricks/LTX-2
Python7,399 stars+47 今日

速览

该项目是 Lightricks 发布的 LTX-2 模型的官方支持包,专为音频和视频生成任务设计。它集成了高效的推理流程和灵活的 LoRA 训练功能,帮助用户快速部署模型或基于自有数据进行定制化微调。

AI 深度解读

这是什么

LTX-2 是由视频生成技术公司 Lightricks 推出的首个基于 DiT (Diffusion Transformer) 架构的音视频基础模型。该项目在 GitHub 上迅速获得高关注(Star 数约 7399),代表了当前视频生成领域的最新进展。

与以往仅生成无声视频或简单音画分离的模型不同,LTX-2 旨在将现代视频生成的所有核心能力整合到一个统一的模型中。它支持同步音频与视频生成、高保真度输出、多种性能模式、面向生产环境的高质量输出,并提供 API 访问及开源权限。其底层架构采用 Monorepo 形式,包含 ltx-core(核心模型与推理栈)、ltx-pipelines(高级生成管线)和 ltx-trainer(训练与微调工具)三个主要包。

解决的问题

传统视频生成模型通常存在以下痛点,LTX-2 试图通过统一架构加以解决:

  1. 音画不同步与分离:多数模型仅生成视频,音频需后期单独添加,导致唇形、环境音与画面动作难以精确匹配。LTX-2 原生支持同步音频生成,解决了音视频对齐难题。
  2. 多阶段流程复杂:以往实现高分辨率视频往往需要多阶段拼接(如先生成低清再上采样),流程繁琐且易产生不一致性。LTX-2 提供了优化的两阶段管线,同时保留单阶段快速原型能力,平衡了质量与效率。
  3. 控制力不足:视频生成中精确控制镜头运动、角色姿态和细节往往困难。LTX-2 引入了多种 IC-LoRALoRA 模块,专门用于控制镜头推拉摇移、姿态、细节增强等,提升了生成的可控性。
  4. 生产环境落地难:许多开源模型缺乏针对生产环境的优化(如量化支持、特定硬件加速)。LTX-2 提供了针对 FP8 量化、Blackwell/Hopper GPU 架构的优化支持,以及面向生产的管线实现。

核心功能

LTX-2 的核心功能围绕其多样化的 Pipeline 实现和精细的控制机制展开:

  • 多模态生成管线

    • TI2VidTwoStagesPipeline:推荐的生产级文/图生视频管线,支持 2x 上采样,保证高保真度。
    • TI2VidTwoStagesHQPipeline:基于 res_2s 二阶采样器的两阶段流程,步数更少但质量更高。
    • TI2VidOneStagePipeline:单阶段生成,适合快速原型开发,无需高分辨率时速度更快。
    • DistilledPipeline:极速推理管线,仅使用 8 个预定义 Sigma(第一阶段 8 步,第二阶段 4 步),大幅降低推理成本。
    • A2VidPipelineTwoStage:基于输入音频文件的音频驱动视频生成。
    • LipDubPipeline:唇形同步功能,支持重新配音、匹配说话人身份,基于蒸馏模型和单 IC-LoRA 实现。
  • 精细控制与编辑

    • IC-LoRA 系列:包括 Motion-Track-Control(运动跟踪)、Pose-Control(姿态控制)、Detailer(细节增强)、HDR(高动态范围)等。
    • Camera-Control LoRA:提供多种镜头运动控制,如 Dolly-In/Out/Left/Right(推拉左右)、Jib-Up/Down(摇臂升降)、Static(固定镜头)。
    • KeyframeInterpolationPipeline:关键帧插值,在两张关键帧图像之间生成平滑过渡视频。
    • RetakePipeline:局部重绘,允许对现有视频的特定时间段进行重新生成。
    • HDRICLoraPipeline:支持 HDR 输出的视频到视频转换,输出线性浮点帧(通过 LogC3 逆解码),适合 EXR 导出和色调映射。
  • 硬件与性能优化

    • FP8 量化:支持 fp8-cast(针对 bf16 检查点动态下转换)和 fp8-scaled-mm(针对 Hopper GPU 的 FP8 缩放矩阵乘法),显著降低显存占用。
    • 注意力优化:在 Blackwell GPU (B200) 上支持手动安装 flash-attn-4,在其他 CUDA GPU(包括 Hopper)上使用 xFormers
    • 梯度估计:通过梯度估计技术,可在保持质量的前提下将推理步数从 40 步减少至 20-30 步。

亮点 / 与同类相比

  1. 首个 DiT 架构的音视频统一模型:虽然市场上存在许多 DiT 视频模型(如 Sora、Runway Gen-3 等),但 LTX-2 是首个将同步音频、高分辨率、多控制模式整合在一个 DiT 模型中的开源项目。
  2. 极致的控制粒度:通过丰富的 IC-LoRA 和 Camera-Control LoRA,LTX-2 提供了比大多数竞品更细粒度的镜头和姿态控制能力,特别适合专业视频制作流程。
  3. 生产就绪的管线设计:不仅提供基础生成,还特别设计了 TI2VidTwoStagesHQPipelineDistilledPipeline 等针对生产环境优化的管线,支持从快速原型到高质量产出的完整工作流。
  4. 先进的硬件适配:明确支持最新的 Blackwell 架构 GPU 和 Hopper 架构的 FP8 优化,体现了对前沿硬件生态的紧跟。
  5. 开放与可定制性:作为开源项目,提供了完整的训练工具链(ltx-trainer),允许用户进行 LoRA、全量微调及 IC-LoRA 训练,相比闭源 API 服务更具灵活性。

适合谁用 / 上手

适合人群:

  • AI 视频创作者与开发者:希望利用开源模型进行视频生成、编辑和控制的技术人员。
  • 视频制作专业人士:需要精确控制镜头运动、唇形同步和 HDR 输出的影视后期人员。
  • 研究人员:对 DiT 架构、音视频同步生成、扩散模型优化感兴趣的研究者。
  • ComfyUI 用户:可通过官方推荐的 ComfyUI-LTXVideo 节点轻松集成 LTX-2 工作流。

上手指南:

  1. 环境准备

    git clone https://github.com/Lightricks/LTX-2.git
    cd LTX-2
    uv sync --frozen
    source .venv/bin/activate
    
  2. 模型下载: 从 HuggingFace 仓库 LTX-2.3 下载必要模型:

    • LTX-2.3 Model Checkpoint:主模型检查点。
    • Spatial Upscalerltx-2.3-spatial-upscaler-x2-1.1.safetensorsx1.5 版本(两阶段管线必需)。
    • Temporal Upscaler:未来管线可能需要。
    • Distilled LoRA:用于加速推理。
    • Gemma Text Encoder:文本编码器资产。
    • LoRAs:根据需求下载相应的控制 LoRA(如镜头控制、姿态控制等)。
  3. 推理示例: 选择适合的 Pipeline,例如使用 TI2VidTwoStagesPipeline 进行高质量生成,或 DistilledPipeline 进行快速测试。可启用 FP8 量化以节省显存:

    # Python 示例
    from ltx_pipelines import TI2VidTwoStagesPipeline
    pipeline = TI2VidTwoStagesPipeline(quantization="fp8-cast")
    
查看原文 →github.com