GitHub 热榜GitHub Trending · 日·22 小时前

LTX-2：Lightricks 官方音频视频生成模型推理与 LoRA 训练包

原标题：Lightricks/LTX-2

Python★ 7,399 stars+47 今日

速览

该项目是 Lightricks 发布的 LTX-2 模型的官方支持包，专为音频和视频生成任务设计。它集成了高效的推理流程和灵活的 LoRA 训练功能，帮助用户快速部署模型或基于自有数据进行定制化微调。

AI 深度解读

这是什么

LTX-2 是由视频生成技术公司 Lightricks 推出的首个基于 DiT (Diffusion Transformer) 架构的音视频基础模型。该项目在 GitHub 上迅速获得高关注（Star 数约 7399），代表了当前视频生成领域的最新进展。

与以往仅生成无声视频或简单音画分离的模型不同，LTX-2 旨在将现代视频生成的所有核心能力整合到一个统一的模型中。它支持同步音频与视频生成、高保真度输出、多种性能模式、面向生产环境的高质量输出，并提供 API 访问及开源权限。其底层架构采用 Monorepo 形式，包含 ltx-core（核心模型与推理栈）、ltx-pipelines（高级生成管线）和 ltx-trainer（训练与微调工具）三个主要包。

解决的问题

传统视频生成模型通常存在以下痛点，LTX-2 试图通过统一架构加以解决：

音画不同步与分离：多数模型仅生成视频，音频需后期单独添加，导致唇形、环境音与画面动作难以精确匹配。LTX-2 原生支持同步音频生成，解决了音视频对齐难题。
多阶段流程复杂：以往实现高分辨率视频往往需要多阶段拼接（如先生成低清再上采样），流程繁琐且易产生不一致性。LTX-2 提供了优化的两阶段管线，同时保留单阶段快速原型能力，平衡了质量与效率。
控制力不足：视频生成中精确控制镜头运动、角色姿态和细节往往困难。LTX-2 引入了多种 IC-LoRA 和 LoRA 模块，专门用于控制镜头推拉摇移、姿态、细节增强等，提升了生成的可控性。
生产环境落地难：许多开源模型缺乏针对生产环境的优化（如量化支持、特定硬件加速）。LTX-2 提供了针对 FP8 量化、Blackwell/Hopper GPU 架构的优化支持，以及面向生产的管线实现。

核心功能

LTX-2 的核心功能围绕其多样化的 Pipeline 实现和精细的控制机制展开：

多模态生成管线：
- TI2VidTwoStagesPipeline：推荐的生产级文/图生视频管线，支持 2x 上采样，保证高保真度。
- TI2VidTwoStagesHQPipeline：基于 res_2s 二阶采样器的两阶段流程，步数更少但质量更高。
- TI2VidOneStagePipeline：单阶段生成，适合快速原型开发，无需高分辨率时速度更快。
- DistilledPipeline：极速推理管线，仅使用 8 个预定义 Sigma（第一阶段 8 步，第二阶段 4 步），大幅降低推理成本。
- A2VidPipelineTwoStage：基于输入音频文件的音频驱动视频生成。
- LipDubPipeline：唇形同步功能，支持重新配音、匹配说话人身份，基于蒸馏模型和单 IC-LoRA 实现。
精细控制与编辑：
- IC-LoRA 系列：包括 Motion-Track-Control（运动跟踪）、Pose-Control（姿态控制）、Detailer（细节增强）、HDR（高动态范围）等。
- Camera-Control LoRA：提供多种镜头运动控制，如 Dolly-In/Out/Left/Right（推拉左右）、Jib-Up/Down（摇臂升降）、Static（固定镜头）。
- KeyframeInterpolationPipeline：关键帧插值，在两张关键帧图像之间生成平滑过渡视频。
- RetakePipeline：局部重绘，允许对现有视频的特定时间段进行重新生成。
- HDRICLoraPipeline：支持 HDR 输出的视频到视频转换，输出线性浮点帧（通过 LogC3 逆解码），适合 EXR 导出和色调映射。
硬件与性能优化：
- FP8 量化：支持 fp8-cast（针对 bf16 检查点动态下转换）和 fp8-scaled-mm（针对 Hopper GPU 的 FP8 缩放矩阵乘法），显著降低显存占用。
- 注意力优化：在 Blackwell GPU (B200) 上支持手动安装 flash-attn-4，在其他 CUDA GPU（包括 Hopper）上使用 xFormers。
- 梯度估计：通过梯度估计技术，可在保持质量的前提下将推理步数从 40 步减少至 20-30 步。

亮点 / 与同类相比

首个 DiT 架构的音视频统一模型：虽然市场上存在许多 DiT 视频模型（如 Sora、Runway Gen-3 等），但 LTX-2 是首个将同步音频、高分辨率、多控制模式整合在一个 DiT 模型中的开源项目。
极致的控制粒度：通过丰富的 IC-LoRA 和 Camera-Control LoRA，LTX-2 提供了比大多数竞品更细粒度的镜头和姿态控制能力，特别适合专业视频制作流程。
生产就绪的管线设计：不仅提供基础生成，还特别设计了 TI2VidTwoStagesHQPipeline 和 DistilledPipeline 等针对生产环境优化的管线，支持从快速原型到高质量产出的完整工作流。
先进的硬件适配：明确支持最新的 Blackwell 架构 GPU 和 Hopper 架构的 FP8 优化，体现了对前沿硬件生态的紧跟。
开放与可定制性：作为开源项目，提供了完整的训练工具链（ltx-trainer），允许用户进行 LoRA、全量微调及 IC-LoRA 训练，相比闭源 API 服务更具灵活性。

适合谁用 / 上手

适合人群：

AI 视频创作者与开发者：希望利用开源模型进行视频生成、编辑和控制的技术人员。
视频制作专业人士：需要精确控制镜头运动、唇形同步和 HDR 输出的影视后期人员。
研究人员：对 DiT 架构、音视频同步生成、扩散模型优化感兴趣的研究者。
ComfyUI 用户：可通过官方推荐的 ComfyUI-LTXVideo 节点轻松集成 LTX-2 工作流。

上手指南：

环境准备：

git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2
uv sync --frozen
source .venv/bin/activate

模型下载：从 HuggingFace 仓库 LTX-2.3 下载必要模型：
- LTX-2.3 Model Checkpoint：主模型检查点。
- Spatial Upscaler：ltx-2.3-spatial-upscaler-x2-1.1.safetensors 或 x1.5 版本（两阶段管线必需）。
- Temporal Upscaler：未来管线可能需要。
- Distilled LoRA：用于加速推理。
- Gemma Text Encoder：文本编码器资产。
- LoRAs：根据需求下载相应的控制 LoRA（如镜头控制、姿态控制等）。
推理示例：选择适合的 Pipeline，例如使用 TI2VidTwoStagesPipeline 进行高质量生成，或 DistilledPipeline 进行快速测试。可启用 FP8 量化以节省显存：
```
# Python 示例
from ltx_pipelines import TI2VidTwoStagesPipeline
pipeline = TI2VidTwoStagesPipeline(quantization="fp8-cast")
```

查看原文 →github.com