LTX-2:Lightricks 官方音频视频生成模型推理与 LoRA 训练包
原标题:Lightricks/LTX-2
Python★ 7,399 stars+47 今日
速览
该项目是 Lightricks 发布的 LTX-2 模型的官方支持包,专为音频和视频生成任务设计。它集成了高效的推理流程和灵活的 LoRA 训练功能,帮助用户快速部署模型或基于自有数据进行定制化微调。
AI 深度解读
这是什么
LTX-2 是由视频生成技术公司 Lightricks 推出的首个基于 DiT (Diffusion Transformer) 架构的音视频基础模型。该项目在 GitHub 上迅速获得高关注(Star 数约 7399),代表了当前视频生成领域的最新进展。
与以往仅生成无声视频或简单音画分离的模型不同,LTX-2 旨在将现代视频生成的所有核心能力整合到一个统一的模型中。它支持同步音频与视频生成、高保真度输出、多种性能模式、面向生产环境的高质量输出,并提供 API 访问及开源权限。其底层架构采用 Monorepo 形式,包含 ltx-core(核心模型与推理栈)、ltx-pipelines(高级生成管线)和 ltx-trainer(训练与微调工具)三个主要包。
解决的问题
传统视频生成模型通常存在以下痛点,LTX-2 试图通过统一架构加以解决:
- 音画不同步与分离:多数模型仅生成视频,音频需后期单独添加,导致唇形、环境音与画面动作难以精确匹配。LTX-2 原生支持同步音频生成,解决了音视频对齐难题。
- 多阶段流程复杂:以往实现高分辨率视频往往需要多阶段拼接(如先生成低清再上采样),流程繁琐且易产生不一致性。LTX-2 提供了优化的两阶段管线,同时保留单阶段快速原型能力,平衡了质量与效率。
- 控制力不足:视频生成中精确控制镜头运动、角色姿态和细节往往困难。LTX-2 引入了多种 IC-LoRA 和 LoRA 模块,专门用于控制镜头推拉摇移、姿态、细节增强等,提升了生成的可控性。
- 生产环境落地难:许多开源模型缺乏针对生产环境的优化(如量化支持、特定硬件加速)。LTX-2 提供了针对 FP8 量化、Blackwell/Hopper GPU 架构的优化支持,以及面向生产的管线实现。
核心功能
LTX-2 的核心功能围绕其多样化的 Pipeline 实现和精细的控制机制展开:
-
多模态生成管线:
- TI2VidTwoStagesPipeline:推荐的生产级文/图生视频管线,支持 2x 上采样,保证高保真度。
- TI2VidTwoStagesHQPipeline:基于
res_2s二阶采样器的两阶段流程,步数更少但质量更高。 - TI2VidOneStagePipeline:单阶段生成,适合快速原型开发,无需高分辨率时速度更快。
- DistilledPipeline:极速推理管线,仅使用 8 个预定义 Sigma(第一阶段 8 步,第二阶段 4 步),大幅降低推理成本。
- A2VidPipelineTwoStage:基于输入音频文件的音频驱动视频生成。
- LipDubPipeline:唇形同步功能,支持重新配音、匹配说话人身份,基于蒸馏模型和单 IC-LoRA 实现。
-
精细控制与编辑:
- IC-LoRA 系列:包括
Motion-Track-Control(运动跟踪)、Pose-Control(姿态控制)、Detailer(细节增强)、HDR(高动态范围)等。 - Camera-Control LoRA:提供多种镜头运动控制,如
Dolly-In/Out/Left/Right(推拉左右)、Jib-Up/Down(摇臂升降)、Static(固定镜头)。 - KeyframeInterpolationPipeline:关键帧插值,在两张关键帧图像之间生成平滑过渡视频。
- RetakePipeline:局部重绘,允许对现有视频的特定时间段进行重新生成。
- HDRICLoraPipeline:支持 HDR 输出的视频到视频转换,输出线性浮点帧(通过 LogC3 逆解码),适合 EXR 导出和色调映射。
- IC-LoRA 系列:包括
-
硬件与性能优化:
- FP8 量化:支持
fp8-cast(针对 bf16 检查点动态下转换)和fp8-scaled-mm(针对 Hopper GPU 的 FP8 缩放矩阵乘法),显著降低显存占用。 - 注意力优化:在 Blackwell GPU (B200) 上支持手动安装
flash-attn-4,在其他 CUDA GPU(包括 Hopper)上使用xFormers。 - 梯度估计:通过梯度估计技术,可在保持质量的前提下将推理步数从 40 步减少至 20-30 步。
- FP8 量化:支持
亮点 / 与同类相比
- 首个 DiT 架构的音视频统一模型:虽然市场上存在许多 DiT 视频模型(如 Sora、Runway Gen-3 等),但 LTX-2 是首个将同步音频、高分辨率、多控制模式整合在一个 DiT 模型中的开源项目。
- 极致的控制粒度:通过丰富的 IC-LoRA 和 Camera-Control LoRA,LTX-2 提供了比大多数竞品更细粒度的镜头和姿态控制能力,特别适合专业视频制作流程。
- 生产就绪的管线设计:不仅提供基础生成,还特别设计了
TI2VidTwoStagesHQPipeline和DistilledPipeline等针对生产环境优化的管线,支持从快速原型到高质量产出的完整工作流。 - 先进的硬件适配:明确支持最新的 Blackwell 架构 GPU 和 Hopper 架构的 FP8 优化,体现了对前沿硬件生态的紧跟。
- 开放与可定制性:作为开源项目,提供了完整的训练工具链(
ltx-trainer),允许用户进行 LoRA、全量微调及 IC-LoRA 训练,相比闭源 API 服务更具灵活性。
适合谁用 / 上手
适合人群:
- AI 视频创作者与开发者:希望利用开源模型进行视频生成、编辑和控制的技术人员。
- 视频制作专业人士:需要精确控制镜头运动、唇形同步和 HDR 输出的影视后期人员。
- 研究人员:对 DiT 架构、音视频同步生成、扩散模型优化感兴趣的研究者。
- ComfyUI 用户:可通过官方推荐的
ComfyUI-LTXVideo节点轻松集成 LTX-2 工作流。
上手指南:
-
环境准备:
git clone https://github.com/Lightricks/LTX-2.git cd LTX-2 uv sync --frozen source .venv/bin/activate -
模型下载: 从 HuggingFace 仓库
LTX-2.3下载必要模型:- LTX-2.3 Model Checkpoint:主模型检查点。
- Spatial Upscaler:
ltx-2.3-spatial-upscaler-x2-1.1.safetensors或x1.5版本(两阶段管线必需)。 - Temporal Upscaler:未来管线可能需要。
- Distilled LoRA:用于加速推理。
- Gemma Text Encoder:文本编码器资产。
- LoRAs:根据需求下载相应的控制 LoRA(如镜头控制、姿态控制等)。
-
推理示例: 选择适合的 Pipeline,例如使用
TI2VidTwoStagesPipeline进行高质量生成,或DistilledPipeline进行快速测试。可启用 FP8 量化以节省显存:# Python 示例 from ltx_pipelines import TI2VidTwoStagesPipeline pipeline = TI2VidTwoStagesPipeline(quantization="fp8-cast")
查看原文 →github.com
