AI 资讯量子位·2 小时前

国产开源框架实现5分钟AI长视频生成，跻身全球第一梯队

原标题：5分钟AI长视频不翻车！国产开源框架杀到全球第一梯队

速览

该国产开源框架突破了长视频生成的稳定性瓶颈，实现了5分钟时长的AI视频生成。其核心优势在于具备高角色一致性、低延迟处理以及实时超分辨率能力。这一技术突破标志着国产AI视频生成工具已跻身全球第一梯队。

随着 AIGC 技术的飞速发展，生成几秒钟的 AI 视频已不再是新鲜事，各大模型在画质、运镜、风格及物理合理性等维度上卷出了新高度。然而，行业普遍面临一个核心瓶颈：长视频生成。

与短视频不同，长视频（几分钟级别）涉及跨镜头、跨场景、跨动作的连续叙事，这对模型的长程时序一致性提出了极高要求。当前主流模型在长视频生成中普遍存在三大痛点：

这些问题限制了 AI 视频在虚拟叙事、数字人助手、实时内容创作等场景中的规模化落地。在此背景下，京东开源了长音视频生成框架 JoyAI-Echo，旨在解决长视频生成的核心难题，并凭借其在一致性、速度和清晰度上的表现，杀入全球长视频生成领域的第一梯队。

JoyAI-Echo 是一套高性能的开源长视频生成框架，其核心创新在于通过三大技术模块，系统性解决了长视频生成中的“一致性”、“速度”和“清晰度”问题，并引入了 Director Agent 实现交互式创作。

传统方案依赖上下文窗口保存历史信息，但随着视频长度增加，早期内容会被稀释。JoyAI-Echo 创新性地引入了跨模态音视频记忆库：

为了解决长视频生成速度慢的问题，团队设计了一套记忆驱动的后训练流程，包含三个步骤：

SFT 监督微调：让模型学习高质量音视频生成能力。
人类反馈强化学习 (RLHF)：优化人物一致性、画面质量及音画同步效果。
DMD (Distribution Matching Distillation)：这是提升速度的关键。通过“教师-学生”模型蒸馏，将复杂的大模型能力压缩到更高效的推理模型中，减少扩散步骤。
成果：仅 DMD 优化就带来了约 7.5 倍 的推理速度提升，实现了在不牺牲质量前提下的效率飞跃。

针对传统“视频生成+离线超分”架构带来的延迟和偏差问题，JoyAI-Echo 将超分能力直接嵌入生成链路：

JoyAI-Echo 不仅仅是一个生成模型，更提供了一套完整的创作系统，其核心是 Director Agent，支持对话式编辑和局部重拍：

开源发布：JoyAI-Echo 由京东开源，GitHub 地址为 jd-opensource/JoyAI-Echo，标志着长视频生成能力向开发者社区开放。
性能指标领先：
- 在用户盲测中，63.6% 的用户更喜欢其生成的视频画面。
- 音频质量偏好度高达 81.7%。
- 提示词遵循偏好为 80.6%，IP 一致性偏好为 59.4%。
- 在人像短视频赛道，视觉美学用户偏好（58.8%）显著优于主流模型（26.5%）。
技术突破：
- 通过跨模态记忆库实现 5 分钟长视频的角色与音色高一致性。
- 利用 DMD 技术实现 7.5 倍 推理加速。
- 采用实时超分技术，一步完成 1K/2K 高清输出，无额外延迟。
交互能力：引入 Director Agent，支持从剧本拆解、镜头生成到局部重拍的完整交互式创作流程，大幅降低修改成本。
行业定位：该框架的发布使京东在长视频生成领域进入全球第一梯队，推动了 AI 视频从“技术 Demo”向“生产工具”的转变。

JoyAI-Echo 的开源与发布，对 AI 视频生成行业具有深远意义：

打破长视频生产壁垒：长期以来，长视频生成因角色不一致、修改成本高而难以进入实际生产流程。JoyAI-Echo 通过解决一致性、速度和可控性三大痛点，证明了 AI 长视频可以成为真正的生产力工具，适用于虚拟 IP 故事、数字人直播、品牌营销及互动剧情等领域。
推动技术范式升级：从“一次性出片”转向“可交互、可迭代”的创作范式。Director Agent 的引入，让创作者能够像与导演聊天一样进行视频制作，极大提升了创作效率和灵活性。
加速开源生态发展：与闭源模型不同，JoyAI-Echo 选择开源，降低了技术门槛。这使得开发者、研究者能够共同验证、调用和迭代长视频生成技术，有望加速整个行业在长时序生成、实时渲染及 Agent 协作方面的技术突破。
确立全球竞争力：在评测数据全面领先行业的情况下，JoyAI-Echo 展示了中国在 AIGC 底层框架和长视频生成技术上的全球竞争力，为后续更多应用场景的落地奠定了坚实基础。