← 返回信息流
AI 资讯量子位·2 小时前

国产开源框架实现5分钟AI长视频生成,跻身全球第一梯队

原标题:5分钟AI长视频不翻车!国产开源框架杀到全球第一梯队

速览

该国产开源框架突破了长视频生成的稳定性瓶颈,实现了5分钟时长的AI视频生成。其核心优势在于具备高角色一致性、低延迟处理以及实时超分辨率能力。这一技术突破标志着国产AI视频生成工具已跻身全球第一梯队。

AI 深度解读

背景

随着 AIGC 技术的飞速发展,生成几秒钟的 AI 视频已不再是新鲜事,各大模型在画质、运镜、风格及物理合理性等维度上卷出了新高度。然而,行业普遍面临一个核心瓶颈:长视频生成

与短视频不同,长视频(几分钟级别)涉及跨镜头、跨场景、跨动作的连续叙事,这对模型的长程时序一致性提出了极高要求。当前主流模型在长视频生成中普遍存在三大痛点:

  1. 角色一致性差:多镜头切换或场景变换时,人物面部、发型、衣着容易“漂移”或变脸。
  2. 音色不稳定:人物开口说话时,前后音色忽高忽低,难以保持连贯。
  3. 推理延迟高:生成速度慢,且往往采用“生成+离线超分”的两阶段架构,导致等待时间长且易产生画质偏差。

这些问题限制了 AI 视频在虚拟叙事、数字人助手、实时内容创作等场景中的规模化落地。在此背景下,京东开源了长音视频生成框架 JoyAI-Echo,旨在解决长视频生成的核心难题,并凭借其在一致性、速度和清晰度上的表现,杀入全球长视频生成领域的第一梯队。

核心内容

JoyAI-Echo 是一套高性能的开源长视频生成框架,其核心创新在于通过三大技术模块,系统性解决了长视频生成中的“一致性”、“速度”和“清晰度”问题,并引入了 Director Agent 实现交互式创作。

1. 跨模态音视频记忆库:解决“变脸”与“声音漂移”

传统方案依赖上下文窗口保存历史信息,但随着视频长度增加,早期内容会被稀释。JoyAI-Echo 创新性地引入了跨模态音视频记忆库

  • 机制:不依赖无限扩展的记忆窗口,而是提取角色首次登场时的视觉特征(长相)和声音特征(音色)并绑定写入记忆库。
  • 调用策略:在后续生成中,系统持续从记忆库中调取关键身份信息,同时保留故事开头和最近生成的镜头作为参考。
  • 效果:即使视频长达 5 分钟,角色的身份、外观和声音也能保持高度一致,模拟了人类“只保留最重要信息并准确调用”的记忆机制。

2. 记忆驱动后训练:推理速度提升 7.5 倍

为了解决长视频生成速度慢的问题,团队设计了一套记忆驱动的后训练流程,包含三个步骤:

  • SFT 监督微调:让模型学习高质量音视频生成能力。
  • 人类反馈强化学习 (RLHF):优化人物一致性、画面质量及音画同步效果。
  • DMD (Distribution Matching Distillation):这是提升速度的关键。通过“教师-学生”模型蒸馏,将复杂的大模型能力压缩到更高效的推理模型中,减少扩散步骤。
  • 成果:仅 DMD 优化就带来了约 7.5 倍 的推理速度提升,实现了在不牺牲质量前提下的效率飞跃。

3. 轻量化实时超分:高清输出不卡顿

针对传统“视频生成+离线超分”架构带来的延迟和偏差问题,JoyAI-Echo 将超分能力直接嵌入生成链路:

  • 流程:先生成 720P 视频和音频,再通过轻量化实时超分模块进行一步向前推理。
  • 效果:直接输出 1K 甚至 2K 分辨率的高清视频,同时优化音频细节。整个过程不增加明显延迟,解决了“速度”与“清晰度”的权衡难题。

4. Director Agent:AI 视频导演搭子

JoyAI-Echo 不仅仅是一个生成模型,更提供了一套完整的创作系统,其核心是 Director Agent,支持对话式编辑和局部重拍:

  • 策划阶段:Agent 作为“编剧兼导演”,将自然语言需求扩展为完整的故事框架、角色设定和镜头级规划。
  • 生成阶段:Agent 作为“现场导演”,检索历史镜头信息,整理输入条件,确保上下文连贯。
  • 点评修改阶段:支持“审片”逻辑。若发现角色、动作或对白偏差,Agent 能定位具体镜头,仅对受影响部分进行重生成,并同步更新后续剧情,无需推倒重来。

关键要点

  • 开源发布:JoyAI-Echo 由京东开源,GitHub 地址为 jd-opensource/JoyAI-Echo,标志着长视频生成能力向开发者社区开放。
  • 性能指标领先
    • 在用户盲测中,63.6% 的用户更喜欢其生成的视频画面。
    • 音频质量偏好度高达 81.7%
    • 提示词遵循偏好为 80.6%,IP 一致性偏好为 59.4%
    • 在人像短视频赛道,视觉美学用户偏好(58.8%)显著优于主流模型(26.5%)。
  • 技术突破
    • 通过跨模态记忆库实现 5 分钟长视频的角色与音色高一致性。
    • 利用 DMD 技术实现 7.5 倍 推理加速。
    • 采用实时超分技术,一步完成 1K/2K 高清输出,无额外延迟。
  • 交互能力:引入 Director Agent,支持从剧本拆解、镜头生成到局部重拍的完整交互式创作流程,大幅降低修改成本。
  • 行业定位:该框架的发布使京东在长视频生成领域进入全球第一梯队,推动了 AI 视频从“技术 Demo”向“生产工具”的转变。

意义与影响

JoyAI-Echo 的开源与发布,对 AI 视频生成行业具有深远意义:

  1. 打破长视频生产壁垒:长期以来,长视频生成因角色不一致、修改成本高而难以进入实际生产流程。JoyAI-Echo 通过解决一致性、速度和可控性三大痛点,证明了 AI 长视频可以成为真正的生产力工具,适用于虚拟 IP 故事、数字人直播、品牌营销及互动剧情等领域。
  2. 推动技术范式升级:从“一次性出片”转向“可交互、可迭代”的创作范式。Director Agent 的引入,让创作者能够像与导演聊天一样进行视频制作,极大提升了创作效率和灵活性。
  3. 加速开源生态发展:与闭源模型不同,JoyAI-Echo 选择开源,降低了技术门槛。这使得开发者、研究者能够共同验证、调用和迭代长视频生成技术,有望加速整个行业在长时序生成、实时渲染及 Agent 协作方面的技术突破。
  4. 确立全球竞争力:在评测数据全面领先行业的情况下,JoyAI-Echo 展示了中国在 AIGC 底层框架和长视频生成技术上的全球竞争力,为后续更多应用场景的落地奠定了坚实基础。
查看原文 →qbitai.com