← 返回信息流
技术博客美团技术团队·2 小时前

美团开源LongCat-Video-Avatar 1.5,数字人生成迈向商用

原标题:从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

速览

美团正式开源LongCat-Video-Avatar 1.5数字人视频模型,旨在从开源SOTA迈向商业级应用。该版本在唇形同步、物理合理性及长视频稳定性上实现全面跃升,并支持真人、动漫等多类主体及多人互动场景。通过引入Whisper-large编码器和DMD蒸馏技术,模型在保持高质量生成的同时,推理效率提升约15倍,显著降低部署成本。

AI 深度解读

背景

数字人视频生成技术正经历从“高拟真展示”向“真可用商用”的关键转折。尽管开源领域已出现 SOTA(State of the Art)水平的模型,但在实际商业场景中,数字人视频仍面临长视频稳定性差、多人互动不自然、推理成本高以及复杂场景泛化能力弱等痛点。许多模型在实验室环境下表现完美,却难以应对电商直播、教学演示等真实业务中复杂的语音输入、多角色交互及长时序连贯性要求。

美团技术团队正式开源 LongCat-Video-Avatar 1.5,旨在填补这一差距。该模型不仅保留了开源社区的高拟真特性,更在唇形同步精度、物理合理性、长视频稳定性、多人互动逻辑及推理效率上实现了全面跃升,致力于让数字人视频生成从“彩排室的完美演练”走向“千人千面的真实舞台”,满足规模化商业应用的需求。

核心内容

LongCat-Video-Avatar 1.5 的核心升级围绕基础体验商用化、场景泛化能力增强以及推理部署高效化三个维度展开,通过底层架构优化与数据体系重构,显著提升了模型在复杂商业场景中的表现。

1. 基础体验全面商用化:从“嘴动”到“全身协同” 在音频特征提取环节,模型将编码器从 Wav2Vec2 升级为 Whisper-large。这一升级利用更大的参数量和更丰富的多语言先验,使模型能更细致地捕捉音素变化、发音节奏及多语言韵律,从而精准理解语音内容。这不仅提升了唇形同步的准确性,还改善了面部表情、头部姿态、肩颈及肢体动作与语音的协同性,大幅减少了长视频中的抖动、跳帧、画面冻结和身份漂移现象。

2. 高质量数据体系:构建多阶段处理与增强数据 为应对真人、虚拟偶像、动漫角色甚至动物等多类主体的开放域泛化需求,团队构建了一套严格的数据处理流程:

  • 离线标注:提取人脸关键点、人物数量、身体构图、音画同步等属性。
  • 在线验证:自动过滤转场、黑帧、闪烁、跳帧等低质量片段。 此外,针对虚拟人生成的典型难点,专门构建了三类增强数据:
  • 多人数据:通过主动说话人检测,保留单一说话人发声片段,降低多人场景的音画歧义。
  • 静默数据:筛选人物未说话的视频,让模型学习无语音状态下的微表情、视线与身体动态,避免非说话角色嘴部乱动。
  • 情绪数据:结合多模态初筛与帧级情绪识别,注入情绪变化过程,强化语音、表情与身体反应的关联理解。

3. 逐帧级偏好对齐:解决手部畸变与动作不连贯 引入 GRPO(Group Relative Policy Optimization,组相对策略优化)进行人类偏好对齐,将奖励信号细化到逐帧层面,精准修正动作不连贯、手部变形、短时结构崩塌及表情与语音不匹配等局部问题。针对图像到视频和视频续写任务,加入首帧手部检测机制,优先提高含可见手部样本的训练比例,显著缓解了手部畸变问题,提升了电商直播、产品展示等场景的自然度。

4. 推理部署高效化:DMD 蒸馏与架构优化 为满足商业级“快”的需求,模型采用 DMD(Distribution Matching Distillation,分布匹配蒸馏)技术,将原本 50 步的生成过程压缩至 8 步,实现约 15 倍的推理效率提升。同时,采用“共享基础模型 + 多个 LoRA 适配器”替代传统的三模型并行方案,大幅降低显存开销。实际测试中,生成 10 秒视频仅需约 1 分钟。

5. 性能评测:真实场景下的全面领先 基于 EvalTalker 构建的综合评测基准显示,LongCat-Video-Avatar 1.5 在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上雷达图面积处于领先水平。

  • 用户偏好:相比 Kling Avatar 2.0 胜率 65.9%,相比 OmniHuman-1.5 胜率 61.1%,相比 HeyGen 胜率 54.3%。
  • 场景表现:单人场景得分 3.336,显著高于 HeyGen 和 OmniHuman-1.5;多人场景得分 2.730,大幅领先 InfiniteTalk,在说话者与聆听者区分上优势明显。
  • 稳定性指标:主体变形问题率仅为 23.1%,背景变形问题率为 9.4%,跳帧问题率低至 0.8%(所有对比模型中最低)。
  • 协调性指标:面部-身体同步问题率为 5.1%,唇形同步问题率为 29.8%,均优于其他对比模型。

关键要点

  • 编码器升级:音频编码器由 Wav2Vec2 升级为 Whisper-large,提升了多语言韵律捕捉及唇形同步精度,增强了全身时序稳定性。
  • 数据增强策略:构建了包含多人、静默、情绪三类增强数据的多阶段数据处理流程,有效解决多人音画歧义、非说话者嘴部乱动及情绪表达缺失问题。
  • 偏好对齐优化:引入 GRPO 进行逐帧级人类偏好对齐,并结合首帧手部检测机制,显著改善手部畸变和动作不连贯问题。
  • 推理效率飞跃:通过 DMD 蒸馏将生成步数从 50 步压缩至 8 步,效率提升约 15 倍;采用共享基础模型+LoRA 适配器架构降低显存开销。
  • SOTA 级性能:在 EvalTalker 基准测试中,LongCat-Video-Avatar 1.5 在物理合理性、时间稳定性、身份一致性等维度全面领先,用户偏好胜率高于 Kling、OmniHuman 和 HeyGen 等主流商业系统。
  • 开源开放:模型代码已在 GitHub、HuggingFace、ModelScope 等平台开源,并提供技术报告与项目页面,邀请社区共建。

意义与影响

LongCat-Video-Avatar 1.5 的开源标志着数字人视频生成技术从“效果展示”阶段正式迈入“真实应用”阶段。其意义在于:

  1. 降低商用门槛:通过 15 倍的推理效率提升和显存优化,解决了高成本阻碍规模化落地的痛点,使数字人技术在电商、教育、娱乐等领域的大规模部署成为可能。
  2. 提升真实交互体验:在多人互动、长时序稳定性和物理合理性上的突破,解决了以往数字人“像假人”、“动作僵硬”、“多人对话混乱”的核心痛点,提升了用户交互的自然度和沉浸感。
  3. 推动技术生态共建:美团将这一具备 SOTA 性能的模型开源,为开发者和创作者提供了一个可验证、可改进的技术基座。这不仅有助于加速数字人技术在开放场景(如多语言、多角色、复杂内容形态)中的探索,也促进了社区在解决手部畸变、情绪表达等细分技术难题上的协作与创新。

总体而言,LongCat-Video-Avatar 1.5 不仅是一个模型版本的更新,更是推动数字人视频生成技术走向标准化、高效化和真实化的重要里程碑。

查看原文 →tech.meituan.com