技术博客美团技术团队·2 小时前

美团开源LongCat-Video-Avatar 1.5，数字人生成迈向商用

原标题：从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

速览

美团正式开源LongCat-Video-Avatar 1.5数字人视频模型，旨在从开源SOTA迈向商业级应用。该版本在唇形同步、物理合理性及长视频稳定性上实现全面跃升，并支持真人、动漫等多类主体及多人互动场景。通过引入Whisper-large编码器和DMD蒸馏技术，模型在保持高质量生成的同时，推理效率提升约15倍，显著降低部署成本。

AI 深度解读

背景

数字人视频生成技术正经历从“高拟真展示”向“真可用商用”的关键转折。尽管开源领域已出现 SOTA（State of the Art）水平的模型，但在实际商业场景中，数字人视频仍面临长视频稳定性差、多人互动不自然、推理成本高以及复杂场景泛化能力弱等痛点。许多模型在实验室环境下表现完美，却难以应对电商直播、教学演示等真实业务中复杂的语音输入、多角色交互及长时序连贯性要求。

美团技术团队正式开源 LongCat-Video-Avatar 1.5，旨在填补这一差距。该模型不仅保留了开源社区的高拟真特性，更在唇形同步精度、物理合理性、长视频稳定性、多人互动逻辑及推理效率上实现了全面跃升，致力于让数字人视频生成从“彩排室的完美演练”走向“千人千面的真实舞台”，满足规模化商业应用的需求。

核心内容

LongCat-Video-Avatar 1.5 的核心升级围绕基础体验商用化、场景泛化能力增强以及推理部署高效化三个维度展开，通过底层架构优化与数据体系重构，显著提升了模型在复杂商业场景中的表现。

1. 基础体验全面商用化：从“嘴动”到“全身协同” 在音频特征提取环节，模型将编码器从 Wav2Vec2 升级为 Whisper-large。这一升级利用更大的参数量和更丰富的多语言先验，使模型能更细致地捕捉音素变化、发音节奏及多语言韵律，从而精准理解语音内容。这不仅提升了唇形同步的准确性，还改善了面部表情、头部姿态、肩颈及肢体动作与语音的协同性，大幅减少了长视频中的抖动、跳帧、画面冻结和身份漂移现象。

2. 高质量数据体系：构建多阶段处理与增强数据 为应对真人、虚拟偶像、动漫角色甚至动物等多类主体的开放域泛化需求，团队构建了一套严格的数据处理流程：

离线标注：提取人脸关键点、人物数量、身体构图、音画同步等属性。
在线验证：自动过滤转场、黑帧、闪烁、跳帧等低质量片段。此外，针对虚拟人生成的典型难点，专门构建了三类增强数据：
多人数据：通过主动说话人检测，保留单一说话人发声片段，降低多人场景的音画歧义。
静默数据：筛选人物未说话的视频，让模型学习无语音状态下的微表情、视线与身体动态，避免非说话角色嘴部乱动。
情绪数据：结合多模态初筛与帧级情绪识别，注入情绪变化过程，强化语音、表情与身体反应的关联理解。

3. 逐帧级偏好对齐：解决手部畸变与动作不连贯 引入 GRPO（Group Relative Policy Optimization，组相对策略优化）进行人类偏好对齐，将奖励信号细化到逐帧层面，精准修正动作不连贯、手部变形、短时结构崩塌及表情与语音不匹配等局部问题。针对图像到视频和视频续写任务，加入首帧手部检测机制，优先提高含可见手部样本的训练比例，显著缓解了手部畸变问题，提升了电商直播、产品展示等场景的自然度。

4. 推理部署高效化：DMD 蒸馏与架构优化 为满足商业级“快”的需求，模型采用 DMD（Distribution Matching Distillation，分布匹配蒸馏）技术，将原本 50 步的生成过程压缩至 8 步，实现约 15 倍的推理效率提升。同时，采用“共享基础模型 + 多个 LoRA 适配器”替代传统的三模型并行方案，大幅降低显存开销。实际测试中，生成 10 秒视频仅需约 1 分钟。

5. 性能评测：真实场景下的全面领先 基于 EvalTalker 构建的综合评测基准显示，LongCat-Video-Avatar 1.5 在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上雷达图面积处于领先水平。

用户偏好：相比 Kling Avatar 2.0 胜率 65.9%，相比 OmniHuman-1.5 胜率 61.1%，相比 HeyGen 胜率 54.3%。
场景表现：单人场景得分 3.336，显著高于 HeyGen 和 OmniHuman-1.5；多人场景得分 2.730，大幅领先 InfiniteTalk，在说话者与聆听者区分上优势明显。
稳定性指标：主体变形问题率仅为 23.1%，背景变形问题率为 9.4%，跳帧问题率低至 0.8%（所有对比模型中最低）。
协调性指标：面部-身体同步问题率为 5.1%，唇形同步问题率为 29.8%，均优于其他对比模型。

关键要点

编码器升级：音频编码器由 Wav2Vec2 升级为 Whisper-large，提升了多语言韵律捕捉及唇形同步精度，增强了全身时序稳定性。
数据增强策略：构建了包含多人、静默、情绪三类增强数据的多阶段数据处理流程，有效解决多人音画歧义、非说话者嘴部乱动及情绪表达缺失问题。
偏好对齐优化：引入 GRPO 进行逐帧级人类偏好对齐，并结合首帧手部检测机制，显著改善手部畸变和动作不连贯问题。
推理效率飞跃：通过 DMD 蒸馏将生成步数从 50 步压缩至 8 步，效率提升约 15 倍；采用共享基础模型+LoRA 适配器架构降低显存开销。
SOTA 级性能：在 EvalTalker 基准测试中，LongCat-Video-Avatar 1.5 在物理合理性、时间稳定性、身份一致性等维度全面领先，用户偏好胜率高于 Kling、OmniHuman 和 HeyGen 等主流商业系统。
开源开放：模型代码已在 GitHub、HuggingFace、ModelScope 等平台开源，并提供技术报告与项目页面，邀请社区共建。

意义与影响

LongCat-Video-Avatar 1.5 的开源标志着数字人视频生成技术从“效果展示”阶段正式迈入“真实应用”阶段。其意义在于：

降低商用门槛：通过 15 倍的推理效率提升和显存优化，解决了高成本阻碍规模化落地的痛点，使数字人技术在电商、教育、娱乐等领域的大规模部署成为可能。
提升真实交互体验：在多人互动、长时序稳定性和物理合理性上的突破，解决了以往数字人“像假人”、“动作僵硬”、“多人对话混乱”的核心痛点，提升了用户交互的自然度和沉浸感。
推动技术生态共建：美团将这一具备 SOTA 性能的模型开源，为开发者和创作者提供了一个可验证、可改进的技术基座。这不仅有助于加速数字人技术在开放场景（如多语言、多角色、复杂内容形态）中的探索，也促进了社区在解决手部畸变、情绪表达等细分技术难题上的协作与创新。

总体而言，LongCat-Video-Avatar 1.5 不仅是一个模型版本的更新，更是推动数字人视频生成技术走向标准化、高效化和真实化的重要里程碑。

查看原文 →tech.meituan.com

美团开源LongCat-Video-Avatar 1.5，数字人生成迈向商用

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐