虎牙发布实时多模态数字人VAM 1.0,24小时直播仅靠一张照片
速览
虎牙直播正式发布实时多模态数字人VAM 1.0,该技术支持24小时不间断直播,仅需一张照片即可驱动。VAM 1.0具备聊天、唱歌跳舞及游戏互动能力,旨在解决行业在实时性、多模态交互及成本方面的三大技术壁垒。这一突破标志着数字人技术在直播场景中的应用迈入新阶段。
AI 深度解读
背景
AI数字人赛道近年来热度高涨,应用想象空间广阔,且有罗永浩、刘强东等名人效应加持。然而,行业普遍面临“能播不能聊”的尴尬局面,多数方案受限于技术瓶颈,难以实现真正的实时互动。
虎牙作为拥有十年直播基因的平台,早在2019年便推出了AI数字人「晚玉」及HERO开放平台,2025年上线AI电竞智能体「虎小Ai」并尝试AI驱动虚拟主播。在此积累基础上,虎牙近期推出了基于DiT架构的实时多模态数字人基础模型——VAM 1.0(Vivid Avatar Model)。该模型旨在解决行业长期存在的三大技术难题,实现从“内容生产工具”向“实时交互主体”的转变。
核心内容
VAM 1.0 的核心突破在于其能够仅通过一张照片,生成具备实时互动能力的数字人。与以往生成预录视频不同,VAM 1.0 支持在线开播、实时流式输出(480×832分辨率,28帧),并能连续运行24小时以上不崩线。
在实测体验中,VAM 1.0 展现了极高的拟人化水平:
- 全状态拟人交互:原生覆盖静默、聆听、说话三种状态。数字人在聆听时会点头、注视,说话时表情与内容匹配,打破了过去数字人“僵住”或“循环播放”的刻板印象。
- 全双工实时对话:支持即时打断和自然接话,具备“千人千面”的互动能力。例如,用户纠正称呼后,数字人能全程保持一致;面对突发打断,能迅速反应并延续话题。
- 多模态能力拓展:除了聊天,VAM 1.0 还能实时生成唱歌、跳舞动作(嘴型同步、肢体流畅无畸变),甚至进入特定模式(如塔罗牌解读、狼人杀游戏),展现多角色协同驱动能力。
虎牙将这一突破归结为对行业“三堵墙”的突围:
-
时间墙(稳定性):传统方案因累积误差导致长时间运行后面部漂移、画面撕裂。VAM 1.0 采用三阶段训练策略:
- 锚定形象:利用多张参考图和运动帧校准,引入音频自适应注入模块,防止五官走形。
- 偏好优化:使用DPO算法平衡嘴型、表情、动作等多目标,避免“偏科”。
- 蒸馏与自纠错:通过模型蒸馏(20步压缩至4步)提升速度,并引入自纠错机制,让模型学会自我纠偏,确保24小时稳定运行。
-
交互墙(真实性):传统模型仅关注“说”,缺乏“听”和“打断”的能力。VAM 1.0 从模型设计阶段就将交互作为核心,原生支持静默、聆听、说话状态,并内置全双工能力,实现弹幕与语音双链路并行,模拟真人聊天中的插话与接话逻辑。
-
部署墙(工程化):解决实验室到生产环境的算力与延迟问题。虎牙进行了全链路工程优化,包括编译加速、注意力计算优化、VAE解码加速及多种量化策略。在8块H200 GPU集群上,实现36.4 FPS推理速度,首帧延迟约1.3秒,后续片段延迟仅0.77秒,兼顾了高性能与低开销。
关键要点
- 技术架构:基于DiT(Diffusion Transformer)架构,专为实时多模态交互设计。
- 核心指标:480×832分辨率,28帧实时流式输出,连续运行24小时+,首帧延迟~1.3s,后续延迟~0.77s。
- 交互能力:支持全双工对话,具备即时打断、自然接话、多状态(静默/聆听/说话)切换能力,原生覆盖“聆听态”。
- 训练策略:
- 引入运动帧锚定和音频自适应注入,解决累积误差。
- 使用DPO偏好优化算法平衡生成质量。
- 模型蒸馏(20步→4步)结合自纠错机制,提升推理速度与稳定性。
- 工程优化:全链路算子优化(编译、注意力、VAE解码、量化),在H200集群上实现高吞吐、低延迟。
- 应用场景:不仅限于聊天,还拓展至才艺直播、带货、新闻播报、虚拟演唱会及多人策略游戏(如狼人杀)陪玩。
- 竞争优势:虎牙拥有天然的直播场景优势(弹幕、语音连麦、打赏等基础设施),实现了“模型+场景”的闭环迭代,这是其他纯技术团队难以复制的壁垒。
意义与影响
VAM 1.0 的推出标志着AI数字人从“展示型内容”向“服务型交互主体”的关键跨越。
- 技术范式转变:行业焦点从单纯的画质生成转向实时交互的稳定性与真实性。虎牙通过解决“时间、交互、部署”三堵墙,证明了实时多模态数字人在工程上的可行性,为行业提供了新的技术参考路径。
- 商业价值释放:通过实现7×24小时稳定在线互动,VAM 1.0 极大地拓展了数字人的商业应用场景。从直播带货到新闻播报,再到游戏陪玩,数字人不再仅是噱头,而是能真正承接流量、产生用户粘性和商业转化的生产力工具。
- 场景驱动创新:虎牙的成功验证了“场景倒逼技术”的逻辑。拥有高频、高实时性需求的直播平台,为AI数字人提供了最佳的试验田和迭代环境。这种“模型+场景”的组合,可能成为未来AI应用落地的主流模式,即技术必须深度嵌入具体业务流中才能发挥最大价值。
- 生态布局前瞻:对于虎牙而言,这不仅是技术升级,更是对其直播生态未来的提前布局。随着AI数字人逐渐取代部分真人主播功能,虎牙已建立起从底层模型到上层应用的完整护城河,有望在下一代内容形态竞争中占据先机。
