← 返回信息流
AI 资讯量子位·1 小时前4 源报道

阿里发布视频生成模型HappyHorse 1.1:五大维度全面升级

速览

阿里巴巴正式发布了其视频生成模型HappyHorse 1.1版本。此次更新在多个关键维度上进行了全面升级,旨在提升视频生成的质量与效率。该模型的迭代标志着阿里在AIGC视频生成领域的持续投入与技术进步。

AI 深度解读

背景

视频生成领域正从“能生成”向“好用、可控、高质”的工业化标准演进。动态表现力不足、主体一致性差、指令遵循能力弱以及视觉质感失真,一直是制约 AIGC 视频在商业场景(如短剧、广告、电商)大规模落地的核心痛点。

6月22日,阿里巴巴发布其视频生成模型 HappyHorse 1.1。作为 HappyHorse 系列的迭代版本,该模型旨在解决上一代版本在动作迟缓、角色“变脸”、画面“油光感”等方面的具体问题,通过五大维度的系统性升级,进一步缩小 AI 视频与专业影视制作之间的差距。

核心内容

HappyHorse 1.1 在动态表现力、主体一致性、指令遵循、视觉质感和音频能力五个关键维度进行了全面升级,同时在技术规格上保持了与前代版本的一致性。

1. 动态表现力:优化运动建模与时序一致性 针对 1.0 版本中部分画面动作迟缓、节奏感不足的问题,1.1 版本重点优化了运动建模能力。通过提升动作的连贯性和力量感,模型能够更自然地呈现高速或高强度动态场景,解决了以往视频生成中常见的“拖沓”感。

2. 主体一致性:支持多参考图输入,降低“抽卡率” 对于内容生产者而言,保持角色和场景的一致性至关重要。1.1 版本支持同时输入 9 张角色参考图,显著增强了对商品细节、品牌元素、角色与场景灵活组合的稳定性。

  • 多分镜与 N 宫格参考理解增强:模型能更好地理解复杂的多角色关系和场景布局。
  • 应用场景:在多角色短剧、直播带货、多人物广告等场景中,有效控制了角色“变脸”现象,大幅减少了创作者反复生成(抽卡)的时间成本。

3. 指令遵循:提升复杂叙事与镜头编排能力 无论输入是简短描述还是复杂叙事,模型对提示词(Prompt)的理解能力均得到增强。

  • 高强度动态场景:仅需简洁提示词即可准确理解打斗等复杂动作逻辑。
  • 复杂提示词处理:镜头编排稳定性增强,能够高质量完成多场景、多角色的连贯演绎,提升了长叙事视频的生成质量。

4. 视觉质感:缓解“油光感”,保留真实细节 针对用户反馈集中的“油光感”和“过度锐化”问题,1.1 版本进行了专项优化。

  • 细节保留:刻意保留了痘印、法令纹、毛孔等皮肤纹理细节,避免了 AI 生成常见的“塑料感”或“磨皮感”。
  • 适用场景:满足了短剧、广告等对画面真实感和质感要求极高的商业场景需求。

5. 音频能力:动态调整语气与音效 音频模块不再是简单的背景音叠加,而是实现了与画面的深度协同。

  • 台词表达:语速、停顿、语气能够根据场景氛围与角色情绪动态调整,表达更加自然。
  • 环境音效:用户可通过提示词描述背景和环境音效,丰富视频的听觉层次。

技术规格与接入方式

  • 生成参数:单次生成时长 3 到 15 秒,支持 720p 和 1080p 分辨率,支持自由宽高比。
  • 接入平台:HappyHorse 官网、阿里云百炼、千问云均已接入最新版本。
  • 生态覆盖:自发布以来,该模型已服务于短剧制作、电商广告、品牌营销、游戏 CG 等内容生产场景。

关键要点

  • 五大维度升级:HappyHorse 1.1 在动态表现力、主体一致性、指令遵循、视觉质感和音频能力上实现了系统性改进,而非单一指标的提升。
  • 9 张参考图输入:支持同时输入 9 张角色参考图,极大增强了多角色、多场景下的主体一致性,解决了多分镜生成中的角色崩坏问题。
  • 真实感回归:通过缓解“油光感”和保留皮肤细节(如毛孔、法令纹),提升了视频在商业广告和短剧中的真实质感。
  • 音频与画面协同:音频能力支持根据情绪动态调整语速、停顿和语气,并允许通过提示词定制环境音效。
  • 商业化导向明确:针对直播带货、多角色短剧、品牌营销等具体痛点进行优化,旨在降低内容生产者的试错成本(减少抽卡率)。
  • 技术规格不变:单次生成时长(3-15秒)、分辨率(720p/1080p)及自由宽高比等基础参数与 1.0 版本保持一致。

意义与影响

HappyHorse 1.1 的发布标志着阿里在视频生成模型领域从“技术验证”向“工业级应用”的进一步深入。

首先,主体一致性指令遵循能力的提升,直接回应了 B 端内容生产者的核心痛点。在多角色短剧和电商广告中,角色形象的稳定是品牌营销的生命线。支持 9 张参考图输入和增强多分镜理解能力,意味着 AI 视频生成可以更接近传统影视制作的流水线作业模式,显著降低人工后期修补的成本。

其次,视觉质感音频能力的专项优化,提升了 AI 生成内容的“可用性”。保留皮肤细节和自然语气,使得生成的视频不再具有明显的“AI 痕迹”,能够直接应用于对画质要求严苛的商业广告和短剧制作,拓宽了 AIGC 在高端内容市场的渗透率。

最后,阿里通过联合虎鲸文娱集团举办“Horsepower”AI 影像大赛,并提供百万商单合作机会,构建了“模型迭代+生态激励”的闭环。这不仅有助于加速 HappyHorse 模型在真实场景中的迭代优化,也推动了 AIGC 创作者生态的繁荣,为 AI 视频生成技术的商业化落地提供了新的范式。

查看原文 →qbitai.com