← 返回信息流
AI 资讯量子位·2 小时前

创作者新玩具:输入梦境即可让AI生成沉浸式互动体验

原标题:我把昨晚的梦输入AI,它居然直接把我拉进去玩儿了一把?!

速览

一款面向创作者的AI工具引发关注,其核心功能是将用户的梦境描述转化为可交互的沉浸式体验。该工具被称为“创作者的终极玩具”,展示了AI在创意生成领域的强大潜力。用户通过简单的文本输入,即可让AI构建出逼真的虚拟世界供其探索。

AI 深度解读

背景

当前 AI 视频生成赛道虽然竞争激烈,画面精度不断提升,但主流产品(如 Sora 等)大多存在“单程票”的局限性。用户输入描述后,模型渲染出固定视频片段,生成结束后用户仅能观看,无法与画面互动。此外,随着视频时长增加,角色形象、物体状态极易出现崩坏(如“主体漂移”、面部变化),导致目前 AI 视频多为短片段。

在此背景下,阿里 ATH 推出了名为 HappyOyster 1.0(快乐生蚝)的产品。这是一款可实时构建和交互的开放式世界模型,旨在突破传统文生视频的单向限制,打造一个完整、可演绎、可探索且能持续演化的数字世界,让用户从“观众”转变为世界的“主人”。

核心内容

HappyOyster 1.0 的核心在于将 AI 生成从“单向输出”转变为“双向实时交互”。 它不仅仅生成画面,而是构建一个具备物理规律、因果逻辑和状态记忆的数字空间。

1. 两大核心交互模式

  • Adventure(世界探索模式):

    • 定位: 开放漫游模式,用户亲自下场充当主角。
    • 体验: 用户通过动作指令(加速、下蹲、攻击、跳跃等)操控角色,世界实时反馈并延展。
    • 智能交互: 模型根据场景内容自动匹配交互方式。例如,场景中有马车可触发骑马彩蛋,有汽车可触发开关灯、鸣笛等操作。
    • 非预设动画: 所有动作均由模型根据操作实时推演,而非播放预设动画素材,因此不同角度的操作会呈现不同的角色姿态。
    • 分享机制: 支持截屏、保存世界并生成链接,方便社交分享。
  • Directing(实时导演模式):

    • 定位: 导播执导模式,用户站在世界之上掌控叙事。
    • 多模态参考: 支持通过图片锁定角色外观,实现第一视角(POV)等特定镜头语言。
    • 实时剧情干预: 支持流式生成,即说即演。用户可随时插入新指令改变剧情走向(如从“争吵”转为“拥抱”),且角色外观、体态在过程中保持高度一致。
    • 回溯与分支: 支持剧情回溯和分支叙事。用户可回退到特定节点,尝试不同的指令以演化出 A/B 等不同故事线,实现“平行宇宙”般的创作体验。

2. 底层技术原理

HappyOyster 1.0 之所以能实现上述功能,依赖于以下四项关键技术:

  • 闭环世界状态建模(隐状态摘要):

    • 为解决长程一致性导致的计算量指数级膨胀问题,模型将世界状态压缩为“隐状态摘要”(Latent State)。
    • 生成新帧时,模型只需获取上一帧的“纸条”(状态摘要)及用户新指令,即可推演下一帧。
    • 这种机制不仅支撑了长程因果不中断,还天然支持暂停、回溯和分支叙事(即保存状态副本)。
  • 内生一致性(身份卡机制):

    • 针对角色频繁换脸、变色的痛点,模型为每个角色、物品和场景元素分配持久的“身份卡”(参考表征)。
    • 在生成过程中,模型通过全程注意力机制对照身份卡,确保无论镜头如何切换、角色如何遮挡,其外观和形态始终保持一致。
  • 开放因果动作空间:

    • 打破传统交互式系统预定义动作集的限制,将动作指令与自然语言置于同一语义接口。
    • 用户输入自然语言(如“骑上马”),模型自主推演出完整的动作序列及物理反馈,无需人工预设具体动作。
  • 长时序音视频协同:

    • 音频与视频在世界状态下联合解码生成,而非后期配音。
    • 确保脚步声、环境音、打击音效等与画面动作、天气、物理状态严格合规,实现真正的声画同步。

3. 行业评测与标准

针对世界模型领域缺乏系统性评测基准的现状,HappyOyster 团队正与南京大学共建世界模型评测基准,旨在定义该赛道的评价标准。

关键要点

  • 产品定位差异: HappyOyster 1.0 不是传统的文生视频工具,而是“世界模型”。传统视频是文本到视频的单向映射,而世界模型学习的是“当前状态+用户动作→下一个状态”的转移规律。
  • 实时性与交互性: 所有操作均为流式生成,无需等待渲染,用户指令可实时改变世界状态。
  • 长程一致性保障: 通过隐状态摘要和身份卡机制,解决了长视频生成中常见的角色崩坏和逻辑断裂问题。
  • 创作自由度提升: Directing 模式支持剧情回溯和分支演化,为互动内容、游戏剧本创作提供了“平行宇宙”般的工具。
  • 应用潜力广泛: 除娱乐外,可应用于游戏开发(快速生成可玩场景)、互动短剧、文旅虚拟漫游、博物馆沉浸式还原及数字人直播等领域。
  • 获取方式: 目前已正式上线,用户可通过手机号注册体验,API 计划近期开放。

意义与影响

HappyOyster 1.0 的推出标志着 AI 内容生成从“观看”向“体验”和“操控”的范式转移。

  1. 降低创作门槛,激发想象力: 通过自然语言控制和实时反馈,普通用户无需掌握复杂的美术资产搭建或物理引擎配置,即可构建具备物理反馈和交互逻辑的虚拟世界。
  2. 催生全新内容业态: 互动叙事、分支剧情、沉浸式体验等内容形式将成为可能,推动文娱行业从线性消费向交互式消费转型。
  3. 推动行业标准建立: 团队牵头与高校共建评测基准,有助于规范世界模型的技术发展路径,推动行业从概念走向标准化落地。
  4. 拓展行业应用边界: 为游戏、影视、文旅、教育等行业提供了低成本、高效率的沉浸式内容生成方案,有望加速数字孪生和虚拟现实的普及。
查看原文 →qbitai.com