← 返回信息流
技术博客美团技术团队·1 小时前

美团发布WBench评测基准,揭示世界模型交互能力边界

原标题:从月球漫步到赛博都市,WBench 测出了世界模型的边界

速览

美团LongCat团队推出首个面向交互式视频世界模型的系统性多轮评测基准WBench,旨在精准定位模型从“被动观看”到“主动交互”过程中的技术瓶颈。该基准对Kling 3.0、HY-World 1.5等20个前沿模型进行扫描,发现导航能力与视频画质脱钩,且多轮交互会导致导航能力显著衰减。WBench通过统一交互接口实现公平评估,其自动评分与人类偏好高度一致,为下一代世界模型评测提供了新范式。

AI 深度解读

从月球漫步到赛by都市,WBench 测出了世界模型的边界

背景

AI 视频生成技术正以惊人的速度进化,但目前的模型大多停留在“被动观看”的层面。用户虽然能生成高质量的视频,却难以真正“走进”这些由 AI 构建的世界中进行自由探索或交互。例如,在月球上漫步或穿梭于赛博朋克都市,究竟需要模型具备怎样的理解力?是仅仅模仿视频表象,还是真正理解了物理世界的逻辑?

为了厘清当前世界模型在从“被动生成”向“主动交互”演进过程中的能力边界,美团 LongCat 团队提出了 WBench。这是首个面向交互式视频世界模型的系统性多轮评测基准。WBench 旨在像“CT 扫描仪”一样,精准定位模型在交互控制、空间理解及多轮一致性等方面的短板,从而为行业提供一套标准化的评估体系。

核心内容

WBench 的构建基于四大核心要素:世界定义 (World Definition)指令集 (Instruction Set)统一交互接口 (Unified Interaction Interface) 以及 评测套件 (Evaluation Suite)。通过这一框架,团队对包括 Kling 3.0、HY-World 1.5、Genie 3 在内的 20 个前沿模型进行了全面测试,涵盖了 289 个测试案例和 1058 个交互轮次。

1. 评测框架设计:舞台与剧本的分离

WBench 将评测环境拆解为“舞台”与“剧本”,实现了灵活且严谨的评估:

  • 丰富的世界定义:测试案例覆盖了从未来城市到流动油画等多种场景,支持第三人称掌控视角和第一人称沉浸式视角。
  • 四种核心交互方式:设计了导航、主体动作、事件编辑和视角切换。这些交互方式可像搭积木一样自由组合,形成复杂的多轮任务。
  • 多维度精准测量:通过分离设计,WBench 能够对视频质量、设定遵循度、交互遵循度、一致性、物理真实性五个维度进行测量,并引入了 NavScore、Gated Spatial Consistency 等硬核指标。

2. 核心发现与数据洞察

通过对 20 个模型的扫描,WBench 揭示了以下关键现象:

  • 导航能力与其他维度“脱钩”: 相关性矩阵显示,导航能力与视频画质、一致性等其他维度几乎无关(相关系数接近零)。这表明,模型在渲染高质量世界时,并未同步习得空间移动能力。导航依赖于独立的“空间状态表示”能力,而生成能力更多依赖通用先验。简言之,模型“知道”世界长什么样,但并不“理解”自己在其中的位置和方向。

  • 多轮交互导致能力“雪崩式”衰减: 在所有模型中,连续交互后的表现均出现下滑,其中导航能力下降最为严重。从第一轮到第四轮及以后,导航平均分下降了整整 33 点。这证明了位姿误差的逐轮累积是当前迭代式生成范式的结构性缺陷。

  • 视角切换是最大难点: 在所有交互类型中,视角切换(如从第一人称瞬间切换至第三人称)难度最高,平均分仅为 30.7,说明该技术远未成熟。

  • 不同世界设定的结构性难度差异: 第一人称视角虽利于导航,但难以保持场景设定;动物主体因动态复杂,对模型挑战最大(z=-1.9)。

  • 模型表现各有专长,无全能选手

    • 文本理解与设定遵循Kling 3.0Wan 2.7 表现突出,属于第一梯队。
    • 导航与运镜控制:专用世界模型优势明显,HY-World 1.5Genie 3 遥遥领先。
    • 一致性LingBot-World 表现最“稳”。
    • 物理真实性Wan 2.7 在因果关系理解上最佳。
    • 开源模型惊喜HY-World 1.5 等开源模型在特定能力(如导航)上甚至超越了部分闭源模型。

3. 可靠性验证

WBench 的自动评分结果与 400 名人类标注者的偏好判断高度一致(Spearman ρ ≥ 0.94),证明了其作为评测“标尺”的准确性和可靠性。

关键要点

  • 范式转移:WBench 是目前唯一真正统一的评测基准,打破了不同技术流派(文本指令、相机位姿、离散按键)之间的壁垒,实现了公平竞技。
  • 交互闭环:WBench 同时覆盖开放域、双视角、四种交互类型和多轮闭环评测,填补了交互式世界模型系统性评测的空白。
  • 能力解耦:视频生成质量与交互控制能力是两项独立技能,高质量的视觉输出不代表具备优秀的空间导航能力。
  • 累积误差:当前迭代式生成范式存在结构性缺陷,多轮交互中的位姿误差累积是导致模型“迷路”的主要原因。
  • 开源潜力:在特定垂直领域(如导航),开源模型(如 HY-World 1.5)展现出超越闭源模型的竞争力。

意义与影响

WBench 的提出标志着世界模型研究从“被动生成”向“主动交互”范式的重大演进。它不仅是一个评测工具,更定义了下一代评测标准:

  1. 明确技术边界:通过量化数据,清晰地揭示了当前世界模型在空间理解、多轮一致性和视角切换等方面的具体短板,为研发人员提供了明确的优化方向。
  2. 推动标准化:建立了统一的交互接口和评测套件,使得不同架构、不同输入范式的模型可以在同一标准下进行横向对比,加速了行业的技术迭代。
  3. 激发后续研究:作为交互式世界模型系统化评测的起点,WBench 的开源旨在激发更多后续研究,推动 AI 从“生成视频”向“构建可交互世界”迈进,为未来真正的沉浸式交互体验奠定基础。
查看原文 →tech.meituan.com