技术博客美团技术团队·1 小时前

美团发布WBench评测基准，揭示世界模型交互能力边界

原标题：从月球漫步到赛博都市，WBench 测出了世界模型的边界

速览

美团LongCat团队推出首个面向交互式视频世界模型的系统性多轮评测基准WBench，旨在精准定位模型从“被动观看”到“主动交互”过程中的技术瓶颈。该基准对Kling 3.0、HY-World 1.5等20个前沿模型进行扫描，发现导航能力与视频画质脱钩，且多轮交互会导致导航能力显著衰减。WBench通过统一交互接口实现公平评估，其自动评分与人类偏好高度一致，为下一代世界模型评测提供了新范式。

AI 深度解读

从月球漫步到赛by都市，WBench 测出了世界模型的边界

背景

AI 视频生成技术正以惊人的速度进化，但目前的模型大多停留在“被动观看”的层面。用户虽然能生成高质量的视频，却难以真正“走进”这些由 AI 构建的世界中进行自由探索或交互。例如，在月球上漫步或穿梭于赛博朋克都市，究竟需要模型具备怎样的理解力？是仅仅模仿视频表象，还是真正理解了物理世界的逻辑？

为了厘清当前世界模型在从“被动生成”向“主动交互”演进过程中的能力边界，美团 LongCat 团队提出了 WBench。这是首个面向交互式视频世界模型的系统性多轮评测基准。WBench 旨在像“CT 扫描仪”一样，精准定位模型在交互控制、空间理解及多轮一致性等方面的短板，从而为行业提供一套标准化的评估体系。

核心内容

WBench 的构建基于四大核心要素：世界定义 (World Definition)、指令集 (Instruction Set)、统一交互接口 (Unified Interaction Interface) 以及 评测套件 (Evaluation Suite)。通过这一框架，团队对包括 Kling 3.0、HY-World 1.5、Genie 3 在内的 20 个前沿模型进行了全面测试，涵盖了 289 个测试案例和 1058 个交互轮次。

1. 评测框架设计：舞台与剧本的分离

WBench 将评测环境拆解为“舞台”与“剧本”，实现了灵活且严谨的评估：

丰富的世界定义：测试案例覆盖了从未来城市到流动油画等多种场景，支持第三人称掌控视角和第一人称沉浸式视角。
四种核心交互方式：设计了导航、主体动作、事件编辑和视角切换。这些交互方式可像搭积木一样自由组合，形成复杂的多轮任务。
多维度精准测量：通过分离设计，WBench 能够对视频质量、设定遵循度、交互遵循度、一致性、物理真实性五个维度进行测量，并引入了 NavScore、Gated Spatial Consistency 等硬核指标。

2. 核心发现与数据洞察

通过对 20 个模型的扫描，WBench 揭示了以下关键现象：

导航能力与其他维度“脱钩”：相关性矩阵显示，导航能力与视频画质、一致性等其他维度几乎无关（相关系数接近零）。这表明，模型在渲染高质量世界时，并未同步习得空间移动能力。导航依赖于独立的“空间状态表示”能力，而生成能力更多依赖通用先验。简言之，模型“知道”世界长什么样，但并不“理解”自己在其中的位置和方向。
多轮交互导致能力“雪崩式”衰减：在所有模型中，连续交互后的表现均出现下滑，其中导航能力下降最为严重。从第一轮到第四轮及以后，导航平均分下降了整整 33 点。这证明了位姿误差的逐轮累积是当前迭代式生成范式的结构性缺陷。
视角切换是最大难点：在所有交互类型中，视角切换（如从第一人称瞬间切换至第三人称）难度最高，平均分仅为 30.7，说明该技术远未成熟。
不同世界设定的结构性难度差异：第一人称视角虽利于导航，但难以保持场景设定；动物主体因动态复杂，对模型挑战最大（z=-1.9）。
模型表现各有专长，无全能选手：
- 文本理解与设定遵循：Kling 3.0 和 Wan 2.7 表现突出，属于第一梯队。
- 导航与运镜控制：专用世界模型优势明显，HY-World 1.5 和 Genie 3 遥遥领先。
- 一致性：LingBot-World 表现最“稳”。
- 物理真实性：Wan 2.7 在因果关系理解上最佳。
- 开源模型惊喜：HY-World 1.5 等开源模型在特定能力（如导航）上甚至超越了部分闭源模型。

3. 可靠性验证

WBench 的自动评分结果与 400 名人类标注者的偏好判断高度一致（Spearman ρ ≥ 0.94），证明了其作为评测“标尺”的准确性和可靠性。

关键要点

范式转移：WBench 是目前唯一真正统一的评测基准，打破了不同技术流派（文本指令、相机位姿、离散按键）之间的壁垒，实现了公平竞技。
交互闭环：WBench 同时覆盖开放域、双视角、四种交互类型和多轮闭环评测，填补了交互式世界模型系统性评测的空白。
能力解耦：视频生成质量与交互控制能力是两项独立技能，高质量的视觉输出不代表具备优秀的空间导航能力。
累积误差：当前迭代式生成范式存在结构性缺陷，多轮交互中的位姿误差累积是导致模型“迷路”的主要原因。
开源潜力：在特定垂直领域（如导航），开源模型（如 HY-World 1.5）展现出超越闭源模型的竞争力。

意义与影响

WBench 的提出标志着世界模型研究从“被动生成”向“主动交互”范式的重大演进。它不仅是一个评测工具，更定义了下一代评测标准：

明确技术边界：通过量化数据，清晰地揭示了当前世界模型在空间理解、多轮一致性和视角切换等方面的具体短板，为研发人员提供了明确的优化方向。
推动标准化：建立了统一的交互接口和评测套件，使得不同架构、不同输入范式的模型可以在同一标准下进行横向对比，加速了行业的技术迭代。
激发后续研究：作为交互式世界模型系统化评测的起点，WBench 的开源旨在激发更多后续研究，推动 AI 从“生成视频”向“构建可交互世界”迈进，为未来真正的沉浸式交互体验奠定基础。

查看原文 →tech.meituan.com