技术博客Hugging Face Blog·2 小时前

MolmoMotion：语言引导的3D运动预测技术

原标题：MolmoMotion: Language-guided 3D motion forecasting

速览

MolmoMotion是一种基于语言引导的3D运动预测方法。该技术通过自然语言指令来理解和预测物体的三维运动轨迹。这一突破为机器人控制和自动驾驶等领域提供了更精准的交互与决策支持。

AI 深度解读

MolmoMotion：语言引导的3D运动预测

背景

机器在感知运动方面已经表现得非常出色。给定一段视频，现代模型能够以极高的置信度追踪物体和点在场景中的移动轨迹。然而，感知本质上是回顾性的：它解释的是已经发生的运动。而我们希望构建的许多系统和应用需要向前看。例如，伸手去拿杯子的机器人必须在接触杯子之前预判杯子的移动轨迹；视频生成模型如果要生成物理上合理的帧，就必须知道接下来会发生什么合理的运动。

预测运动比观察运动更难，但在许多场景中也更有用。这一理念正是 MolmoMotion 的动机所在，这是我们要发布的一个新的运动预测模型。

核心内容

MolmoMotion 是一个基于语言引导的3D运动预测模型。给定一个视频帧、物体上标记的3D点以及描述预期动作的书面指令（例如，“移动并旋转桌上带有水果的木碗”），MolmoMotion 可以预测这些点在接下来几秒钟内在3D空间中的移动位置，其性能显著优于现有的预测方法。

模型架构与原理

MolmoMotion 以一种刻意且高效的方式表示运动：作为附着在物体上的世界坐标系中的3D点。这种方式捕捉了运动信息，却无需承担渲染完整视频的成本。选择这种表示方法是因为我们需要一种具备以下三个特性的通用运动表示：

类别无关性（Class-agnostic）：不与人体、手部、刚性物体或任何其他固定类别的模板绑定。
视角稳定性（View-stable）：相同的物理运动在不同相机和视角下应保持一致的表示。
下游系统可用性：可直接被需要推理物理运动的下游系统使用。

在考虑的多种表示方法中，只有这种稀疏的表面点集满足了所有三个条件。它可以在不假设被移动物体类型的情况下，描述刚性、关节式以及（在限制范围内）可变形的运动。由于这些点存在于共享的世界坐标系中，其轨迹在相机运动和视角变化下保持稳定。此外，由于它们是3D空间中紧凑的显式轨迹，可以直接传递给机器人策略或视频生成模型等系统。

MolmoMotion 使用 Molmo 2 作为其主干网络，使其能够将语言指令与图像中的物体和点联系起来。给定一段短视频历史、动作描述以及一组带有初始3D位置的查询点，模型首先识别出所指的物体、查询点以及指令描述的运动。然后，它预测每个点的未来3D轨迹。

我们训练了 MolmoMotion 的两个变体：

自回归变体（MolmoMotion-AR）：逐步预测未来坐标。它遵循视觉语言模型（VLMs）使用的坐标风格预测，将3D坐标表示为结构化文本，并按时间顺序写出未来轨迹。由于每个新坐标都基于已生成的轨迹进行条件预测，这鼓励了平滑的 rollout（ rollout 指模型生成的序列），并在未来路径明确定义时提供最强的准确性。
流匹配变体（MolmoMotion-FM）：通过将噪声转化为运动，在连续3D空间中预测轨迹。这使得它更适合表示不确定性，当指令允许多种合理的未来情况时，该变体表现更佳。

数据与基准：MolmoMotion-1M 和 PointMotionBench

为了训练 MolmoMotion，我们需要尚不存在的数据：带有特定物体接地3D点轨迹并与动作描述配对的大规模视频。现有的3D跟踪数据集规模较小且领域有限，而互联网视频虽然具备我们想要的规模和多样性，但缺乏3D标注。因此，我们构建了一个自动管道，从非受限视频中提取物体接地的3D轨迹。

我们的标注管道给定输入视频及其动作描述，生成度量世界坐标系中的物体接地3D点轨迹。由于来自非受限视频的原始轨迹存在噪声（深度和跟踪误差导致点抖动和漂移），且物体在视频中往往大部分时间静止，为了使数据更可靠，我们过滤掉不与物体其余部分一致运动的点，平滑剩余轨迹，并将每个片段分割到物体实际运动的窗口期。

运行该管道产生了 MolmoMotion-1M——据我们所知，这是迄今为止 assembled 的最大规模的动作描述、物体接地3D点轨迹语料库，涵盖736种运动类型和5.6K个不同的物体。

为了评估 MolmoMotion 的预测性能，我们还构建了 PointMotionBench，这是一个经过人工验证的保留3D轨迹基准测试。它涵盖2.7K个视频片段，涉及111个物体类别和61种运动类型，包括室内操作、第一人称手物交互和室外动态场景。对于每个片段，模型获得当前观察、物体查询点和动作描述，并根据其预测的3D点轨迹与物体实际未来运动的匹配程度进行评估。这为我们提供了3D运动预测的直接定量测试，而不是依赖于生成的点轨迹是否看起来合理。

关键要点

创新表示法：MolmoMotion 使用附着在物体上的3D点作为运动表示，而非渲染完整视频，实现了类别无关、视角稳定且可直接用于下游任务的高效表示。
双变体架构：
- MolmoMotion-AR：采用自回归方式，将3D坐标量化为文本，适合路径明确、追求高准确性的场景。
- MolmoMotion-FM：采用流匹配方式，在连续3D空间中预测，适合处理存在多种合理未来的不确定性场景。
大规模数据集：发布了 MolmoMotion-1M，包含116万视频中的3D点轨迹和动作描述，是目前最大的同类数据集。
新基准测试：发布了 PointMotionBench，包含2.7K个人工验证的视频片段，用于量化评估3D运动预测的准确性。
开源开放：模型权重、数据集和基准测试均已向社区开放，旨在促进研究、改进和定制。

意义与影响

MolmoMotion 及其配套资源在多个下游任务中显示出广泛的适用性，从机器人规划到可控视频生成。

提升运动预测精度：在 PointMotionBench 上，MolmoMotion 优于我们测试的所有现有3D运动预测方法，证明了其在预测未来3D运动方面的准确性。
赋能机器人操作：模型学到的运动知识有助于机器人执行操作任务，通过预判物体运动轨迹，机器人可以更精准地进行抓取和交互。
改进视频生成：相同的运动知识也可以用于指导生成视频中的运动，使生成的视频在物理上更加合理和连贯。

通过开源 MolmoMotion 模型、MolmoMotion-1M 数据集和 PointMotionBench 基准，我们鼓励社区深入研究、改进和定制这些工具，从而推动3D运动预测及相关应用领域的发展。

查看原文 →huggingface.co