← 返回信息流
AI 资讯Hacker News·1 天前

机器人视频分割为可执行子任务

原标题:Segmenting Robot Video into Actionable Subtasks

速览

该研究提出一种方法,能够将机器人执行任务的视频自动分割成多个可操作的子任务片段。通过分析视频中的动作序列,系统可以识别出关键步骤的边界,并将连续视频流转化为结构化的子任务序列。这一技术有助于机器人学习、任务规划和自动化编程,为机器人自主执行复杂任务提供了新的思路。

AI 深度解读

背景

在机器人学习长时程任务时,仅有高级指令是远远不够的。就像人类学习一道从未做过的菜,不仅需要“做一道菜”的最终指令,还需要具体的步骤、涉及的对象及其位置。同理,对于机器人演示视频,真正有用的信号是每一时刻正在发生的子任务,以及子任务之间的边界。

近年来,子任务已成为机器人学习的核心信号。无论是将子任务与思维链推理结合(Zawalski et al., 2025),还是在底层动作学习中引入语义子任务预测(如 π系列和 RT-H),亦或是利用子任务进行奖励建模(SARM),都证明了细粒度子任务标注的巨大价值。然而,随着机器人数据收集规模的不断扩大,依赖人工标注员逐帧观看视频并划分子任务已变得不再现实。目前,如何规模化地挖掘子任务标注缺乏公开的指导,且现有的密集视频描述方法往往只关注手部/第一人称操作视频,且基于已切分好的片段,忽略了从原始视频中划分子任务边界以及从第一人称视频迁移到机器人相机视角的难点。

核心

查看原文 →macrodata.co