LARYBench发布:定义具身动作表征ImageNet,首次度量从人类视频学习的泛化表征
速览
LARYBench是一个系统化评测基准,旨在从大规模视觉数据中学习通用的隐式动作表征,填补具身智能缺乏标准化评测的空白。该基准涵盖超百万段视频,通过本体动作回归和语义动作分类评估表征质量。实验表明,通用视觉模型在动作泛化和控制精度上显著优于专为具身智能设计的专家模型,证明具身动作表征可从人类视频数据中涌现。
AI 深度解读
背景
具身智能(Embodied AI)在从固定场景走向通用泛化的过程中,面临着巨大的数据与表征瓶颈。尽管互联网上存在海量的人类视频数据,但机器人领域长期依赖成本高、规模小的遥操作采集数据,导致带精确动作标注的数据极度稀缺。这种数据断层使得机器人难以像大语言模型那样通过大规模数据预训练来涌现能力。
核心矛盾在于:如何将互联网上丰富但缺乏动作标签的人类视觉信号,转化为机器人可用的、跨本体(Cross-embodiment)的通用动作表征。传统的具身智能模型往往绑定特定硬件,泛化能力弱;而现有的评测体系多关注端到端任务成功率,缺乏对中间“隐式动作表征”质量的独立、标准化度量。因此,业界亟需一个类似 ImageNet 的基准,来指引从人类视频数据中学习通用隐式动作表征的研究方向,推动具身智能走向真正的“GPT时刻”。
核心内容
美团技术团队发布了 LARYBench (Latent Action Representation Yielding Benchmark),这是首个旨在系统化评估从大规模视觉数据中学习到的通用隐式动作表征质量的基准。该基准试图填补具身动作表征领域缺乏标准化评测的空白。
1. 评测体系构建 LARYBench 从“本体动作”和“语义动作”两个粒度出发,构建了包含超过一百万段精心标注视频(总时长超1000小时)、151种动作类型、62万对图像及59.5万条运动轨迹的大规模数据集。
- 动作层级定义:
- 本体动作:机器人控制信号(如末端位姿、夹爪开闭)。
- 原子语义动作:可自然语言描述的原子操作(如上下移动、夹爪开闭)。
- 复合语义动作:具有完整语义的行为(如拿起、放下)。
- 评测流程:输入视频/图像序列,通过待测的隐式动作模型(LAM)提取动作表征 $z$,随后通过浅层探测头(Probing)验证表征质量。
- 语义动作分类:使用 Attentive Probing 结构,以准确率衡量对高层语义的捕捉。
- 本体动作回归:使用 Action Expert 解码器(MLP),以均方误差(MSE)衡量对底层控制信号的还原。
2. 实验设计与对比 评测覆盖了四种范式的模型:专为具身设计的隐式动作模型、语义级通用视觉编码器、像素级通用视觉编码器,以及在通用编码器基础上训练的隐式动作模型。数据集涵盖了11种不同机器人形态(如 Franka、AgiBot G1、Agilex Cobot 等)及多样化的非结构化环境。
3. 主要实验结果
- 通用模型领先:在动作泛化和控制精度上,通用视觉模型(如 DINOv3、V-JEPA-2)显著优于专为具身设计的动作专家模型(如 LAPA)。DINOv3 在四个数据集上的平均 MSE 低至 0.19,而 LAPA 高达 0.97。
- 语义级优于像素级:语义级表征(V-JEPA-2, DINOv3)在本体动作回归上的误差普遍低于像素级表征(Wan2.2 VAE, FLUX.2-dev VAE),说明动作信息在语义空间中得到更好保留。
- 长尾泛化能力:在样本量较少的长尾动作类别中,强模型(通用视觉模型)与弱模型的性能差距拉大,表明表征能力强的模型在低频场景下泛化更好。
- 注意力聚焦分析:可视化显示,语义级模型能精准聚焦于手-物交互区域;像素级模型注意力分散(受光影遮挡干扰);具身专项模型 LAPA 注意力弥散,缺乏明确聚焦。
- 超参数消融:在 LAPA-DINOv3 框架下,适当增加序列长度和隐空间维度可提升性能,但码本大小存在最优区间,并非越大越好。
关键要点
- 填补评测空白:LARYBench 是首个解耦表征与下游策略、跨本体、多粒度的动作表征评测基准,解决了具身领域缺乏“动作表征 ImageNet”的问题。
- 通用视觉模型胜出:实验证实,无需显式动作监督,通用视觉基础模型(如 DINOv3)从大规模人类视频预训练中习得的隐式动作表征,在语义理解和控制精度上均优于专门的具身 LAM 模型。
- 隐式表征的价值:通过“帧与帧之间的变化”学习到的隐式动作表征,能够抽象出与本体无关的动作语义,有效打通从视觉到动作的链路,具备更强的跨形态迁移潜力。
- 人类视频数据红利:互联网规模的人类视频数据蕴含巨大的具身学习潜力。利用隐式动作表征提取本体无关的动作先验,对齐至通用视觉模型的特征空间,是突破机器人标注数据瓶颈的有效路径。
- 数据构建标准:LARYBench 数据集通过自动化流程处理多视角、跨本体数据,确保训练集准确率>85%,测试集准确率>95%,覆盖了从常见操作到长尾动作(如铲雪、漂浮气球)的广泛场景。
意义与影响
LARYBench 的发布对具身智能领域具有里程碑式的意义:
- 确立标准化度量衡:为隐式动作表征提供了统一的检验尺度,使得研究者能够独立评估表征质量,加速数据驱动的人类视频预训练迭代,推动具身智能从“固定场景精调”向“规模化预训练”范式转变。
- 揭示能力边界与方向:证明了通用视觉基础模型在动作表征上的优越性,指出了专门具身 LAM 可能因数据规模有限或过早受限于低级控制而面临“表征坍缩”的风险,为后续模型设计提供了明确参照。
- 验证规模化学习路径:验证了利用互联网人类视频数据构建通用动作先验的可行性。这一发现表明,具身智能应充分利用人类视频资源,通过隐式表征提取通用语义,再对齐控制策略,从而真正释放大规模数据的红利,助力 VLA 模型实现通用泛化。
目前,LARYBench 评测数据集及配套代码已在 GitHub、Hugging Face 和 Modelscope 等平台开源,欢迎社区共同完善动作表征评估体系。
