← 返回信息流
技术博客arXiv cs.AI·3 小时前

Delta-JEPA: Learning Action-Sensitive World Models via Latent Difference Decoding

AI 深度解读

背景

在强化学习与机器人控制领域,学习视觉世界模型是实现长期规划的关键。理想的世界模型需要在紧凑的潜在空间中捕捉环境的动态变化,并且这种潜在动力学必须对智能体的动作保持高度敏感,以便在规划阶段通过推演不同的动作序列来预测未来的状态。

近年来,基于联合嵌入预测架构(JEPA)的世界模型因其无需像素级重建的优势而备受关注。然而,重建无关的联合嵌入目标存在一个严重的隐患:模型容易发生表示坍缩,即潜在表示退化为对动作不敏感的状态。当潜在空间无法区分不同动作带来的状态转移时,基于 rollout 的规划也就无从谈起。因此,如何在保持重建无关优势的同时,强制潜在表示编码动作信息,成为当前世界模型研究的核心痛点。

核心内容

针对上述痛点,本文提出了 Delta-JEPA,一种端到端且无需重建的世界模型。其核心创新在于引入了潜在差异动作解码器,通过监督潜在空间中的位移来学习动作敏感的世界模型。

问题陈述:学习用于规划的视觉世界模型需要紧凑的潜在动力学,且这些动力学必须对动作保持敏感。然而,重建无关的联合嵌入目标极易坍缩为动作不敏感的表示,导致规划失效。

方法设计:Delta-JEPA 在潜在前向预测的基础上,增加了 LDAD。与传统的逆解码器不同,逆解码器通常是将连续两个时间步的端点嵌入拼接后推断动作,而 LDAD 则是从连续观测之间的潜在位移中直接重建所执行的动作。

机制解析:这种位移级监督直接对转移几何施加了正则化约束。由于动作是从潜在位移中重建的,相邻的潜在嵌入不能发生坍缩,否则将丢失动作信息;同时,这种机制鼓励不同的动作在潜在空间中产生明显可区分的变化,从而为基于 rollout 的规划提供了保障。

技术优势:Delta-JEPA 仅依赖潜在预测和动作重建两个目标,完全摒弃了像素重建以及分布匹配正则化,使得模型更加简洁高效。

实验验证:在四个视觉连续控制任务上的实验表明,Delta-JEPA 的规划性能优于基于 JEPA 和表示学习的世界模型基线。消融实验进一步证明,基于位移的动作解码比端点拼接策略更有效;动作敏感性分析也显示出 Delta-JEPA 具有更清晰的动作条件潜在响应。这些结果证实,监督潜在差异是一种简单且有效的机制,能够实现抗坍缩且

查看原文 →arxiv.org