技术博客arXiv cs.AI·3 小时前

Delta-JEPA: Learning Action-Sensitive World Models via Latent Difference Decoding

AI 深度解读

背景

在强化学习与机器人控制领域，学习视觉世界模型是实现长期规划的关键。理想的世界模型需要在紧凑的潜在空间中捕捉环境的动态变化，并且这种潜在动力学必须对智能体的动作保持高度敏感，以便在规划阶段通过推演不同的动作序列来预测未来的状态。

近年来，基于联合嵌入预测架构（JEPA）的世界模型因其无需像素级重建的优势而备受关注。然而，重建无关的联合嵌入目标存在一个严重的隐患：模型容易发生表示坍缩，即潜在表示退化为对动作不敏感的状态。当潜在空间无法区分不同动作带来的状态转移时，基于 rollout 的规划也就无从谈起。因此，如何在保持重建无关优势的同时，强制潜在表示编码动作信息，成为当前世界模型研究的核心痛点。

核心内容

针对上述痛点，本文提出了 Delta-JEPA，一种端到端且无需重建的世界模型。其核心创新在于引入了潜在差异动作解码器，通过监督潜在空间中的位移来学习动作敏感的世界模型。

问题陈述：学习用于规划的视觉世界模型需要紧凑的潜在动力学，且这些动力学必须对动作保持敏感。然而，重建无关的联合嵌入目标极易坍缩为动作不敏感的表示，导致规划失效。

方法设计：Delta-JEPA 在潜在前向预测的基础上，增加了 LDAD。与传统的逆解码器不同，逆解码器通常是将连续两个时间步的端点嵌入拼接后推断动作，而 LDAD 则是从连续观测之间的潜在位移中直接重建所执行的动作。

机制解析：这种位移级监督直接对转移几何施加了正则化约束。由于动作是从潜在位移中重建的，相邻的潜在嵌入不能发生坍缩，否则将丢失动作信息；同时，这种机制鼓励不同的动作在潜在空间中产生明显可区分的变化，从而为基于 rollout 的规划提供了保障。

技术优势：Delta-JEPA 仅依赖潜在预测和动作重建两个目标，完全摒弃了像素重建以及分布匹配正则化，使得模型更加简洁高效。

实验验证：在四个视觉连续控制任务上的实验表明，Delta-JEPA 的规划性能优于基于 JEPA 和表示学习的世界模型基线。消融实验进一步证明，基于位移的动作解码比端点拼接策略更有效；动作敏感性分析也显示出 Delta-JEPA 具有更清晰的动作条件潜在响应。这些结果证实，监督潜在差异是一种简单且有效的机制，能够实现抗坍缩且

查看原文 →arxiv.org

Delta-JEPA: Learning Action-Sensitive World Models via Latent Difference Decoding

AI 深度解读

背景

核心内容

相关推荐