LeCun团队让世界模型学会持续学习
速览
LeCun团队在持续学习领域取得进展,使世界模型具备持续学习能力,克服了灾难性遗忘问题。该研究探索了模型在动态环境中自适应学习,为通用人工智能发展迈出重要一步。
AI 深度解读
背景
传统的世界模型在预训练完成后通常冻结所有参数。在部署阶段,无论是执行模型预测控制(MPC)还是其他规划算法,模型都只能依赖训练时学到的静态知识。一旦测试环境出现分布偏移——例如机器人面对从未见过的物体形状或迷宫布局——冻结模型在隐空间中的预测就会迅速失准,单步误差经MPC滚动放大后导致规划成功率骤降。LeCun团队认为,世界模型应当像真正的智能体一样,在与环境交互的过程中持续校准自己对世界的理解,而不是部署后就停止学习。
核心内容
AdaJEPA(Adaptive Joint-Embedding Predictive Architecture)基于JEPA路线,将测试时自适应(Test-Time Adaptation, TTA)引入世界模型,使其能在交互中实时调整编码器和预测器的参数。整个循环从传统的“规划-执行-再规划”拓展为“规划-执行-观测-更新-再规划”五步闭环:
- 规划:当前观测经状态编码器映射为隐状态,世界模型在隐空间中进行MPC滚动预测,优化出一段动作序列。
- 执行:只执行MPC规划出的第一个动作,真实环境返回下一帧观测。
- 观测:将这次真实状态转移(当前观测、动作、下一帧观测)存入在线缓存区,缓存区默认只保留最近N条转移。
- 更新:模型根据当前观测和动作预测下一时刻隐状态,并与真实下一帧观测编码出的隐状态对齐,计算自监督损失。为防止表征空间崩塌,对目标表征使用stop-gradient,且仅更新视觉编码器和预测器的最后几层。每次MPC重规划只做1步梯度下降。
- 再规划:更新后的世界模型立即进入下一轮MPC,此时模型已经用真实交互反馈“校准”过,对当前环境更准确。
这种机制类似于经典强化学习中的Dyna架构:模型并非一次训练完毕,而是在真实交互中不断修正对世界的建模。实验在PushT/PushObj和PointMaze两个基准上验证,面对未见过的物体形状或迷宫布局,AdaJEPA的规划成功率显著优于冻结世界模型。例如在PushObj未见过形状上成功率近乎翻倍;PointMaze中GD规划成功率从53.3%提升到78.7%,CEM从49.3%提升到70.7%。额外计算延迟极低,每步更新仅增加0.01~0.03秒。
关键要点
- 核心创新:将测试时自适应(TTA)引入JEPA世界模型,实现部署阶段的持续学习。
- 工作流程:从“规划-执行-再规划”变为“规划-执行-观测-更新-再规划”,每执行一步动作就用真实反馈轻量更新模型。
- 架构设计:基于JEPA的隐空间预测,状态编码器、动作编码器、预测器协同工作,更新仅在隐空间进行。
- 更新策略:只更新视觉编码器和预测器的最后几层,每次重规划单步梯度下降,防止表征崩溃并保持低延迟。
- 实验结果:在分布内和分布外环境下,规划成功率均大幅提升,额外计算开销可忽略(0.01~0.03秒/步)。
- 与Dyna的关系:思路类似经典强化学习的Dyna,但AdaJEPA在无奖励信号的自监督框架下完成持续校准。
意义与影响
AdaJEPA打破了世界模型“训练完即冻结”的惯例,展示了一种轻量、高效的在部署时自我校准机制。这意味着机器人、自动驾驶等具身智能系统在部署后能够自主适应环境变化(如光照、物体形状、场景布局),而无需重新训练或收集新数据微调。同时,该方法保留了JEPA系模型在隐空间高效预测的优势,额外计算成本极低,具备实用的实时性。这项工作为构建真正持续学习的世界模型提供了可行路径,有望推动具身智能从实验室固定场景走向开放动态环境。未来,结合更大规模的模型和更复杂的任务,这种自适应方法或将成为世界模型部署的标准范式。
