AI 资讯量子位·1 小时前

LeCun团队让世界模型学会持续学习

原标题：刚刚，LeCun团队让世界模型学会持续学习！

速览

LeCun团队在持续学习领域取得进展，使世界模型具备持续学习能力，克服了灾难性遗忘问题。该研究探索了模型在动态环境中自适应学习，为通用人工智能发展迈出重要一步。

AI 深度解读

背景

传统的世界模型在预训练完成后通常冻结所有参数。在部署阶段，无论是执行模型预测控制（MPC）还是其他规划算法，模型都只能依赖训练时学到的静态知识。一旦测试环境出现分布偏移——例如机器人面对从未见过的物体形状或迷宫布局——冻结模型在隐空间中的预测就会迅速失准，单步误差经MPC滚动放大后导致规划成功率骤降。LeCun团队认为，世界模型应当像真正的智能体一样，在与环境交互的过程中持续校准自己对世界的理解，而不是部署后就停止学习。

核心内容

AdaJEPA（Adaptive Joint-Embedding Predictive Architecture）基于JEPA路线，将测试时自适应（Test-Time Adaptation, TTA）引入世界模型，使其能在交互中实时调整编码器和预测器的参数。整个循环从传统的“规划-执行-再规划”拓展为“规划-执行-观测-更新-再规划”五步闭环：

规划：当前观测经状态编码器映射为隐状态，世界模型在隐空间中进行MPC滚动预测，优化出一段动作序列。
执行：只执行MPC规划出的第一个动作，真实环境返回下一帧观测。
观测：将这次真实状态转移（当前观测、动作、下一帧观测）存入在线缓存区，缓存区默认只保留最近N条转移。
更新：模型根据当前观测和动作预测下一时刻隐状态，并与真实下一帧观测编码出的隐状态对齐，计算自监督损失。为防止表征空间崩塌，对目标表征使用stop-gradient，且仅更新视觉编码器和预测器的最后几层。每次MPC重规划只做1步梯度下降。
再规划：更新后的世界模型立即进入下一轮MPC，此时模型已经用真实交互反馈“校准”过，对当前环境更准确。

这种机制类似于经典强化学习中的Dyna架构：模型并非一次训练完毕，而是在真实交互中不断修正对世界的建模。实验在PushT/PushObj和PointMaze两个基准上验证，面对未见过的物体形状或迷宫布局，AdaJEPA的规划成功率显著优于冻结世界模型。例如在PushObj未见过形状上成功率近乎翻倍；PointMaze中GD规划成功率从53.3%提升到78.7%，CEM从49.3%提升到70.7%。额外计算延迟极低，每步更新仅增加0.01~0.03秒。

关键要点

核心创新：将测试时自适应（TTA）引入JEPA世界模型，实现部署阶段的持续学习。
工作流程：从“规划-执行-再规划”变为“规划-执行-观测-更新-再规划”，每执行一步动作就用真实反馈轻量更新模型。
架构设计：基于JEPA的隐空间预测，状态编码器、动作编码器、预测器协同工作，更新仅在隐空间进行。
更新策略：只更新视觉编码器和预测器的最后几层，每次重规划单步梯度下降，防止表征崩溃并保持低延迟。
实验结果：在分布内和分布外环境下，规划成功率均大幅提升，额外计算开销可忽略（0.01~0.03秒/步）。
与Dyna的关系：思路类似经典强化学习的Dyna，但AdaJEPA在无奖励信号的自监督框架下完成持续校准。

意义与影响

AdaJEPA打破了世界模型“训练完即冻结”的惯例，展示了一种轻量、高效的在部署时自我校准机制。这意味着机器人、自动驾驶等具身智能系统在部署后能够自主适应环境变化（如光照、物体形状、场景布局），而无需重新训练或收集新数据微调。同时，该方法保留了JEPA系模型在隐空间高效预测的优势，额外计算成本极低，具备实用的实时性。这项工作为构建真正持续学习的世界模型提供了可行路径，有望推动具身智能从实验室固定场景走向开放动态环境。未来，结合更大规模的模型和更复杂的任务，这种自适应方法或将成为世界模型部署的标准范式。

查看原文 →qbitai.com

LeCun团队让世界模型学会持续学习

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐