技术博客arXiv cs.AI·7 天前

PEAM：通过对比内化经验实现参数化具身智能体记忆

原标题：PEAM: Parametric Embodied Agent Memory through Contrastive Internalization of Experience in Minecraft

速览

PEAM框架将智能体记忆从推理时检索转化为通过经验内化的参数驻留技能。它结合慢速推理LLM与快速多模态专家模块，利用对比目标内化失败-修正轨迹，实现参数级持续学习且避免灾难性遗忘。该机制通过无需手动调参的自触发整合策略，使智能体具备跨任务分布的自进化能力。

AI 深度解读

PEAM：通过对比内化经验实现参数化具身智能体记忆

背景

在具身智能（Embodied AI）领域，智能体如何在开放、动态的环境中长期生存并完成任务，是一个核心挑战。传统的基于检索的记忆机制（Retrieval-based Memory）虽然在推理时能提供丰富的上下文信息，但存在显著瓶颈：检索延迟高、上下文窗口有限，且难以将经验转化为持久的“技能”。

另一方面，基于参数化的记忆（Parametric Memory）试图将知识直接编码在模型权重中，以实现快速推理，但往往面临“灾难性遗忘”（Catastrophic Forgetting）的问题——即在不断学习新任务时，旧有的技能会被覆盖或退化。此外，现有的具身智能体通常缺乏有效的自我进化机制，需要针对特定任务手动调整超参数来决定何时、如何整合新经验。

在此背景下，研究人员提出了 PEAM（Parametric Embodied Agent Memory），这是一个在《我的世界》（Minecraft）环境中运行的参数化具身智能体记忆框架。PEAM 旨在将智能体的记忆从“推理时的检索”转变为“通过经验内化的参数驻留技能”，从而实现高效、持续且无需人工干预的自我进化。

核心内容

PEAM 框架的核心在于构建了一种双模块架构，并引入了一套完整的经验内化与巩固机制。

1. 双模块架构：慢思考与快执行

PEAM 采用了一种混合架构，结合了大语言模型（LLM）的推理能力与轻量级模块的执行效率：

慢速深思模块（Slow Deliberative LLM）：这是一个通用的 LLM，负责开放式推理、规划和高阶决策。它处理复杂的逻辑任务，但计算成本较高。
快速参数化模块（Fast Parametric Module）：这是一个专门用于执行已巩固技能的模块。它基于多模态 Mixture-of-Experts (MoE) 架构，并采用 LoRA（Low-Rank Adaptation）技术。

2. 物理隔离的适配器与持续学习

为了解决持续学习中的灾难性遗忘问题，PEAM 的快速模块设计了按类别物理隔离的适配器（per-category physically isolated adapters）。

机制：不同的技能类别（如“挖掘”、“建造”、“战斗”）拥有独立的 LoRA 适配器。
优势：当智能体学习新技能时，只需更新对应的适配器，而不会影响其他类别的适配器权重。这种设计实现了参数级别的持续学习，确保了旧技能的稳定性。

3. 将失败作为一等公民的训练信号

PEAM 创新性地对待“失败”：它不仅从成功中学习，还从失败中学习。

失败-修正轨迹对（Failure-correction trajectory pairs）：智能体在尝试任务失败后，通过后续尝试获得的修正行为会被记录下来。
联合目标函数：通过行为克隆（Behavioral Cloning）和对比学习（Contrastive Objective）的联合目标，智能体内化这些轨迹。
学习本质：智能体不仅学会了“什么动作是成功的”，还学会了“修正后的动作与失败动作有何不同”。这种对比内化增强了智能体在类似情境下的鲁棒性。

4. 参数化价值评分与无阈值自我触发巩固

PEAM 引入了一套自动化机制来决定“内化什么”以及“何时内化”，无需针对特定任务进行手动调参：

参数化价值评分（Parameterization-worthiness score）：该评分用于评估某段经验是否值得被内化为参数。只有高价值的经验才会被送入快速模块进行训练，避免噪声干扰。
无尺度自触发巩固机制（Scale-free self-triggered consolidation mechanism）：
- 传统方法需要手动设定阈值来决定何时触发记忆巩固。
- PEAM 的机制是“自触发”的，它根据经验分布的变化自动判断是否需要巩固。
- 关键特性：该触发机制具有跨任务分布的泛化能力，无需重新调参即可在不同任务中工作，使智能体具备真正的自我进化能力。

关键要点

范式转变：PEAM 将具身智能体的记忆范式从“推理时检索”转变为“参数驻留技能”，通过经验内化实现记忆。
架构创新：采用“慢速 LLM + 快速 MoE LoRA 模块”的双层架构，兼顾复杂推理速度与执行效率。
防遗忘设计：通过按类别物理隔离的 LoRA 适配器，实现参数级别的持续学习，有效缓解灾难性遗忘。
失败驱动学习：将失败-修正轨迹对作为核心训练信号，通过行为克隆和对比学习，让智能体从错误中汲取教训。
自动化巩固：引入“参数化价值评分”筛选高价值经验，并通过“无尺度自触发机制”自动决定巩固时机，无需任务特定的手动调参。
自我进化能力：触发机制能够跨任务分布转移，使智能体在不同任务环境中无需重新配置即可实现自我进化。

意义与影响

PEAM 的研究在具身智能和持续学习领域具有重要的理论和实践意义：

提升长程任务性能：实验表明，在《我的世界》环境中，PEAM 显著提高了智能体在长程任务（long-horizon tasks）中的表现。通过内化技能，智能体能够更连贯、高效地执行复杂序列操作。
解决持续学习痛点：通过隔离适配器和对比内化机制，PEAM 有效减轻了在巩固新技能时对旧技能的遗忘，解决了具身智能体长期运行中的核心难题。
效率优势：与基于检索的具身智能体及参数化记忆变体相比，PEAM 在参数化推理与检索效率之间取得了更好的平衡。快速模块的执行速度远快于实时检索，同时保持了较高的准确性。
迈向通用自我进化智能体：PEAM 提出的无阈值自触发巩固机制，为构建无需人工干预、能够适应不同任务分布的自我进化智能体提供了可行路径。这标志着具身智能从“静态配置”向“动态自适应”迈进了一步。

总之，PEAM 不仅是一个在《我的世界》中表现优异的记忆框架，更提供了一种将经验转化为持久参数化技能的新方法论，为未来具身智能体的长期自主学习和适应能力奠定了重要基础。

查看原文 →arxiv.org

PEAM：通过对比内化经验实现参数化具身智能体记忆

速览

AI 深度解读

PEAM：通过对比内化经验实现参数化具身智能体记忆

背景

核心内容

1. 双模块架构：慢思考与快执行

2. 物理隔离的适配器与持续学习

3. 将失败作为一等公民的训练信号

4. 参数化价值评分与无阈值自我触发巩固

关键要点

意义与影响

相关推荐