技术博客arXiv cs.AI·8 天前

基于长期用户交互的具身多模态大语言模型代理个性化研究

原标题：Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions

速览

针对具身代理在长期交互中缺乏个性化上下文的问题，研究提出POLAR框架。该框架利用多模态知识图谱整合语义与情景记忆，以支持基于历史交互的个性化任务执行。实验表明，该机制能显著提升多跳推理及动态上下文跟踪能力。

AI 深度解读

长期用户交互中个性化具身多模态大语言模型智能体解读

背景

多模态大语言模型（Multimodal Large Language Models, MLLMs）驱动的具身智能体（Embodied Agents）在解决物理环境中的复杂任务方面展现出了巨大的潜力。然而，要实现真正的“个性化辅助”，仅仅遵循通用指令或识别物体类别是远远不够的。

在现实世界的应用场景中，用户的目标往往不是通过显式的指令直接给出的，而是隐含在长期的历史交互中。例如，用户可能不会每次都明确说“把红色的杯子给我”，而是通过之前的对话习惯、放置物品的偏好等隐含信息来表达意图。这就要求智能体能够利用随时间积累的个人化上下文（Personalized Context），从过去的交互中提取线索，从而更精准地理解当前需求。

现有的研究多关注于单次交互或短期记忆，缺乏对长期用户交互中个性化上下文的有效建模与利用机制。

核心内容

针对上述挑战，本文提出了 POLAR，这是一个专为长期用户交互设计的、基于多模态记忆增强的个性化具身智能体框架。POLAR 的核心创新在于其独特的记忆组织与检索机制，旨在让智能体能够“记住”并“理解”用户的个性化特征。

1. 多模态知识图谱的记忆组织

POLAR 将过往的用户交互数据组织成一个多模态知识图谱（Multimodal Knowledge Graph）。该图谱包含两种关键类型的记忆：

语义记忆（Semantic Memory）：用于捕捉个性化的上下文信息和视觉概念。这包括用户的偏好、习惯、特定物品的属性以及它们之间的语义关系。
情景记忆（Episodic Memory）：用于记录具身经验，例如智能体在环境中的运动轨迹、执行过的动作序列等。这种记忆让智能体能够理解“在什么时间、什么地点、做了什么”。

2. 基于检索的任务执行机制

为了执行具体的具身任务，POLAR 采用了一种检索增强（Retrieval-Augmented）的策略：

当前请求解析：当用户发出新的指令时，系统首先解析该请求。
相关记忆检索：系统从多模态知识图谱中检索与当前请求最相关的语义记忆和情景记忆。
任务引导执行：利用检索到的个性化上下文信息，指导智能体进行推理和动作执行，从而完成复杂任务。

3. 评估与验证

研究团队在多种不同的 MLLM 后端模型以及多样化的评估场景中对 POLAR 进行了广泛评估，重点研究了记忆机制在长期个性化中的作用。

实验结果表明，POLAR 提出的记忆机制能够 consistently（一致地）提升智能体的性能。这种提升主要得益于智能体能够更有效地利用在先前交互中积累的信息。特别是在以下场景中，性能增益尤为显著：

需要跨多次交互进行推理的任务；
需要执行多跳推理（Multi-hop Inference）的复杂任务；
需要随时间推移追踪用户特定上下文更新的任务。

关键要点

解决痛点：解决了传统具身智能体在处理隐含意图和长期个性化上下文时的不足，超越了简单的物体识别和通用指令遵循。
核心框架：提出了 POLAR 框架，专为长期用户交互中的个性化具身智能体设计。
双重记忆结构：
- 语义记忆：存储个性化上下文和视觉概念。
- 情景记忆：存储具身经验（如轨迹、动作）。
记忆增强检索：通过从多模态知识图谱中检索相关记忆来解释当前请求并指导任务执行。
性能提升：在多种 MLLM 后端和场景中验证了 POLAR 的有效性，特别是在涉及跨交互推理、多跳推理和上下文动态更新的任务中表现突出。
长期个性化：强调了“时间维度”在个性化中的作用，智能体能够随时间积累并更新对用户偏好的理解。

意义与影响

POLAR 框架的提出标志着具身智能从“通用型助手”向“真正懂你的个性化伙伴”迈出了重要一步。

推动个性化 AI 的发展：通过引入长期记忆机制，AI 不再是一个每次交互都“从零开始”的陌生人，而是一个能够随着时间推移越来越了解用户习惯、偏好和背景的智能体。这对于家庭服务机器人、个人助理等需要长期陪伴的场景具有重要意义。
提升复杂任务处理能力：在现实世界中，许多任务并非孤立存在，而是依赖于历史背景。POLAR 证明，通过有效利用长期积累的记忆，智能体能够处理更复杂的、需要多步推理和上下文关联的任务。
多模态记忆架构的借鉴价值：将语义记忆与情景记忆结合，并通过知识图谱进行组织的方法，为其他需要长期记忆的多模态 AI 系统提供了可借鉴的技术路径。
增强用户信任与体验：能够准确理解隐含意图并记住用户偏好的智能体，将显著提升用户体验和用户对 AI 系统的信任度，从而促进 AI 在更广泛领域的落地应用。

总之，POLAR 不仅是一个技术框架，更是一种理念：真正的个性化智能，源于对长期交互历史的深刻理解与有效利用。

查看原文 →arxiv.org