技术博客arXiv cs.AI·1 天前

WorldLines基准测试与ObsMem框架助力具身智能长程记忆

原标题：WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

速览

针对具身智能在家庭场景中需长期记忆用户习惯与世界状态的需求，研究提出WorldLines基准测试，涵盖对话、动作及状态变化等多模态数据。同时推出ObsMem框架，通过维护可见性感知记忆和动作原生状态轨迹，提升智能体的状态感知决策能力。实验表明，该框架有效缓解了部分可观测性、世界状态覆盖及长程记忆向具身计划转化等挑战。

AI 深度解读

WorldLines：长视界状态感知具身智能体的基准测试与建模解读

背景

随着具身智能（Embodied AI）从实验室走向真实家庭环境，智能体（Agents）面临的挑战已从简单的短期任务执行转变为长期的、持续的人类辅助。在现实家居场景中，智能体需要跨越数天甚至数周的时间跨度，记住用户的生活习惯、世界状态的变化以及过去的交互历史。

然而，当前的评估体系存在明显的断层：

长期记忆基准：现有的长时记忆基准测试主要侧重于以语言为中心的检索和问答（QA），缺乏对物理世界交互的考量。
具身智能基准：现有的具身智能基准测试通常聚焦于短视界的任务执行，往往忽略了在动态环境中对长期记忆的实际运用能力。

这种评估缺失导致研究者难以准确衡量具身智能体在真实、长期、动态环境下的记忆保持与状态感知能力。为了解决这一空白，研究团队提出了 WorldLines 项目。

核心内容

WorldLines 是一个专为长视界具身家庭辅助任务设计的基于项目驱动的基准测试（Benchmark）。该研究不仅构建了新的评估框架，还提出了一种名为 ObsMem 的观察者 grounded 记忆框架，旨在提升智能体在部分可观测环境下的决策能力。

1. WorldLines 基准测试构建

WorldLines 通过构建时间跨度较长的家庭交互轨迹（traces），模拟真实的长期辅助场景。这些轨迹包含以下多维度的数据：

对话记录：用户与智能体之间的自然语言交互。
动作序列：智能体执行的具体物理或数字动作。
执行反馈：动作执行后的结果反馈。
状态变化：物体和设备状态的动态改变。

基于这些轨迹，WorldLines 将其转化为带有证据链接（evidence-linked）的样本，主要用于评估两类核心能力：

记忆问答（Memory QA）：测试智能体对过去事件、状态和交互的检索与理解能力。
具身任务规划（Embodied Task Planning）：测试智能体如何基于长期记忆规划未来的具身行动。

2. ObsMem：观察者 grounded 记忆框架

为了应对长视界任务中的记忆难题，研究团队提出了 ObsMem 框架。该框架的核心创新在于维护两种关键记忆形式：

可见性感知记忆（Visibility-aware memories）：智能体不仅记录“发生了什么”，还记录“当时是否可见”或“信息是如何获得的”，从而区分确知事实与推测信息。
动作原生状态轨迹（Action-native state trails）：记忆结构与动作执行紧密绑定，形成状态感知的决策基础。

ObsMem 旨在解决智能体在动态环境中如何维持对世界状态的准确认知，并将长期记忆转化为可执行的具身计划。

3. 实验发现与挑战

通过 WorldLines 基准测试，研究揭示了当前具身智能体在长视界任务中面临的三个持久性挑战：

部分可观测性（Partial Observability）：智能体无法获取环境的全局状态，导致记忆碎片化。
世界状态覆盖（Overwritten World States）：随着时间推移，旧的状态信息容易被新信息覆盖或混淆，导致记忆失真。
长记忆到具身计划的转化困难：即使智能体拥有良好的记忆检索能力，也难以将这些长期记忆有效地转化为具体的、多步骤的具身行动规划。

实验结果表明，ObsMem 框架在处理上述挑战时表现优于基线模型，为长视界状态感知具身智能体提供了一个更具参考价值的架构范式。

关键要点

填补评估空白：WorldLines 是首个专注于长视界、状态感知具身家庭辅助任务的基准测试，弥补了现有语言类记忆基准和短视界具身基准之间的差距。
多模态轨迹数据：基准测试不仅包含对话，还整合了动作、反馈及物体/设备状态变化，更贴近真实家居环境的复杂性。
ObsMem 框架创新：提出的 ObsMem 框架通过维护“可见性感知记忆”和“动作原生状态轨迹”，增强了智能体对动态环境的状态感知能力。
三大核心挑战：研究明确指出了部分可观测性、世界状态覆盖以及长记忆到行动规划的转化是制约长视界具身智能发展的主要瓶颈。
架构参考价值：尽管挑战依然存在，但 ObsMem 展示了在处理长期记忆与具身规划结合问题上的潜力，为后续研究提供了重要的参考架构。

意义与影响

WorldLines 和 ObsMem 的提出对具身智能领域具有深远意义：

推动真实场景应用：通过模拟长期的家庭交互，WorldLines 促使研究者关注智能体在真实、非结构化、动态环境中的长期稳定性，而不仅仅是实验室内的短期任务完成度。
强化记忆与行动的耦合：传统研究往往将“记忆”（认知）与“行动”（执行）割裂。WorldLines 强调基于证据的记忆检索与具身任务规划的紧密结合，推动了认知-行动闭环的发展。
提供标准化评估工具：为社区提供了一个统一的、包含丰富状态信息的基准，使得不同模型在长视界具身任务上的性能对比成为可能，加速了该领域的迭代与进步。
启发新型记忆架构：ObsMem 证明，显式地建模信息的可见性和状态轨迹对于提升智能体在部分可观测环境下的鲁棒性至关重要，这为未来设计更复杂的具身记忆机制指明了方向。

总之，WorldLines 不仅是一个测试平台，更是对具身智能如何从“短期执行者”进化为“长期生活助手”这一关键问题的系统性回应。

查看原文 →arxiv.org