← 返回信息流
技术博客arXiv cs.AI·11 小时前

探索代理记忆系统的跨场景泛化能力

原标题:Exploring Cross-Scenario Generality of Agentic Memory Systems: Diagnostics and a Strong Baseline

速览

大型语言模型代理的历史数据常超出上下文窗口,现有记忆系统多针对单一场景优化,缺乏跨异构轨迹的泛化能力。研究评估了八种记忆系统在五种场景下的表现,发现赋予代理对存储和检索的主动控制权比固定管道更有效。基于此洞察提出的AutoMEM系统在跨场景泛化性上表现最佳。

AI 深度解读

探索智能体记忆系统的跨场景泛化能力:诊断与强力基线

背景

随着大型语言模型(LLM)智能体(Agents)在复杂任务中的应用日益深入,一个核心瓶颈逐渐显现:智能体在交互过程中积累的历史数据量迅速增长,最终超出模型上下文窗口(Context Window)的限制。为了解决这一存储与检索难题,学术界和工业界涌现了大量关于“记忆系统”(Memory Systems)的研究。

然而,现有的大多数记忆系统设计往往针对单一特定场景进行了优化,例如仅适用于多会话聊天(multi-session chat)或仅适应单一的轨迹格式(single trajectory format)。这种“专病专治”的设计导致了一个关键问题:缺乏证据表明这些系统在部署环境中面对异构的、多样化的智能体轨迹时,依然能够保持良好的泛化能力。

在此背景下,一项新的研究重新审视了现有的记忆系统架构,旨在探究智能体记忆系统在跨场景下的通用性,并提出了一个强有力的基线方案。

核心内容

本研究对八种现有的记忆系统以及一个用于搜索问题的智能体框架(Agentic Harness)进行了全面的重新评估。评估范围涵盖了五个截然不同的应用场景,以测试系统的跨场景泛化能力:

  1. 单轮问答(Single-turn QA):最基础的问答交互。
  2. 多会话聊天(Multi-session chat):涉及长期对话状态保持的场景。
  3. 智能体轨迹问答(Agentic-trajectory QA):基于智能体执行动作轨迹的问答。
  4. 记忆压力测试(Memory stress tests):旨在测试系统在极端信息负载下的表现。
  5. 长周期智能体任务(Long-horizon agentic tasks):需要长时间规划和记忆保持的复杂任务。

诊断发现:控制权比管道更重要

研究的核心发现在于,记忆系统的性能并不主要取决于其背后固定的处理管道(Pipeline),而是取决于是否赋予智能体对存储和检索的主动控制权(Active Control)。

传统的记忆系统通常采用被动存储模式,即数据被固定地存入某个存储库,检索过程由预设的管道自动完成。相比之下,本研究提出的框架通过工具调用(Tool Calls)自我管理扁平化的文本文件存储。这种设计让智能体能够像操作普通文件一样,主动决定何时写入、何时读取、如何组织记忆。实验结果显示,这种赋予智能体主动控制权的框架在跨任务排名中取得了最佳成绩。

提出 AutoMEM:一种强力基线

基于上述洞察,研究团队实例化了一个名为 AutoMEM 的智能体记忆框架。AutoMEM 具备以下关键特征:

  • 自我管理的工具接口:它不是一个黑盒式的存储后端,而是一个通过工具接口暴露给智能体的记忆系统。
  • 跨场景泛化性最强:在评估的所有系统中,AutoMEM 在跨场景泛化能力方面表现最佳。
  • 扁平化存储管理:通过工具调用直接管理扁平的文本文件,避免了复杂数据结构带来的僵化性。

AutoMEM 的提出为智能体记忆系统提供了一个强有力的基线(Strong Baseline),证明了“让智能体掌控记忆”这一范式的有效性。

关键要点

  • 现有系统的局限性:当前大多数记忆系统是针对单一场景(如多会话聊天或特定轨迹格式)调优的,缺乏在异构部署环境中通用的证据。
  • 评估框架的广泛性:研究不仅评估了八种现有记忆系统,还引入了一个用于搜索问题的智能体框架,并在五个多样化场景(从单轮问答到长周期任务)中进行了测试。
  • 主动控制权是关键:记忆性能的提升主要源于赋予智能体对存储和检索的主动控制权,而非依赖被动且固定的处理管道。
  • AutoMEM 的优势:作为本研究提出的新框架,AutoMEM 通过自我管理的工具接口实现记忆操作,在跨场景泛化能力上超越了被评估的其他所有系统。
  • 方法论启示:未来的智能体记忆设计应倾向于提供灵活的工具接口,允许智能体根据任务需求动态管理记忆,而非使用僵化的预设存储结构。

意义与影响

这项研究对智能体记忆系统的设计具有深远的影响:

  1. 范式转变:它挑战了传统“被动存储+固定检索”的记忆系统设计理念,证明了“主动管理”范式在复杂、多变环境中的优越性。
  2. 标准化基线:AutoMEM 的提出为社区提供了一个强大的基准测试对象。研究人员可以将新提出的记忆系统与 AutoMEM 进行对比,从而更准确地评估其真实泛化能力,而非仅在特定场景下的表现。
  3. 部署可行性:通过证明一种简单的扁平文件存储机制(通过工具调用管理)即可实现最佳的跨场景性能,该研究降低了构建复杂记忆系统的门槛,使得在资源受限或动态变化的部署环境中实现高效记忆成为可能。
  4. 推动通用智能体发展:随着智能体从单一任务向通用任务迈进,记忆系统的泛化能力成为关键瓶颈。本研究为解决这一瓶颈提供了清晰的思路和技术路径,有助于推动更通用、更鲁棒的智能体系统的开发。
查看原文 →arxiv.org