技术博客arXiv cs.AI·11 小时前

探索代理记忆系统的跨场景泛化能力

原标题：Exploring Cross-Scenario Generality of Agentic Memory Systems: Diagnostics and a Strong Baseline

速览

大型语言模型代理的历史数据常超出上下文窗口，现有记忆系统多针对单一场景优化，缺乏跨异构轨迹的泛化能力。研究评估了八种记忆系统在五种场景下的表现，发现赋予代理对存储和检索的主动控制权比固定管道更有效。基于此洞察提出的AutoMEM系统在跨场景泛化性上表现最佳。

AI 深度解读

探索智能体记忆系统的跨场景泛化能力：诊断与强力基线

背景

随着大型语言模型（LLM）智能体（Agents）在复杂任务中的应用日益深入，一个核心瓶颈逐渐显现：智能体在交互过程中积累的历史数据量迅速增长，最终超出模型上下文窗口（Context Window）的限制。为了解决这一存储与检索难题，学术界和工业界涌现了大量关于“记忆系统”（Memory Systems）的研究。

然而，现有的大多数记忆系统设计往往针对单一特定场景进行了优化，例如仅适用于多会话聊天（multi-session chat）或仅适应单一的轨迹格式（single trajectory format）。这种“专病专治”的设计导致了一个关键问题：缺乏证据表明这些系统在部署环境中面对异构的、多样化的智能体轨迹时，依然能够保持良好的泛化能力。

在此背景下，一项新的研究重新审视了现有的记忆系统架构，旨在探究智能体记忆系统在跨场景下的通用性，并提出了一个强有力的基线方案。

核心内容

本研究对八种现有的记忆系统以及一个用于搜索问题的智能体框架（Agentic Harness）进行了全面的重新评估。评估范围涵盖了五个截然不同的应用场景，以测试系统的跨场景泛化能力：

单轮问答（Single-turn QA）：最基础的问答交互。
多会话聊天（Multi-session chat）：涉及长期对话状态保持的场景。
智能体轨迹问答（Agentic-trajectory QA）：基于智能体执行动作轨迹的问答。
记忆压力测试（Memory stress tests）：旨在测试系统在极端信息负载下的表现。
长周期智能体任务（Long-horizon agentic tasks）：需要长时间规划和记忆保持的复杂任务。

诊断发现：控制权比管道更重要

研究的核心发现在于，记忆系统的性能并不主要取决于其背后固定的处理管道（Pipeline），而是取决于是否赋予智能体对存储和检索的主动控制权（Active Control）。

传统的记忆系统通常采用被动存储模式，即数据被固定地存入某个存储库，检索过程由预设的管道自动完成。相比之下，本研究提出的框架通过工具调用（Tool Calls）自我管理扁平化的文本文件存储。这种设计让智能体能够像操作普通文件一样，主动决定何时写入、何时读取、如何组织记忆。实验结果显示，这种赋予智能体主动控制权的框架在跨任务排名中取得了最佳成绩。

提出 AutoMEM：一种强力基线

基于上述洞察，研究团队实例化了一个名为 AutoMEM 的智能体记忆框架。AutoMEM 具备以下关键特征：

自我管理的工具接口：它不是一个黑盒式的存储后端，而是一个通过工具接口暴露给智能体的记忆系统。
跨场景泛化性最强：在评估的所有系统中，AutoMEM 在跨场景泛化能力方面表现最佳。
扁平化存储管理：通过工具调用直接管理扁平的文本文件，避免了复杂数据结构带来的僵化性。

AutoMEM 的提出为智能体记忆系统提供了一个强有力的基线（Strong Baseline），证明了“让智能体掌控记忆”这一范式的有效性。

关键要点

现有系统的局限性：当前大多数记忆系统是针对单一场景（如多会话聊天或特定轨迹格式）调优的，缺乏在异构部署环境中通用的证据。
评估框架的广泛性：研究不仅评估了八种现有记忆系统，还引入了一个用于搜索问题的智能体框架，并在五个多样化场景（从单轮问答到长周期任务）中进行了测试。
主动控制权是关键：记忆性能的提升主要源于赋予智能体对存储和检索的主动控制权，而非依赖被动且固定的处理管道。
AutoMEM 的优势：作为本研究提出的新框架，AutoMEM 通过自我管理的工具接口实现记忆操作，在跨场景泛化能力上超越了被评估的其他所有系统。
方法论启示：未来的智能体记忆设计应倾向于提供灵活的工具接口，允许智能体根据任务需求动态管理记忆，而非使用僵化的预设存储结构。

意义与影响

这项研究对智能体记忆系统的设计具有深远的影响：

范式转变：它挑战了传统“被动存储+固定检索”的记忆系统设计理念，证明了“主动管理”范式在复杂、多变环境中的优越性。
标准化基线：AutoMEM 的提出为社区提供了一个强大的基准测试对象。研究人员可以将新提出的记忆系统与 AutoMEM 进行对比，从而更准确地评估其真实泛化能力，而非仅在特定场景下的表现。
部署可行性：通过证明一种简单的扁平文件存储机制（通过工具调用管理）即可实现最佳的跨场景性能，该研究降低了构建复杂记忆系统的门槛，使得在资源受限或动态变化的部署环境中实现高效记忆成为可能。
推动通用智能体发展：随着智能体从单一任务向通用任务迈进，记忆系统的泛化能力成为关键瓶颈。本研究为解决这一瓶颈提供了清晰的思路和技术路径，有助于推动更通用、更鲁棒的智能体系统的开发。

查看原文 →arxiv.org