技术博客arXiv cs.CL·5 小时前

MemRefine：利用大模型引导压缩长期智能体记忆

原标题：MemRefine: LLM-Guided Compression for Long-Term Agent Memory

速览

针对长期交互中记忆存储无限增长及冗余问题，MemRefine提出了一种大模型引导的压缩框架。该框架不依赖表面相似度，而是由大模型基于事实内容决策删除、合并或保留，从而在严格存储预算下保留关键信息。实验表明，该方法在多种基准测试中均能保持下游性能并优于传统规则基线。

AI 深度解读

MemRefine: 大模型驱动的长期智能体记忆压缩技术解读

背景

随着大型语言模型（LLM）智能体（Agents）在复杂任务中的应用日益广泛，这些智能体不再局限于单次对话，而是被期望能够在长期的交互过程中持续运行。在这种长期交互场景下，智能体必须能够保留过往对话中的信息，并在未来需要时准确召回，以支持后续任务的执行。

然而，随着交互次数的累积，智能体的记忆存储库会无限增长。这种无序的增长带来了两个主要问题：

存储成本膨胀：冗余条目充斥存储库，导致存储资源浪费。
检索性能下降：大量无关或低价值信息“挤占”了最有用的证据，导致在检索相关记忆时效率降低，甚至引入噪声。

这一问题在资源受限的平台（如边缘设备或具有严格内存预算的系统）上尤为突出。因此，如何在一个固定的存储预算内管理记忆存储库，即在压缩数据的同时保留对未来交互有用的信息，成为了一个亟待解决的关键技术难题。

核心内容

针对上述挑战，研究团队提出了 MemRefine，这是一种由大语言模型（LLM）引导的记忆压缩框架。该框架旨在解决传统基于表面相似度的记忆合并或删除策略无法准确反映事实价值的问题。

1. 核心痛点：表面相似度 $\neq$ 事实价值

在传统的记忆管理中，系统通常利用向量相似度来识别重复或相似的记忆条目，进而进行合并或删除。然而，MemRefine 指出，表面上的文本相似性并不能很好地反映信息的事实价值。两条看似相似的记忆可能包含截然不同的关键事实，或者其中一条可能包含另一条所缺失的重要细节。因此，仅依赖相似度进行决策会导致有用信息的丢失或关键噪声的保留。

2. MemRefine 的工作机制

MemRefine 采用了一种两阶段的迭代优化流程：

阶段一：基于相似度的候选对提议（Candidate Pair Proposal） 系统首先利用传统的相似度计算方法，快速筛选出可能重复或相关的记忆条目对。这一步仅用于缩小搜索范围，提出“候选对”，而非直接做出删除或合并决定。
阶段二：基于事实内容的 LLM 裁判决策（LLM-Judge Decision） 对于提出的候选对，系统将其提交给一个 LLM Judge（大语言模型裁判）。该裁判不依赖表面相似度，而是深入分析条目的事实内容，做出以下三种决策之一：
- Delete（删除）：如果一条记忆是另一条的冗余且无额外价值。
- Merge（合并）：如果两条记忆互补，应合并为一条更完整的信息。
- Preserve（保留）：如果两条记忆包含独立且重要的事实，即使它们相似，也应分别保留。
迭代压缩 该过程不断迭代，直到记忆存储库的大小满足预设的存储预算（Storage Budget）。

3. 实验验证

研究者在多个记忆框架和长期对话基准测试中对 MemRefine 进行了评估。结果表明：

MemRefine 能够 consistently（一致地）满足目标存储预算。
在满足预算的同时，它保持了下游任务的性能，未出现显著的性能衰减。
在严格的预算限制下，MemRefine 的表现优于传统的基于规则（Rule-based）的基线方法。

关键要点

问题定义：提出了“存储预算受限的记忆管理”任务，即在固定存储限制下，优化长期智能体的记忆存储库，以平衡存储成本与信息效用。
方法论创新：
- 摒弃了单纯依赖向量相似度进行记忆压缩的做法。
- 引入 LLM 引导的决策机制，利用 LLM 的理解能力判断记忆条目的事实价值。
- 采用“相似度提议 + LLM 裁判”的两阶段策略，兼顾效率与准确性。
决策粒度：LLM 裁判不仅决定“是否删除”，还细分为“删除”、“合并”和“保留”三种操作，能够更精细地处理记忆间的复杂关系。
性能优势：在长期对话基准测试中，MemRefine 在严格内存预算下，相比基于规则的基线方法，能更好地保留下游任务所需的关键信息，实现存储效率与任务性能的平衡。

意义与影响

MemRefine 的提出对长期运行的 AI 智能体系统具有重要的理论和实践意义：

突破资源瓶颈：通过有效的记忆压缩技术，使得 LLM 智能体能够在内存受限的设备（如手机、IoT 设备）上长期运行，降低了部署门槛。
提升记忆质量：证明了“语义/事实理解”优于“表面相似度”在记忆管理中的重要性。这为未来更智能的记忆检索和更新机制提供了新的思路。
优化系统效率：减少冗余存储不仅节省了成本，还提高了检索速度和相关性，从而提升了智能体响应的准确性和实时性。
推动 Agent 架构演进：随着智能体从“单次问答”向“长期伙伴”转变，如何高效管理长期记忆成为核心挑战。MemRefine 提供了一套可落地的解决方案，有助于推动具备长期记忆能力的通用智能体（General Agents）的发展。

查看原文 →arxiv.org