← 返回信息流
技术博客arXiv cs.CL·14 小时前

少上下文多精准:双时态记忆引擎让精简检索超越完整历史

原标题:Less Context, More Accuracy: A Bi-Temporal Memory Engine for LLM Agents Where a Lean Retrieved Context Beats the Full History

速览

针对LLM智能体长期记忆遗忘及全量历史回放成本高、噪音大的痛点,研究提出开源双时态记忆引擎Engram。该系统通过无LLM调用的异步知识图谱构建与矛盾解决,结合混合检索路径实现精准上下文组装。在LongMemEval基准测试中,Engram仅用约9.6k token的检索片段,准确率即达83.6%,显著优于全量历史的73.2%,且错误率为零。

AI 深度解读

Less Context, More Accuracy: A Bi-Temporal Memory Engine for LLM Agents Where a Lean Retrieved Context Beats the Full History

背景

在构建具备长期记忆能力的 LLM Agent(大语言模型智能体)时,一个核心痛点长期存在:跨会话(cross-session)时,模型往往会“遗忘”之前的交互内容。目前业界常见的解决方案是将完整的对话历史(full history)直接重放(replay)到 Prompt 中。然而,这种方法存在显著缺陷:随着交互次数增加,上下文窗口被大量无关或低信息密度的内容占据,导致计算成本高昂、推理延迟增加,且由于“干扰项”(distractors)的积累,模型的准确率反而下降。

现有的大多数记忆系统虽然在成本或延迟上有所优化,但在准确率上仍难以超越使用完整上下文的基线(full-context baseline)。此外,由于缺乏统一、可复现的评估框架,不同研究在 Memory Benchmark(记忆基准测试)上的表现差异巨大,导致许多系统的数据存在不可比性。常见的评估陷阱包括截断错误、使用非官方的自建 Judge(评判模型)以及完整历史泄漏等,这些因素静默地扭曲了基准测试结果。

核心内容

本文介绍了 Engram,一个开源的、基于双时态(bi-temporal)数据模型的双过程记忆引擎。Engram 的设计旨在通过精简的检索上下文实现比完整历史更高的准确率。其核心架构包含以下三个主要部分:

1. 双过程写入路径(Dual-Process Write Path)

Engram 采用快速写入路径,以无 LLM 介入关键路径的方式追加无损(lossless)的“情节”(episodes)。同时,异步路径负责提取原子事实(atomic facts),即(主体,谓语,宾语)三元组,并构建双时态知识图谱。

  • 无 LLM 依赖的事实提取:系统在不针对每个事实调用 LLM 的情况下解决矛盾。
  • 失效而非删除:当新事实与旧事实冲突时,系统采用“失效”(invalidating)机制而非直接删除。这确保了每个事实都保留其来源(provenance)和替代链(supersession chain),从而支持可追溯性。

2. 混合读取路径(Hybrid Read Path)

Engram 的读取路径融合了多种信号来组装紧凑且带有来源标签的上下文:

  • 多模态检索:结合稠密向量(dense)、词汇(lexical)、图谱(graph)以及近期性/显著性(recency/salience)信号。
  • 时间点过滤:应用“时间点”(point-in-time, "as-of")过滤器,确保检索到的信息符合特定时间状态下的事实。

3. 评估与基准测试贡献

除了提出 Engram 引擎,作者还贡献了一个中立的、内置官方 Judge 的仓库内评估框架(in-repo evaluation harness),并在每个表格中均包含完整上下文基线。作者公开了每道题的原始日志,并详细记录了测量完整性陷阱(如截断、自建 Judge、完整历史泄漏),旨在解决记忆基准测试中不可复现的问题。

4. 实验结果

在包含 500 个问题的 LongMemEval_S 基准测试上,Engram 的表现如下:

  • 精简配置:仅从约 9.6k token 的检索切片中作答,从不使用完整历史。
  • 准确率对比:Engram 获得 83.6% 的准确率,而使用完整上下文(约 79k token)的基线仅为 73.2%
  • 统计显著性:提升幅度为 +10.4 分,McNemar 检验 p 值 < 10^-6,具有极高的统计显著性。
  • 效率提升:Engram 使用的 token 数量约为完整上下文的 1/8(9.6k vs 79k)。
  • 错误率:在 500 个问题中,Engram 的错误数为 0。

研究表明,这种性能增益依赖于混合读取路径:仅使用事实会丢失召回率(recall),而结合事实与检索到的文本块(chunks)则能恢复细节。

关键要点

  • 双时态知识图谱:Engram 使用双时态数据模型来管理事实的时间有效性,通过“失效”而非“删除”来处理矛盾,保留了完整的事实溯源和替代历史。
  • 无 LLM 关键路径优化:写入路径中的情节追加和事实提取均避免在关键路径上调用 LLM,从而降低了延迟和成本。
  • 混合检索策略:结合稠密、词汇、图谱及时间/显著性信号,并通过“时间点”过滤器确保上下文的一致性。
  • 精简上下文优于完整历史:实验证明,仅使用约 9.6k token 的精简检索上下文,在准确率上显著优于使用 79k token 的完整对话历史(83.6% vs 73.2%)。
  • 可复现的评估框架:作者提供了包含官方 Judge 和完整基线的中立评估工具,并公开原始日志,旨在消除记忆基准测试中的不可复现性和评估偏差。
  • 事实与文本块的互补:纯事实检索会导致细节丢失,必须结合检索到的文本块才能兼顾召回率与准确性。

意义与影响

Engram 的提出对 LLM Agent 的长期记忆架构具有深远意义。首先,它挑战了“更多上下文等于更好表现”的传统假设,证明了通过高质量的结构化记忆和智能检索,可以用极少的 token 实现更高的准确率。这对于降低推理成本、减少延迟以及突破上下文窗口限制至关重要。

其次,Engram 引入的双时态知识图谱和“失效而非删除”机制,为处理动态变化的事实提供了更严谨的方法,增强了 Agent 决策的可解释性和溯源能力。

最后,作者对评估框架的贡献有助于统一记忆系统的评测标准,推动该领域从“刷榜”向真正可复现、可比较的技术进步转变。随着 Agent 应用向更复杂的长期任务扩展,Engram 所代表的“精简、高效、可溯源”的记忆引擎范式可能成为未来的主流方向。

查看原文 →arxiv.org