← 返回信息流
技术博客arXiv cs.CL·3 天前

Eywa:基于溯源证据的AI智能体长期记忆架构

原标题:Eywa: Provenance-Grounded Long-Term Memory for AI Agents

速览

针对AI智能体跨会话记忆难以审计和诊断的问题,研究提出Eywa架构,坚持“证据先于信念”原则。该架构存储不可变源证据,通过确定性多路径检索提取上下文,且检索过程无需调用大模型。实验显示,在LoCoMo等基准测试中,Eywa展现出高准确率,有效提升了记忆系统的可解释性与可靠性。

AI 深度解读

Eywa:基于溯源证据的 AI 智能体长期记忆架构

背景

随着 AI 智能体(AI Agents)从单次对话向跨会话持久化交互演进,记忆系统成为其核心基础设施。然而,现有的记忆系统往往存在严重的“黑盒”问题。在许多主流架构中,源证据(source evidence)、提取的事实(extracted facts)、检索到的上下文(retrieved context)以及回答策略(answer policy)被压缩进一个不透明的提示词路径中。

这种混合处理导致故障诊断变得极其困难。当智能体给出错误答案时,开发者难以判断根源所在:是因为缺失关键证据?提取过程支持不足?状态过时?检索丢失?还是回答模型本身的行为偏差?这种不可追溯性阻碍了智能体在关键任务场景中的可靠性与可审计性。

在此背景下,研究人员提出了 Eywa 架构。其核心理念是“证据先于信念”(evidence before belief),旨在构建一个可检索、可审计、可更新且可擦除的长期记忆系统,通过严格的溯源机制解决现有系统的透明度与可靠性危机。

核心内容

Eywa 是一种基于溯源(Provenance-Grounded)的记忆架构,其设计哲学强调在形成任何“信念”(即记忆事实)之前,必须首先存储不可变的源证据。以下是该架构的核心工作流程与技术细节:

1. 证据优先的记忆存储

Eywa 改变了传统记忆系统直接存储“事实”的做法。它首先存储不可变的源证据(如用户对话原文、文档片段等),然后基于这些证据推导出规范化的事实(canonical facts)。这种分层存储确保了每一条记忆都有据可查。

2. 严格的验证机制

在记忆提取阶段,Eywa 对提取的记忆进行双重验证:

  • 类型信号验证:确保提取的信息符合预期的数据类型和结构。
  • 源支持验证:确保提取的事实有明确的源证据支持,防止幻觉或过度推断。

3. 确定性多路径检索

检索是 Eywa 架构中最具创新性的部分之一。它采用了一种确定性多路径读取路径(deterministic multi-route read path)。

  • 零 LLM 调用:在检索过程中,完全不需要调用大语言模型(LLM)。这消除了检索过程中的随机性和计算开销,确保了检索结果的可复现性。
  • 上下文隔离:检索到的记忆上下文与回答指令(answer instructions)是分离的。这种解耦设计使得同一套记忆底层数据可以被评估不同的回答模型,包括前沿模型(frontier models)、预算敏感模型(budget models)和本地模型(local models)。

4. 性能表现

在冻结且记录完整的检索配置下,Eywa 在多个基准测试中展现了卓越的性能:

  • LoCoMo C1-C4 分割集:在使用 Claude Sonnet 4.6 担任写入(write)和问答(QA)角色时,Judge 准确率(judge accuracy)达到 90.19%
  • LongMemEval-S:检索充分性准确率(retrieval-sufficiency accuracy)达到 88.2%
  • BEAM 基准测试:这是一个包含 700 个问题的技术记忆压力测试基准。Eywa 达到了 81.45% 的平均 nugget 分数,以及 85.29% 的 pass@score >= 0.5 比例。

此外,研究团队公开了完整的问题、黄金答案、模型答案、检索上下文及标签等每问题级别的工件(artifacts),以确保研究的可复现性。

关键要点

  • 解决黑盒问题:Eywa 通过将源证据、提取事实、检索上下文和回答策略解耦,解决了现有记忆系统故障难以诊断的问题。
  • 证据先于信念:架构强制要求先存储不可变的源证据,再推导规范事实,从源头保证记忆的可审计性。
  • 确定性检索:检索过程采用确定性多路径读取,且在检索环节零 LLM 调用,提升了效率、降低了成本并确保了结果的一致性。
  • 模型无关性:检索到的上下文与回答指令分离,使得同一记忆库可适配不同层级(前沿、预算、本地)的回答模型,提高了系统的灵活性和可评估性。
  • 高可靠性验证:在 LoCoMo、LongMemEval-S 和 BEAM 等多个高标准基准测试中,Eywa 均取得了超过 80%-90% 的准确率,证明了其在长时记忆和复杂推理任务中的有效性。
  • 开源与透明:研究团队公开了完整的实验工件和数据,支持社区对记忆系统进行独立的审计和评估。

意义与影响

Eywa 的提出标志着 AI 智能体记忆系统从“黑盒启发式”向“白盒可审计”范式的重要转变。

首先,可审计性与合规性:在金融、医疗、法律等对准确性要求极高的领域,智能体必须能够解释其决策依据。Eywa 的溯源机制使得每一次回答都能追溯到具体的源证据,满足了严格的合规与审计需求。

其次,调试与维护效率:通过将记忆生命周期中的不同阶段(存储、验证、检索、回答)解耦,开发者可以独立优化每个环节。例如,可以单独改进检索算法而不影响存储结构,或更换回答模型而不重新构建记忆库。

最后,降低推理成本:检索环节零 LLM 调用的设计,显著降低了长期记忆系统的运行成本,使得在资源受限的边缘设备或大规模并发场景下部署具备长期记忆的智能体成为可能。

Eywa 不仅是一个技术架构,更为构建可信、可靠、可维护的下一代 AI 智能体提供了重要的工程实践参考。

查看原文 →arxiv.org