技术博客arXiv cs.CL·1 小时前

CoreMem：基于黎曼检索与费雪蒸馏的长程对话记忆架构

原标题：CoreMem: Riemannian Retrieval and Fisher-Guided Distillation for Long-Term Memory in Dialogue Agents

速览

CoreMem是一种资源高效的边缘-云记忆架构，旨在解决消费级硬件上长期对话记忆的瓶颈。该架构通过黎曼检索和费雪引导的离散令牌蒸馏，克服了高维检索中的枢纽问题和压缩时的句法碎片化。在LOCOMO和LongMemEval-S基准测试中，CoreMem在开放域和时序推理上取得显著精度提升，且严格控制在8GB显存预算内。

AI 深度解读

CoreMem：基于黎曼检索与费雪引导蒸馏的对话智能体长期记忆方案

背景

个性化对话智能体（Personalized Dialogue Agents）的核心挑战在于如何在多次会话交互中维持连贯性，这要求系统具备持续更新的长期记忆能力。然而，将此类能力部署在消费级硬件（如配备 8 GB 显存的边缘设备）上，面临着严峻的内存和计算瓶颈。

现有的解决方案通常依赖各向同性的余弦相似度（isotropic cosine similarity）进行检索，并使用启发式规则进行上下文压缩。这些方法缺乏统一的理论基础，导致两个主要问题：

高维检索中的“中心性”问题（Hubness Problem）：在高维空间中，少数样本成为大量其他样本的最近邻，导致检索噪声大、准确性下降。
压缩过程中的句法碎片化（Syntactic Fragmentation）：简单的启发式压缩往往破坏语句的结构完整性，影响语义理解。

为了克服这些局限性，研究人员提出了 CoreMem，这是一种资源高效的“端-云”记忆架构。该架构基于信息几何（Information Geometry）理论，旨在为资源受限的边缘设备提供具有理论支撑的终身记忆能力。

核心内容

CoreMem 的核心创新在于利用信息几何统一了记忆检索与压缩两个环节，具体包含以下两大技术支柱：

1. 黎曼检索（Riemannian Retrieval）

传统检索多使用余弦相似度，忽略了数据分布的几何结构。CoreMem 采用局部自适应的 Fisher-Rao 度量 来替代余弦匹配。

解决中心性问题：通过引入 Mahalanobis 距离（马氏距离），CoreMem 能够有效惩罚那些在特征空间中过于“中心”或常见的记忆节点（即 Hub 记忆），从而提升检索的区分度。
实时搜索加速：为了在资源受限环境下实现实时搜索，系统采用了基于 Woodbury 恒等式 的加速技术，将计算复杂度优化至 $O(N d_r)$，其中 $N$ 为记忆数量，$d_r$ 为降维后的秩。这使得在边缘设备上高效执行黎曼几何检索成为可能。

2. 费雪引导的离散标记蒸馏（Fisher-Guided Discrete Token Distillation, FDTD）

在上下文压缩方面，CoreMem 提出了一种从句子到标记（Token）的分层压缩机制，称为 FDTD。

基于费雪信息的敏感度评分：系统从费雪信息矩阵的迹（Fisher information traces）中推导出敏感度评分。费雪信息衡量了数据分布对参数变化的敏感程度，在此处用于评估不同文本片段对模型预测的重要性。
压缩-KL 散度权衡：FDTD 提供了一种原则性的压缩策略，在压缩率与 KL 散度（衡量压缩前后分布差异的指标）之间取得平衡。
结构语法保护：与盲目截断不同，该机制显式地保护了句子的结构语法，确保压缩后的文本在语义和句法上依然完整，避免了因碎片化导致的理解错误。

关键要点

理论统一性：CoreMem 并非简单拼接现有技术，而是基于信息几何理论，将检索和压缩统一在黎曼流形的框架下，解决了以往方法缺乏理论基础的问题。
边缘友好型架构：设计目标明确指向资源受限环境。实验证实，CoreMem 能在严格的 8 GB VRAM 预算内无缝运行，成功 bridging（弥合）了边缘设备与终身记忆智能体需求之间的差距。
检索性能提升：通过黎曼检索替代余弦相似度，有效缓解了高维空间中的中心性问题，提升了检索的准确性和鲁棒性。
压缩质量优化：FDTD 机制通过费雪信息指导压缩，不仅控制了上下文长度，还通过语法保护机制维持了文本的结构完整性，实现了更优的压缩-KL 散度权衡。
基准测试表现优异：在 LOCOMO 和 LongMemEval-S 两个基准测试中，CoreMem 展现了显著的准确性提升：
- 开放域（Open-domain）推理能力提升 +4.51 个百分点。
- 时间（Temporal）推理能力提升 +4.17 个百分点。

意义与影响

CoreMem 的提出标志着对话智能体长期记忆技术从“工程启发式”向“理论驱动型”的重要转变。

推动边缘智能落地：通过证明在 8 GB 显存限制下也能实现高质量的长期记忆管理，CoreMem 为在智能手机、IoT 设备等边缘硬件上部署具备个性化和长期记忆能力的 AI 助手铺平了道路，降低了对云端算力的依赖，有助于提升数据隐私保护。
解决高维检索痛点：引入黎曼几何和 Mahalanobis 距离解决 Hubness 问题，为高维向量数据库的检索优化提供了新的理论视角和实用方案，不仅适用于对话记忆，也可推广至其他需要高保真语义检索的场景。
精细化上下文管理：FDTD 机制展示了如何利用信息论工具（费雪信息）进行精细化的文本压缩，为 LLM 的上下文窗口优化提供了新的思路，即在有限窗口内保留最具信息量和结构完整性的内容。

总体而言，CoreMem 不仅在学术上完善了长期记忆的理论基础，更在工程实践上证明了理论模型可以在严格的资源约束下高效运行，为下一代个性化、低延迟、高隐私的对话智能体提供了可行的技术路径。

查看原文 →arxiv.org