技术博客arXiv cs.AI·1 天前

User as Engram：将用户记忆作为局部参数编辑实现高效个性化

原标题：User as Engram: Internalizing Per-User Memory as Local Parametric Edits

速览

该研究提出User as Engram方法，将语言模型的个人记忆分为内容和推理技能两部分，分别存储于局部参数编辑和共享适配器中。相比传统的Per-user LoRA，该方法内存占用减少约33,000倍，间接推理准确率平均提升5.6倍，且不会降低用户基础推理能力。由于不同用户的编辑位于不相交的哈希槽中，支持无损叠加，在事实超过100条时，其检索效率优于大2.5倍的检索管道。

AI 深度解读

User as Engram: 将个人记忆内化为局部参数化编辑

背景

在当前的语言模型（LLM）个性化领域，主要存在两个核心问题：内容的存储与推理能力的保留。人类大脑处理这两者的方式截然不同：海马体中稀疏且局部的“记忆痕迹”（engram）负责存储特定事件，而负责解释这些事件的共享推理技能则缓慢地固化在新皮层中。这种分离机制使得新事实的录入无需覆盖或干扰已有的通用知识。

然而，目前大多数个性化方案并未遵循这一生物逻辑。主流做法是将用户的具体事实数据保留在模型权重之外，通常表现为自然语言格式的记忆文件或向量检索索引。当试图将这些事实直接写入模型权重时，标准的解决方案是使用针对每个用户的 LoRA（Low-Rank Adaptation）适配器。

LoRA 方法的本质缺陷在于它违背了大脑的分离机制：它将内容（事实）与技能（推理）折叠进同一个全局权重增量中。这种“一刀切”的方式不仅会污染与用户无关的文本生成，导致模型在通用任务上的性能下降，而且其存储效率极低。相比之下，如果将事实作为局部的 Engram 行进行存储，数学上可以确保其他位置完全不受影响，从而将记忆 footprint（占用空间）缩小约 33,000 倍。

核心内容

本文提出了 User as Engram（用户即记忆痕迹）的新架构，旨在解决上述矛盾。该架构的核心思想是将用户的内容存储为 Engram 模型中基于哈希键的记忆表的“外科手术式”局部编辑，而将推理技能保留在一个共享的适配器中。

1. 分层设计与机制

这种分层设计模仿了大脑的功能分离：

内容层：通过手术式的局部编辑，将特定用户的事实写入记忆表。
技能层：由一个共享的适配器承载通用的推理能力。

这种设计使得模型在保持直接回忆能力（与每用户 LoRA 相当）的同时，显著提升了间接推理的准确性。

2. “玻璃盒”式的透明编辑

该方法的编辑过程是透明的（glass box）：

触发机制：写入一个事实会精确地在触发词处开启查找功能。
数值叠加：仅添加答案所需的数值，确保其他所有位置在比特级别上保持不变。
错误检测：如果写入错误的层级，系统会失败，从而保证数据的一致性。

3. 多用户共存与无损组合

由于不同用户的事实落入不相交的哈希槽位，他们的编辑可以相互组合：

共享表：许多用户可以同时存在于一个共享表中，以加法方式堆叠且无损。
对比 LoRA：每用户 LoRA 本质上是单一的全局权重增量，无法支持这种多用户无损共存。

4. 检索效率的超越

在检索阶段，每用户的 Engram 表大小并不随检索器必须搜索的人口规模增长。这意味着，当事实数量超过约 100 条时，Engram 方法在推理精度上即可超越使用大 2.5 倍模型的检索管道（Retrieval Pipeline）。

关键要点

分离内容与技能：借鉴生物大脑机制，将个人记忆（海马体式）与通用推理技能（新皮层式）分离，避免新事实覆盖旧知识或污染通用能力。
局部参数化编辑：提出将用户事实存储为基于哈希键的记忆表的局部编辑，而非全局权重更新。
极致的存储效率：相比每用户 LoRA 适配器，Engram 方法的记忆占用空间缩小约 33,000 倍。
性能提升：在保持直接回忆能力的同时，间接推理准确率平均提高 5.6 倍。
零负面干扰：该架构确保没有任何一个用户因个性化而变得比未修改的基础模型更差。
无损多用户共存：不同用户的事实通过不相交的哈希槽位实现加法堆叠，支持大量用户共享同一张记忆表。
超越检索管道：在事实数量超过 100 条后，Engram 方法的效率超越使用大 2.5 倍模型的检索增强生成（RAG）管道。

意义与影响

User as Engram 代表了个性化语言模型从“外挂式”或“全局微调式”向“内嵌式、结构化记忆”范式的重要转变。

解决灾难性遗忘与污染：传统 LoRA 方法虽然轻量，但本质上是全局权重的扰动，容易导致“灾难性遗忘”或通用能力的退化。Engram 通过局部编辑和哈希隔离，从数学上保证了其他参数的完整性，解决了个性化带来的副作用问题。
可扩展性的突破：通过哈希槽位的离散化和共享记忆表的设计，该方法极大地降低了多用户场景下的存储和计算开销。这使得在资源受限的边缘设备或大规模并发服务中部署高度个性化的模型成为可能。
重新定义“记忆”在 AI 中的形态：文章指出，目前的个性化主要依赖外部检索（RAG）或外部权重适配器（LoRA）。Engram 提出了一种中间路径——将记忆内化为模型结构的一部分，但保持其局部性和稀疏性。这为构建具有长期、稳定且可解释个人记忆的智能体提供了新的技术路线。
透明性与可解释性：“玻璃盒”式的编辑机制使得模型的决策过程更加透明。开发者可以精确追踪哪些事实影响了模型的输出，以及这些事实是如何被存储和检索的，这对于需要高可信度的应用场景（如医疗、法律辅助）具有重要意义。

总之，这项研究不仅在工程效率上取得了显著突破，更在理论上深化了我们对如何在人工系统中模拟生物记忆机制的理解。

查看原文 →arxiv.org