技术博客arXiv cs.CL·3 小时前

Latent Personal Memory：用动态软提示表示个人记忆

原标题：Latent Personal Memory: Represent personal memory as dynamic soft prompts

速览

Latent Personal Memory (LPM) 是一种可扩展框架，通过将用户特定历史编码为紧凑且可解释的潜在槽位矩阵，实现大语言模型的个性化。该框架利用共享交叉注意力投影网络，将这些槽位映射为动态的、输入条件化的软提示，并前置到冻结的大模型输入中。实验表明，LPM在PersonaMem和LoCOMO基准测试中显著优于LoRA和Prompt Tuning，同时大幅降低KV缓存占用和可训练参数量。

AI 深度解读

Latent Personal Memory：将个人记忆表示为动态软提示

背景

随着大型语言模型（LLMs）在自然语言处理领域的广泛应用，如何为模型注入个性化能力成为了研究热点。个性化 LLM 的核心挑战在于：如何在保持基础模型（Base Model）冻结（即不更新其权重）的前提下，高效地编码长期、用户特定的行为模式。

传统的个性化方法往往面临计算效率低、扩展性差或与基础模型兼容性不佳的问题。例如，全参数微调虽然效果显著，但资源消耗巨大；而参数高效微调（PEFT）方法如 LoRA 或 Prompt Tuning，虽然在一定程度上缓解了这一问题，但在处理长上下文和复杂用户历史时，仍存在 KV-cache 占用过高或准确率瓶颈。

在此背景下，研究人员提出了一种名为 Latent Personal Memory (LPM) 的新框架。该框架旨在通过一种紧凑、持久且可解释的方式，将用户特定的历史记录表示为潜在槽位（latent slots），并将其转化为动态的软提示（soft prompts），从而在不改变基础模型权重的情况下，实现高效、可扩展的个性化。

核心内容

Latent Personal Memory (LPM) 是一种可扩展的框架，其核心思想是将用户特定的历史数据表示为一个包含 $N$ 个潜在槽位的紧凑持久矩阵。这些槽位不仅是可解释的，而且通过一个共享的交叉注意力投影网络（shared cross-attention projection network），被映射为动态的、输入条件依赖的软提示。这些软提示被前置（prepended）到冻结的 LLM 的输入端，从而引导模型生成符合用户特定行为的输出。

技术架构与机制

潜在记忆表示： LPM 将用户的长期行为模式压缩为一个固定的矩阵，其中包含 $N$ 个潜在槽位。这种表示方式使得记忆既紧凑又持久，避免了随着用户交互历史的增长而导致模型输入序列无限膨胀的问题。
动态软提示生成：系统使用一个共享的交叉注意力投影网络，将这些潜在槽位转换为动态软提示。关键在于“动态”和“输入条件依赖”：这意味着生成的提示并非静态不变，而是根据当前的输入上下文进行调整。这种机制确保了模型能够根据具体的查询情境，灵活地调用相关的用户记忆。
冻结基础模型集成：生成的动态软提示被直接前置到冻结的 LLM 输入中。由于基础模型（如 Qwen3 系列）的权重保持不变，LPM 框架具有极高的兼容性和安全性，同时大幅降低了训练和部署的计算成本。

实验评估

研究团队在 PersonaMem v1 和 LoCOMO 两个基准测试上对 LPM 进行了全面评估，使用的后端模型包括 Qwen3-1.7B、4B 和 8B。

在 PersonaMem v1 基准上：
- LPM 的整体准确率分别比 LoRA 高出高达 8.8%，比 Prompt Tuning 高出高达 54.4%。
- 在内存效率方面，LPM 将 KV-cache 的使用量减少了超过 64 倍。这是一个巨大的优势，因为 KV-cache 的膨胀通常是长上下文推理中的主要瓶颈。
在 LoCoMo 基准上：
- LPM 的准确率与 LoRA 相当，但其可训练参数的数量仅为 LoRA 的 1/120。这证明了 LPM 在参数效率上的极致优化。
长上下文性能：
- 研究还表明，LPM 的效率随着上下文长度的增加而提升。在 128K 的长上下文场景中，LPM 的表现优于全上下文（full-context）方法。这表明 LPM 特别适用于需要处理海量历史交互数据的个性化场景。

关键要点

创新表示法：LPM 将用户历史编码为 $N$ 个潜在槽位的紧凑矩阵，而非直接拼接原始文本，实现了记忆的压缩与持久化。
动态适应性：通过共享交叉注意力网络，潜在槽位被转化为输入条件依赖的动态软提示，使模型能根据当前语境灵活调整记忆调用。
极致效率：
- KV-cache 优化：相比传统方法，KV-cache 使用量减少超过 64 倍，显著降低了推理延迟和内存占用。
- 参数精简：在 LoCoMo 基准上，以 120 倍更少的可训练参数达到了与 LoRA 相当的准确率。
性能超越：在 PersonaMem v1 基准上，LPM 在准确率上显著优于 LoRA（+8.8%）和 Prompt Tuning（+54.4%）。
长上下文优势：随着上下文长度增加，LPM 的效率优势愈发明显，在 128K 上下文长度下优于全上下文方法，解决了长序列个性化中的扩展性难题。
模型兼容性：框架完全兼容冻结的基础模型（如 Qwen3 系列），无需微调基础权重，确保了模型的稳定性和安全性。

意义与影响

Latent Personal Memory (LPM) 的提出为个性化大语言模型的研究开辟了一条新路径，其意义主要体现在以下几个方面：

解决个性化与效率的权衡难题：以往的研究往往在个性化效果和计算效率之间做出妥协。LPM 通过潜在槽位和动态软提示的机制，同时实现了高准确率和低资源消耗。特别是 KV-cache 的大幅减少，使得在资源受限的设备上部署个性化模型成为可能。
提升长上下文处理能力：随着 LLM 上下文窗口的不断扩大（如 128K 甚至更长），直接处理所有历史交互变得不切实际。LPM 证明了其效率随上下文长度增加而提升的特性，为构建能够记忆并有效利用超长历史对话的个性化助手提供了技术基础。
推动参数高效微调（PEFT）的发展： LPM 在 LoCoMo 基准上以极少的参数达到与 LoRA 相当的性能，展示了参数高效微调技术的巨大潜力。120 倍的参数缩减意味着更低的数据存储需求、更快的训练速度和更低的部署成本，有利于个性化 AI 的大规模普及。
增强可解释性与可控性：潜在槽位的可解释性使得开发者能够更清晰地理解模型是如何利用用户记忆的。这种透明度对于构建可信、可控的个性化 AI 系统至关重要，有助于解决隐私保护和内容安全等关键问题。

综上所述，LPM 不仅是一个技术上的突破，更是推动个性化 LLM 走向实用化、规模化应用的重要一步。它为解决长期记忆编码、动态提示生成以及长上下文效率等核心挑战提供了优雅且高效的解决方案。

查看原文 →arxiv.org