技术博客arXiv cs.AI·14 小时前

Latent Memory：单隐变量令牌实现资源受限多模态问答

原标题：One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA

速览

该研究提出Latent Memory，一种基于隐空间的记忆范式，旨在解决现有外部记忆机制在多模态问答中Token消耗高、存储压力大的问题。其核心是用小型压缩模型将原始文本或图像证据转化为单个高维隐变量令牌，并在统一隐空间中进行检索与生成。实验表明，该方法在多个基准测试中性能媲美先进RAG基线，同时将生成器Token消耗降低3至10倍。

AI 深度解读

One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA

背景

随着大型语言模型（LLMs）和视觉语言模型（VLMs）在问答（QA）任务中的广泛应用，基于检索增强生成（RAG）的技术已成为主流。外部记忆机制通过将模型与相关的多模态证据（文本、图像等）进行 grounding（锚定/关联），显著提升了回答的准确性和事实依据。

然而，现有的记忆范式存在明显的资源瓶颈。在传统的基于检索的系统中，记忆项通常以原始文本或原始图像的形式存储。当系统检索到相关证据后，必须将这些原始数据完整地传递给生成式的 LLM 或 VLM。这种处理方式导致了两个主要问题：

极高的 Token 消耗：原始文本和图像经过编码后会产生大量的 Token，极大地增加了生成阶段的计算负载。
巨大的存储压力：存储海量原始多模态数据需要昂贵的存储成本。

对于资源受限的应用场景（如边缘设备、移动端或低成本推理服务），这种高开销是不可接受的。因此，业界急需一种能够压缩记忆表示、降低推理成本，同时保持高质量问答性能的新一代记忆机制。

核心内容

针对上述痛点，研究人员提出了 Latent Memory（潜在记忆）范式。这是一种基于潜在空间（Latent Space）的记忆机制，旨在通过压缩多模态证据来优化资源消耗。

1. 核心机制：从原始数据到单一潜在 Token

Latent Memory 的核心创新在于改变了记忆项的表示形式。它不再存储原始的文本或图像证据，而是使用一个小型的压缩器 LLM/VLM（Compressor LLM/VLM），将每个原始的多模态证据项压缩为单个高维潜在 Token（Single High-Dimensional Latent Token）。

这意味着，无论原始证据是长篇文章还是复杂图像，在 Latent Memory 中都被统一表示为一个紧凑的向量表示。

2. 统一潜在表示空间的操作流程

Latent Memory 摒弃了“检索原始证据 -> 拼接提示词 -> 生成”的传统流程，转而在一个统一的潜在表示空间中进行操作：

嵌入与检索：用户查询（Query）被嵌入到该潜在空间中，通过相似度计算检索出最相关的潜在 Token。
直接生成：检索到的潜在 Token 被直接作为提示词（Prompt）输入到预训练的 LLM 或 VLM 中，用于生成最终答案。

这种方式避免了将庞大的原始数据传递给生成模型，从而大幅减少了生成阶段所需的 Token 数量。

3. 训练策略：多目标联合优化

为了确保每个潜在 Token 能够同时满足三个关键需求——重建（Reconstruction）、检索（Retrieval）和生成（Generation），研究团队设计了一种统一的端到端训练方法。压缩器模型通过以下三个目标进行联合训练：

重建目标：确保潜在 Token 包含足够的信息，以便在需要时能够重建原始证据。
对比目标（Contrastive Objective）：优化潜在表示的分布，使得相关证据在潜在空间中距离更近，从而提升检索的准确性。
蒸馏目标（Distillation Objective）：将大型模型的知识蒸馏到压缩过程中，确保潜在 Token 对生成任务友好，即生成模型能高效利用这些 Token 进行推理。

4. 性能评估

Latent Memory 在七个纯文本 QA 基准测试（如 HotpotQA）以及多模态 QA 基准测试中进行了评估。结果表明：

性能竞争力：其问答性能与先进的 RAG 基线方法相当。
资源效率：在生成阶段，它消耗的 Token 数量减少了 3 倍到 10 倍。
多模态优势：在 WebQA 数据集上，Latent Memory 实现了最强的图像 grounding QA 性能。

关键要点

范式转变：从“存储和检索原始多模态数据”转变为“存储和检索单一高维潜在 Token”。
极致压缩：利用小型压缩器 LLM/VLM 将任意复杂的文本或图像证据压缩为单个 Token，解决了原始数据体积过大的问题。
统一空间操作：查询和记忆项都在同一潜在空间中进行嵌入和匹配，检索到的潜在 Token 直接用于提示生成模型，无需解码回原始形式。
多目标训练：通过重建、对比学习和知识蒸馏三个目标的端到端联合训练，确保压缩后的 Token 既易于检索，又富含生成所需的信息。
显著的资源节省：相比传统 RAG 基线，生成阶段的 Token 消耗降低 3x-10x，同时保持了具有竞争力的准确率，并在 WebQA 上取得了 SOTA 的图像 grounding 效果。
适用场景：特别适用于对计算资源、存储成本和推理延迟敏感的资源受限应用。

意义与影响

Latent Memory 的提出为多模态大模型的落地应用提供了一条高效的技术路径。

首先，它解决了 RAG 系统在扩展性上的核心瓶颈。随着知识库规模的扩大，传统 RAG 的存储和推理成本呈线性甚至指数级增长，而 Latent Memory 通过固定维度的潜在 Token 表示，使得记忆系统的扩展更加可控和经济。

其次，它促进了多模态理解的深度融合。通过将图像和文本统一映射到同一潜在空间，模型能够更灵活地利用跨模态信息，特别是在处理需要图像 grounding 的复杂问答任务时，表现出更强的鲁棒性。

最后，这一工作推动了“压缩-检索-生成”一体化架构的发展。它证明了通过精心设计的潜在空间表示和多目标训练，可以在不牺牲性能的前提下，大幅降低大模型的推理门槛。这对于推动 LLM/VLM 在边缘计算、移动设备以及大规模商业服务中的普及具有重要的工程价值和理论意义。

查看原文 →arxiv.org