技术博客arXiv cs.CL·1 天前

限内存语言模型遗忘审计：数据库决定未学习边界

原标题：Auditing Forgetting in Limited Memory Language Models

速览

限内存语言模型（LMLMs）通过外部数据库实现事实知识的删除式未学习，避免重训。现有评估仅测聚合后删除正确率，无法区分残留参数记忆、替代检索路径或近邻检索伪影。作者提出因果审计框架，在推理时固定模型、改变数据库状态，进行FULL、DEL-ON和DEL-OFF干预。测试了12228个别名闭包删除，覆盖13个数据库及四个对抗拓扑和六种提示。结果显示参数泄露近零，残留正确率主要源于检索图，提示语不独立控制残留程度，表明未学习边界由数据库管理员主导。

AI 深度解读

背景

大规模语言模型（LLMs）已展现出强大的知识存储能力，但其参数化的训练范式导致事实性知识难以删除或更新——这被称为“遗忘”（forgetting）。现有方法往往依赖大规模重新训练或修改模型权重，成本高昂且难以控制。Limited Memory Language Models (LMLMs) 应运而生，这类模型将事实性知识外部化到数据库中，在推理时通过检索机制获取，避免了参数重训。它们支持“删除基于 unlearning”的操作：仅删除数据库中的特定条目，无需触及模型本身。这种设计实现了可控的知识编辑，但仍存在潜在风险——模型的残余参数化记忆可能保留已删除事实，导致“后删除正确性”（post-deletion correctness）不彻底。

现有评估方法主要统计删除后整体正确率，无法区分已删除事实是否通过残余参数泄漏（parametric leakage）、替代检索路径（retrieval-mediated correctness）或近邻检索伪影（retrieval artifact）存活。arXiv cs.CL 提交于 2026 年 7 月 1 日的论文《Auditing Forgetting in Limited Memory Language Models》针对这一空白，提出了首个因果审计框架，旨在精确揭示 LMLMs 在删除操作后的行为机制。

核心内容

论文提出一个因果审计框架，核心是“保持模型固定，仅通过修改数据库状态在推理时进行干预”。该框架定义了三种干预操作：

FULL：数据库完整状态（基础线，验证模型正常行为）。
DEL-ON：删除特定事实对应的数据库条目（模拟真实 unlearning 场景）。
DEL-OFF：保留所有数据库条目（对照组，验证数据库的作用）。

通过这三个干预，论文将后删除行为分解为三个独立成分：

Parametric leakage L(f)：已删除事实在无检索支持下的残余参数化内存泄漏率（模型是否直接返回已删除答案）。
Retrieval-mediated correctness R(f)：已删除事实在数据库状态变更后的检索路径下的正确率（模型能否通过数据库重新构建事实）。
Retrieval artifact rate：基于推理时检索轨迹（inference-time retrieval trace）的检索伪影率（模型是否因近邻相似性返回无关答案）。

实验规模宏大：作者构建了 12,228 个 alias-closure 类型的删除任务，覆盖 13 个数据库，包括四个精心设计的对抗性拓扑结构（Base、Alias、Noise、Collision）在三个领域，以及六种提示词（prompt）变体。所有实验均在固定的 LMLM 模型上进行，数据库状态仅通过上述干预改变。

关键发现如下：

Parametric leakage 接近零：在所有变体和所有提示词风格下，模型极少直接返回已删除答案（无数据库检索支持时）。这表明 LMLMs 的参数化记忆对删除操作极度稳健，几乎不存在“模型侧遗忘”的残留。
残余存活主要源于检索图谱：DEL-ON 组的检索中介正确率与检索伪影率在数值上高度吻合（四舍五入后），说明后删除正确性主要由“近邻检索”重构而来，而非参数泄漏。
残余范围：从释放的 LMLM 数据库中的 0.7%（极低）到最对抗性拓扑结构（Collision）的 13.6%（较高）。提示词设计并未独立控制删除事实的存活程度——即无论提示如何，模型行为模式一致。
结论推导：对于这一类 LMLM 和删除程序，未学习边界（unlearning boundary）主要由数据库管理员控制，而非模型本身。

论文还附带了代码、数据和媒体资源，便于复现实验细节。

关键要点

提出因果审计框架，通过 FULL/DEL-ON/DEL-OFF 三种干预精确分解后删除行为（参数泄漏、检索中介正确率、检索伪影率）。
实验覆盖 12,228 个 alias-closure 删除、13 个数据库、4 个对抗性拓扑（Base/Alias/Noise/Collision）和 6 种提示，规模远超以往评估。
Parametric leakage 近零，残余主要源于检索近邻相似性，提示词设计无效。
残余存活率 0.7%–13.6%，取决于数据库拓扑而非模型；结论为数据库管理员而非模型控制未学习边界。

意义与影响

该研究填补了 LMLMs 可控 unlearning 评估的空白，从方法论上为知识编辑提供了“白盒”审计工具：未来开发者可通过调整数据库拓扑或检索机制主动降低残余存活率，而非依赖模型。结果显示，现有 LMLMs 在删除时“模型侧遗忘”能力极弱，更像“检索代理”而非“自主记忆体”——这对部署在企业或隐私场景的 LMLMs 具有直接指导意义。长远看，该框架可扩展至其他外部化知识系统，推动整个领域向“数据库驱动 + 参数轻量化”的方向演进，同时警示：未学习安全不能仅依赖模型，数据库治理才是核心。论文作者将为社区提供复现代码与数据集，进一步加速相关研究。

查看原文 →arxiv.org

限内存语言模型遗忘审计：数据库决定未学习边界

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐