← 返回信息流
技术博客arXiv cs.CL·1 天前

限内存语言模型遗忘审计:数据库决定未学习边界

原标题:Auditing Forgetting in Limited Memory Language Models

速览

限内存语言模型(LMLMs)通过外部数据库实现事实知识的删除式未学习,避免重训。现有评估仅测聚合后删除正确率,无法区分残留参数记忆、替代检索路径或近邻检索伪影。作者提出因果审计框架,在推理时固定模型、改变数据库状态,进行FULL、DEL-ON和DEL-OFF干预。测试了12228个别名闭包删除,覆盖13个数据库及四个对抗拓扑和六种提示。结果显示参数泄露近零,残留正确率主要源于检索图,提示语不独立控制残留程度,表明未学习边界由数据库管理员主导。

AI 深度解读

背景

大规模语言模型(LLMs)已展现出强大的知识存储能力,但其参数化的训练范式导致事实性知识难以删除或更新——这被称为“遗忘”(forgetting)。现有方法往往依赖大规模重新训练或修改模型权重,成本高昂且难以控制。Limited Memory Language Models (LMLMs) 应运而生,这类模型将事实性知识外部化到数据库中,在推理时通过检索机制获取,避免了参数重训。它们支持“删除基于 unlearning”的操作:仅删除数据库中的特定条目,无需触及模型本身。这种设计实现了可控的知识编辑,但仍存在潜在风险——模型的残余参数化记忆可能保留已删除事实,导致“后删除正确性”(post-deletion correctness)不彻底。

现有评估方法主要统计删除后整体正确率,无法区分已删除事实是否通过残余参数泄漏(parametric leakage)、替代检索路径(retrieval-mediated correctness)或近邻检索伪影(retrieval artifact)存活。arXiv cs.CL 提交于 2026 年 7 月 1 日的论文《Auditing Forgetting in Limited Memory Language Models》针对这一空白,提出了首个因果审计框架,旨在精确揭示 LMLMs 在删除操作后的行为机制。

核心内容

论文提出一个因果审计框架,核心是“保持模型固定,仅通过修改数据库状态在推理时进行干预”。该框架定义了三种干预操作:

  • FULL:数据库完整状态(基础线,验证模型正常行为)。
  • DEL-ON:删除特定事实对应的数据库条目(模拟真实 unlearning 场景)。
  • DEL-OFF:保留所有数据库条目(对照组,验证数据库的作用)。

通过这三个干预,论文将后删除行为分解为三个独立成分:

  • Parametric leakage L(f):已删除事实在无检索支持下的残余参数化内存泄漏率(模型是否直接返回已删除答案)。
  • Retrieval-mediated correctness R(f):已删除事实在数据库状态变更后的检索路径下的正确率(模型能否通过数据库重新构建事实)。
  • Retrieval artifact rate:基于推理时检索轨迹(inference-time retrieval trace)的检索伪影率(模型是否因近邻相似性返回无关答案)。

实验规模宏大:作者构建了 12,228 个 alias-closure 类型的删除任务,覆盖 13 个数据库,包括四个精心设计的对抗性拓扑结构(Base、Alias、Noise、Collision)在三个领域,以及六种提示词(prompt)变体。所有实验均在固定的 LMLM 模型上进行,数据库状态仅通过上述干预改变。

关键发现如下:

  • Parametric leakage 接近零:在所有变体和所有提示词风格下,模型极少直接返回已删除答案(无数据库检索支持时)。这表明 LMLMs 的参数化记忆对删除操作极度稳健,几乎不存在“模型侧遗忘”的残留。
  • 残余存活主要源于检索图谱:DEL-ON 组的检索中介正确率与检索伪影率在数值上高度吻合(四舍五入后),说明后删除正确性主要由“近邻检索”重构而来,而非参数泄漏。
  • 残余范围:从释放的 LMLM 数据库中的 0.7%(极低)到最对抗性拓扑结构(Collision)的 13.6%(较高)。提示词设计并未独立控制删除事实的存活程度——即无论提示如何,模型行为模式一致。
  • 结论推导:对于这一类 LMLM 和删除程序,未学习边界(unlearning boundary)主要由数据库管理员控制,而非模型本身。

论文还附带了代码、数据和媒体资源,便于复现实验细节。

关键要点

  • 提出因果审计框架,通过 FULL/DEL-ON/DEL-OFF 三种干预精确分解后删除行为(参数泄漏、检索中介正确率、检索伪影率)。
  • 实验覆盖 12,228 个 alias-closure 删除、13 个数据库、4 个对抗性拓扑(Base/Alias/Noise/Collision)和 6 种提示,规模远超以往评估。
  • Parametric leakage 近零,残余主要源于检索近邻相似性,提示词设计无效。
  • 残余存活率 0.7%–13.6%,取决于数据库拓扑而非模型;结论为数据库管理员而非模型控制未学习边界。

意义与影响

该研究填补了 LMLMs 可控 unlearning 评估的空白,从方法论上为知识编辑提供了“白盒”审计工具:未来开发者可通过调整数据库拓扑或检索机制主动降低残余存活率,而非依赖模型。结果显示,现有 LMLMs 在删除时“模型侧遗忘”能力极弱,更像“检索代理”而非“自主记忆体”——这对部署在企业或隐私场景的 LMLMs 具有直接指导意义。长远看,该框架可扩展至其他外部化知识系统,推动整个领域向“数据库驱动 + 参数轻量化”的方向演进,同时警示:未学习安全不能仅依赖模型,数据库治理才是核心。论文作者将为社区提供复现代码与数据集,进一步加速相关研究。

查看原文 →arxiv.org