技术博客arXiv cs.CL·1 小时前

PreUnlearn：在大模型遗忘前审计知识损伤

原标题：PreUnlearn: Auditing Collateral Knowledge Damage Before Large Language Model Unlearning

速览

大模型机器遗忘旨在移除指定知识，但常因知识纠缠导致无关信息受损。本文从数据视角研究遗忘效果传播，发现损伤随语义距离衰减但不会在领域边界消失。研究将遗忘集审计建模为预遗忘预测任务，发现数据几何特征能提前反映损伤风险。该成果可作为早期预警工具，帮助设计更可靠的遗忘流程。

AI 深度解读

PreUnlearn：在大型语言模型遗忘前审计“连带知识损伤”

背景

随着大型语言模型（LLMs）在各行各业中的广泛应用，如何从模型中移除特定的、可能包含隐私、偏见或有害信息的数据，成为了一个至关重要的研究课题。这一过程被称为“机器遗忘”（Machine Unlearning）。其核心目标是在删除指定知识的同时，尽可能保留模型其余部分的能力。

然而，现实情况远比理想复杂。在大型语言模型的参数空间中，想要遗忘的“目标知识”与想要保留的“其他知识”往往并非截然分开。相关的甚至远距离的信息可能在模型内部相互纠缠。这就导致了一个严峻的问题：当我们试图让模型“忘记”某些内容时，可能会不可避免地造成“连带损伤”（Collateral Damage），即模型在遗忘目标知识的同时，也损害了与其相关但本应保留的知识。

目前，学术界和工业界对于这种损伤的边界尚不清晰，且通常是在遗忘操作执行后，通过评估模型性能来发现损伤。这就带来了一个巨大的风险：如果遗忘操作已经执行，造成的知识损失往往是不可逆的。因此，能否在遗忘操作发生之前，预判并审计这种潜在的连带损伤，成为了提升机器遗忘可靠性的关键瓶颈。

核心内容

本文提出了一种名为 PreUnlearn 的方法，旨在从数据中心的视角研究大型语言模型的机器遗忘问题。研究团队重点分析了遗忘效果如何从“遗忘集”（Forget Set，即希望模型删除的数据集合）传播到同领域（Same-domain）和远领域（Distant-domain）的知识上，并探索了在执行遗忘算法之前，是否能够通过审计数据特征来预测这种损伤。

1. 连带损伤的传播模式

研究团队首先量化了机器遗忘对模型知识的影响。他们发现，连带损伤呈现出一种一致的衰减模式：

近强远弱：连带损伤在距离遗忘集最近的语义空间中最为强烈。
随语义距离减弱：随着与遗忘集的语义距离增加，损伤程度逐渐减弱。
跨域不消失：值得注意的是，这种损伤并不会在领域边界处完全消失。即使是在与遗忘集属于不同领域的知识上，模型依然会出现一定程度的性能下降或知识扭曲。

这一发现表明，模型内部的知识表示是高度互联的，简单的领域隔离并不能完全阻断遗忘操作带来的负面溢出效应。

2. 遗忘集审计作为预遗忘预测任务

基于上述发现，研究团队提出了一个核心问题：这种连带损伤是否可以在遗忘操作执行之前被审计？

为了解答这个问题，他们将“遗忘集审计”（Forget-set Auditing）形式化为一个预遗忘预测任务（Pre-unlearning Prediction Task）。具体而言，他们试图分析哪些数据特征最能预测下游的连带损伤。如果能够在模型权重更新之前，通过数据分析预测出哪些遗忘操作是“高风险”的，就可以为设计更可靠的遗忘程序提供早期预警。

3. 数据几何与交互特征的关键作用

通过对多种数据特征的深入分析，研究团队得出了一个关键结论：遗忘集与评估集之间的交互特征（Interaction Features）提供了最强的预测信号。

这意味着，连带损伤的部分迹象在模型参数更新发生之前，就已经反映在数据的几何结构（Data Geometry）中。换句话说，通过观察遗忘数据与待评估数据在向量空间中的相对位置和相互作用，我们可以在不实际运行昂贵的遗忘算法的情况下，预判模型在遗忘后可能遭受的知识损伤程度。

关键要点

遗忘与保留的边界模糊：在大型语言模型中，想要遗忘的知识与想要保留的知识往往相互纠缠，导致难以精确界定遗忘边界。
一致的衰减规律：机器遗忘造成的连带损伤遵循“近强远弱”的规律，且在领域边界处不会完全消失，说明知识损伤具有跨域传播性。
预遗忘审计的可行性：研究证实，可以在实际执行遗忘算法之前，通过审计数据特征来预测潜在的连带损伤。
数据几何决定风险：遗忘集与评估集之间的交互特征是预测连带损伤的最强信号，表明损伤风险在模型更新前已隐含在数据几何结构中。
早期预警工具：PreUnlearn 方法定位为一种早期预警工具，可用于识别高风险的遗忘运行案例，从而辅助设计更稳健、更可靠的机器遗忘流程。

意义与影响

这项研究为大型语言模型的机器遗忘领域提供了重要的理论依据和实践工具。

首先，它揭示了机器遗忘过程中连带损伤的本质规律，打破了“领域隔离即可避免损伤”的假设，提醒研究者和开发者在设计和评估遗忘算法时，必须考虑跨领域的知识溢出效应。

其次，提出的 PreUnlearn 审计框架具有极高的实用价值。在实际应用中，重新训练或微调大型模型的成本极其高昂。如果能够在模型更新前通过轻量级的数据审计预判出高风险的遗忘操作，就可以避免执行那些可能导致模型能力严重退化的实验，从而节省大量的计算资源和时间成本。

最后，这一工作推动了机器遗忘从“事后评估”向“事前预防”的范式转变。通过识别数据层面的风险信号，开发者可以更有针对性地设计遗忘算法，例如在遗忘特定知识时，对高风险的关联知识进行保护或补偿，从而在满足合规性要求（如 GDPR 中的“被遗忘权”）的同时，最大限度地保持模型的整体智能水平。这对于构建安全、可信且符合伦理的人工智能系统具有重要意义。

查看原文 →arxiv.org