技术博客arXiv cs.AI·3 小时前

论文指出大模型领域滥用“机器遗忘”概念

原标题：Position: The Term "Machine Unlearning" Is Overused in LLMs

速览

针对大模型面临的数据删除与合规需求，该论文指出“机器遗忘”一词在研究中已被过度使用。作者主张将其严格限定为通过移除特定训练数据影响，使模型近似等同于未使用该数据重新训练的效果。许多当前被称为“遗忘”的任务，如拒绝有害请求或知识删除，实为策略性目标，应使用对齐、抑制或编辑等更准确的术语。这种术语混淆导致评估指标被误用，掩盖了模型潜在能力的保留问题。

AI 深度解读

观点：术语“机器遗忘”在大语言模型中被过度使用了

来源：arXiv cs.AI 提交日期：2026年5月8日作者：[原文未列出具体作者，通常为社区共识性立场文章]

背景

随着大型语言模型（LLMs）在社会各个领域的深入应用，模型对训练数据、知识或行为的“遗忘”需求日益迫切。这种需求主要源于三大驱动力：

监管删除义务：如欧盟《通用数据保护条例》（GDPR）等法规赋予用户“被遗忘权”，要求移除特定个人的数据。
版权与许可纠纷：模型训练数据可能涉及未经授权的受版权保护内容，引发法律风险。
安全与产品政策要求：为了符合安全标准或调整产品定位，需要移除有害行为、偏见或过时信息。

在此背景下，“机器遗忘”（Machine Unlearning）成为研究热点。然而，该术语在当前的 LLM 研究中往往被泛化使用，涵盖了从严格的数据删除到简单的行为抑制等多种不同性质的任务。这种术语的混淆不仅造成了学术定义的模糊，更导致了评估基准和指标的误用。

核心内容

本文是一篇立场文章（Position Paper），旨在澄清“机器遗忘”这一术语在 LLM 研究中的定义边界，并指出当前使用该术语的过度泛化问题。

1. “机器遗忘”的严格定义

作者主张，应将“机器遗忘”这一术语严格保留用于基于数据集定义的删除（dataset-defined deletion）。其核心标准是：

精确指定的遗忘集：必须明确界定需要移除影响的具体数据子集。
重训练等价性：经过“遗忘”操作后的模型，在统计上应近似等同于重新训练一个不包含该遗忘集数据的模型。
不可区分性：结果模型应与未包含该数据的重训练模型在输出分布上难以区分。

简而言之，真正的机器遗忘不仅仅是让模型“不回答”某些问题，而是从数学和统计层面消除特定数据对模型参数的影响。

2. 当前被误标为“遗忘”的任务

作者指出，目前许多被贴上“机器遗忘”标签的任务，实际上追求的是不同的、通常依赖于策略（policy-dependent）的目标，因此需要不同的术语和基准：

拒绝有害请求：这属于对齐（Alignment）或安全过滤范畴，而非数据删除。
实体/知识移除：这往往涉及编辑（Editing）或混淆（Obfuscation），即修改模型对特定事实的表征，而非从训练数据中物理移除影响。
针对性抑制：这属于抑制（Suppression）或行为调整，旨在降低特定能力的输出概率，而非消除数据影响。

3. 术语混淆的严重后果

这种定义上的混淆并非仅仅是修辞问题，它带来了实质性的负面影响：

隐含保证的差异：不同论文在同一个标签下做出了不同的隐含保证。有的声称实现了重训练等价，有的仅声称降低了特定输出的概率。
指标与基准的误用：由于定义不清，评估指标和基准测试经常被超出其原本适用范围地使用。
表面合规的奖励：当前的评估体系往往奖励表面上的“不披露”（non-disclosure）。例如，低 ROUGE 分数或低“遗忘准确率”（forget accuracy）可能仅表示模型不再复述原文，但这并不证明它已经“遗忘”了该数据的影响。
衍生能力的残留：即使模型不再直接输出原始数据，其从该数据中学到的衍生能力（derived capabilities）或隐性知识可能仍然保留，而现有的“遗忘”评估往往无法检测这一点。

4. 建议与结论

作者呼吁：

更严格的术语：将术语与明确的保证（explicit guarantees）和参考模型（reference models）绑定。
匹配的评估：评估方法必须与所声称的目标相匹配。如果声称是“机器遗忘”，就必须测试重训练等价性；如果仅是“对齐”或“编辑”，则应使用相应的评估基准。

关键要点

术语滥用：“机器遗忘”在 LLM 研究中被过度使用，涵盖了多种性质不同的任务。
严格定义：真正的机器遗忘应仅指基于数据集定义的删除，即移除指定遗忘集的训练影响，使结果模型近似于未包含该数据的重训练模型。
任务区分：
- 拒绝有害请求 $\rightarrow$ 属于对齐（Alignment）。
- 实体/知识移除 $\rightarrow$ 属于编辑（Editing）或混淆（Obfuscation）。
- 针对性抑制 $\rightarrow$ 属于抑制（Suppression）。
评估误区：当前评估常奖励表面上的“不披露”（如低 ROUGE 分数），而未测试重训练等价性，导致衍生能力（derived capabilities）可能依然保留。
改进方向：需要建立更严格的术语体系，绑定明确的保证和参考模型，并确保评估方法与声称的目标一致。

意义与影响

1. 对学术研究的规范作用

这篇文章为 LLM 研究社区提供了一个重要的概念框架。通过厘清“机器遗忘”与其他相关技术（如对齐、编辑）的边界，有助于减少学术文献中的混淆，促进更精确的科学交流。研究者可以更清晰地界定自己的工作属于哪一类技术范畴，从而选择合适的评估方法。

2. 对评估基准的重构

当前许多“遗忘”基准测试可能无法真正衡量模型是否消除了数据影响。这篇文章呼吁开发新的评估方法，特别是那些能够检测衍生能力和测试重训练等价性的基准。这将推动评估技术从简单的输出匹配向更深层的模型内部状态分析发展。

3. 对合规与法律实践的指导

对于面临 GDPR 等法规合规压力的企业和机构，明确“机器遗忘”的技术含义至关重要。真正的数据删除（即重训练等价）在法律上可能比简单的“拒绝回答”更具说服力。这篇文章提醒从业者，不能仅凭模型不再输出敏感信息就认为已满足法律要求，必须验证数据影响是否真正被消除。

4. 对模型安全与控制的启示

区分“遗忘”与“对齐/抑制”有助于更精细地控制模型行为。例如，如果目标是移除有害知识，使用编辑或对齐技术可能比尝试实现严格的数据遗忘更高效且可行。理解这些技术路径的差异，有助于开发者根据具体需求选择最合适的模型干预策略。

总之，这篇文章不仅是对术语的纠偏，更是对 LLM 可解释性、可控性和合规性研究的一次深刻反思，强调了在追求模型“遗忘”能力时，必须回归到严谨的科学定义和评估标准上来。

查看原文 →arxiv.org