技术博客arXiv cs.CL·23 小时前

RepSelect：通过表示选择性实现大模型鲁棒遗忘

原标题：RepSelect: Robust LLM Unlearning via Representation Selectivity

速览

现有大模型遗忘方法易被微调或提示攻击逆转，RepSelect通过坍缩权重梯度主成分隔离遗忘集特定表示。该方法在生物危害知识和滥用倾向测试中，使重学后答案准确率降低4-50倍，且对少样本提示攻击近乎完美鲁棒。这为实现大模型深度且鲁棒的遗忘提供了重要路径。

AI 深度解读

RepSelect：通过表示选择性实现鲁棒的 LLM 遗忘

背景

在大型语言模型（LLM）的发展过程中，如何使模型“深度遗忘”特定的知识或价值观，同时不牺牲其通用能力，一直是机器遗忘（Machine Unlearning）领域的核心挑战。这一需求源于数据隐私合规、版权保护以及防止模型生成有害内容等实际应用场景。

然而，当前的遗忘方法存在一个显著缺陷：它们往往只能实现“浅层”遗忘。研究表明，现有的遗忘技术很容易通过微调（Fine-tuning）或少样本提示（Few-shot prompting）被逆转。这意味着攻击者或用户只需对经过“遗忘”处理的模型进行简单的再训练或提示，就能重新找回被删除的知识。这种脆弱性使得当前的遗忘机制在实际部署中缺乏可信度。

核心内容

这项研究由 arXiv 上的论文 RepSelect: Robust LLM Unlearning via Representation Selectivity 提出，旨在解决上述“浅层遗忘”和“易逆转”的问题。

问题根源分析

研究人员深入剖析了现有方法失效的根本原因。现有的遗忘方法通常针对那些同时存在于保留集（retain set，即模型应保留的知识）和微调攻击者试图恢复的子空间中的表示（representations）。

后果一：为了强制遗忘，模型不得不破坏这些共享表示，导致通用能力大幅下降。
后果二：由于攻击者可以利用微调轻松恢复这些共享子空间，因此遗忘效果极易被逆转。

RepSelect 解决方案

为了解决这一矛盾，研究团队提出了 RepSelect（Representation Selectivity，表示选择性） 方法。其核心思想是隔离出仅属于“遗忘集”（forget-set）的特定表示，从而在保护通用能力的同时，限制微调攻击者的恢复能力。

具体技术实现如下：

梯度主成分坍缩：在每次参数更新之前，RepSelect 会计算权重梯度，并识别出前几个主成分（Principal Components）。
选择性隔离：通过将这些主成分坍缩（collapse），RepSelect 能够有效地将遗忘集特有的表示从通用表示中剥离出来。
双重保护：这种方法确保了通用能力保持完整（因为它们不在被坍缩的主成分中），同时使得微调攻击者难以通过常规手段恢复被遗忘的知识，因为关键的遗忘信息已被结构性地隔离或消除。

实验评估

研究团队在两个主要的遗忘类别上进行了广泛评估：

生物危害知识（Biohazardous knowledge）
滥用倾向（Abusive tendencies）

实验涵盖了四种模型家族，包括稠密模型和混合专家（Mixture-of-Experts, MoE）架构：

Llama 3
Qwen 3.5
Gemma 4 E4B
DeepSeek V2 Lite

对比基线包括五种流行的遗忘方法：GradDiff, NPO, SimNPO, RMU, 和 UNDIAL。

关键要点

颠覆性的遗忘效果：与最强的基线方法相比，RepSelect 在再学习（relearning）后的答案准确率上实现了 4 到 50 倍 的更大降幅。这意味着被遗忘的知识更难被重新找回。
极高的鲁棒性：RepSelect 对少样本提示攻击（few-shot prompting attacks）表现出近乎完美的鲁棒性，证明了其遗忘机制的深度和稳定性。
通用能力无损：通过隔离特定的表示而非破坏共享子空间，RepSelect 成功避免了传统遗忘方法中常见的“灾难性遗忘”或通用能力下降问题。
架构无关性：该方法在稠密模型和 MoE 架构（如 DeepSeek V2 Lite）上均表现良好，显示出良好的泛化能力。
技术路径创新：从“修改共享表示”转向“隔离特定表示”，通过梯度主成分分析在更新前进行干预，是提升遗忘鲁棒性的关键步骤。

意义与影响

RepSelect 的提出标志着机器遗忘技术从“浅层屏蔽”向“深度结构性遗忘”的重要迈进。

提升合规性与安全性：对于需要严格遵守 GDPR 等数据隐私法规或需要消除有害内容的企业而言，RepSelect 提供了一种更可靠的技术手段，确保被要求遗忘的数据真正从模型中“消失”，且难以通过简单的对抗手段恢复。
平衡遗忘与能力：解决了长期困扰领域的“遗忘-能力权衡”难题。证明可以通过更精细的表示层操作，在剔除有害/特定知识的同时，保持模型的通用智能水平。
对抗攻击的防御价值：其对抗微调恢复的鲁棒性，为 LLM 的安全审计和模型治理提供了新的思路。它表明，未来的模型遗忘标准可能需要考虑对再训练攻击的抵抗力。
推动表示学习研究：该工作强调了权重梯度主成分分析在模型编辑和遗忘中的潜力，可能启发更多关于如何解耦模型内部知识表示的研究。

总之，RepSelect 通过“表示选择性”这一新颖视角，为构建更安全、更可控、更符合伦理规范的大型语言模型提供了坚实的技术基础。

查看原文 →arxiv.org