技术博客arXiv cs.CL·8 天前

模型遗忘目标因语言功能而异

原标题：Model Unlearning Objectives Vary for Distinct Language Functions

速览

大型语言模型在预训练中会习得危险知识和毒性文本等 undesirable 属性。研究认为，正如后训练需不同目标塑造行为，遗忘方法也应针对具体的语言功能进行设计。作者分别针对危险知识遗忘和毒性遗忘提出了基于余弦相似度的元学习RMU变体及多层探针方向目标。实验显示，在多个开源模型上，这种区分目标的方法取得了显著效果，表明遗忘应被视为类似后训练的多样化问题家族。

AI 深度解读

模型遗忘目标因语言功能而异：深度解读

背景

随着大型语言模型（LLMs）在预训练阶段吸收了海量数据，它们不可避免地习得了一些 undesirable（不理想）的属性。这些属性包括危险的敏感知识（dangerous knowledge）以及有害文本生成能力（toxic text generation）。目前，业界对于如何从模型中“移除”或“遗忘”这些不良信息的研究正处于起步阶段。

现有的遗忘方法往往采用通用的优化目标，试图一刀切地解决所有类型的不良行为。然而，正如后训练（post-training）阶段会根据不同的行为塑造目标（如指令遵循、安全对齐、风格控制等）采用不同的策略一样，作者认为，遗忘方法的设计也应当针对具体的语言功能进行定制化。如果忽视不同语言功能在机制上的差异，可能会导致遗忘效率低下或引发模型能力的意外退化。

核心内容

本文提出并验证了一个核心假设：针对不同的语言功能，模型遗忘的目标函数应当是不同的。 为了证实这一观点，研究团队聚焦于两个在机制上截然不同的遗忘目标：危险知识遗忘（dangerous-knowledge unlearning）和毒性遗忘（toxicty unlearning）。

1. 危险知识遗忘：引入基于余弦的元学习变体 RMU

针对“危险知识”（例如如何制造武器、获取敏感个人信息等），作者提出了一种新的方法。他们基于现有的 RMU（Representation Matching Unlearning，表示匹配遗忘）方法，引入了一个**基于余弦相似度（cosine-based）且经过元学习（meta-learned）**优化的变体。

机制逻辑：危险知识通常嵌入在模型的深层语义表示中。通过元学习优化遗忘过程，模型能够更精准地调整参数，使得与危险知识相关的表示方向发生偏移，从而在保留模型通用语言能力的同时，切断对特定危险知识的访问路径。
技术细节：该方法利用余弦相似度来衡量表示空间中的方向变化，确保遗忘操作是几何上“平滑”且高效的。

2. 毒性遗忘：提出基于层特定探针方向的多层目标

针对“毒性”（如仇恨言论、骚扰性内容生成），作者发现其机制与危险知识不同，因此提出了一个多层目标（multi-layer objective）。

机制逻辑：毒性特征可能在模型的不同层级中以不同的方式激活。作者通过**层特定探针方向（layer-specific probe directions）**来定位这些特征。
技术细节：该方法不再试图全局统一调整，而是针对模型的不同层，利用探针检测出的特定方向进行针对性优化。这种细粒度的控制允许模型在抑制毒性输出的同时，减少对非毒性语言流畅度的负面影响。

3. 实验验证

为了评估这两种差异化方法的有效性，研究团队在四个开源的 7B-8B 参数规模的大语言模型上进行了广泛实验。

结果：实验结果表明，当使用针对各自语言功能定制的差异化训练目标时，模型在危险知识遗忘和毒性抑制方面均取得了显著优于通用遗忘方法的效果。
对比：通用方法往往在一种任务上表现尚可时，会在另一种任务上表现不佳，或者导致整体模型性能大幅下降。而本文提出的差异化方法实现了更平衡的性能提升。

关键要点

遗忘非单一问题：模型遗忘不应被视为一个单一的技术问题，而应被视为一个问题家族（family of problems）。不同的不良行为（如危险知识 vs. 毒性）需要不同的解决策略。
类比后训练：正如 LLM 的后训练包含多种类型（如 SFT、RLHF、DPO 等）以塑造不同行为，遗忘方法也应多样化，针对具体的语言功能设计特定的优化目标。
方法差异化：
- 危险知识：采用基于余弦相似度的元学习 RMU 变体，侧重于表示空间的几何调整。
- 毒性：采用基于层特定探针方向的多层目标，侧重于分层特征的精准抑制。
实证有效性：在 7-8B 规模的四个开源模型上，差异化目标方法均实现了强劲的性能，证明了“对症下药”在模型遗忘中的必要性。

意义与影响

这项研究对大模型的安全治理和伦理对齐具有重要的理论和实践意义：

提升遗忘效率与精度：通过区分不同的语言功能并设计专门的遗忘目标，可以更高效地移除不良信息，同时最大限度地保留模型的其他有用能力（如逻辑推理、通用对话等），避免“过度遗忘”导致的模型能力退化。
推动遗忘技术的精细化发展：研究指出遗忘方法应像后训练一样多样化，这为后续研究指明了方向——未来的工作应深入探究不同语言功能背后的机制差异，并开发更细粒度的遗忘算法。
增强模型可控性：对于企业和监管机构而言，这意味着可以更有针对性地修复模型中的特定安全隐患，而不是采取“一刀切”的重新训练或大幅修剪，从而在合规与性能之间找到更好的平衡点。
方法论启示：引入元学习和层特定探针等技术手段，展示了如何将机器学习的前沿优化策略应用于模型安全领域，为其他类似的安全对齐问题提供了可借鉴的技术范式。

查看原文 →arxiv.org