技术博客arXiv cs.CL·4 小时前

通过扩展训练时对抗攻击防御恶意微调

原标题：Defending Against Malicious Finetuning by Scaling Train-time Adversarial Attacks

速览

针对现有防御难以抵御全参数微调攻击的问题，研究提出Patcher方法。该方法受对抗训练和双层优化启发，通过扩展对抗循环中的优化步骤来增强模拟攻击强度。实验表明，Patcher能显著提升模型鲁棒性，并具备高效的并行算法实现。

AI 深度解读

通过扩展训练时对抗攻击来防御恶意微调

背景

随着开源权重大型语言模型（LLMs）的普及，其安全性面临着新的威胁。当前，LLMs 极易受到**恶意微调（Malicious Finetuning）**攻击的影响。攻击者只需在中毒数据集（poisoned datasets）上进行极少量的监督微调（Supervised Fine-Tuning, SFT），即可破坏 LLM 的安全对齐（safety alignment），使其产生有害输出或违背安全准则。

现有的防御措施主要集中在“对齐阶段”，旨在抵御使用参数高效微调方法（如 LoRA、Adapter 等）的攻击。然而，这些防御手段在面对使用全参数微调（Full-parameter Finetuning）的更强攻击时往往失效。全参数微调允许攻击者更彻底地改变模型行为，现有的轻量级防御难以应对这种高强度的参数扰动。因此，业界急需一种能够抵御更强全参数微调攻击的新型防御机制。

核心内容

本文提出了一种名为 Patcher 的新方法，旨在通过扩展训练时的对抗攻击来增强模型对恶意全参数微调的鲁棒性。该方法灵感来源于对抗训练（Adversarial Training）和双层优化（Bi-level Optimization）。

1. Patcher 方法原理

Patcher 的核心思想是通过强化模拟攻击来迫使防御者找到对更强攻击不敏感的模型参数。具体而言：

对抗循环中的攻击扩展：在训练过程中，Patcher 引入了一个对抗循环。在这个循环中，它不仅仅是模拟标准的攻击，而是通过扩展优化步数（scaling up the optimization steps）来增强模拟攻击的强度。
双层优化机制：
- 内层（攻击者视角）：模拟恶意攻击者在中毒数据上进行尽可能多的微调步骤，以最大程度地破坏模型的安全对齐。
- 外层（防御者视角）：基于内层产生的最强攻击结果，更新模型参数，使得模型在面对此类高强度攻击时仍能保持鲁棒性。
目标：通过这种“以攻促防”的方式，Patcher 迫使模型学习到对恶意参数扰动具有低敏感性的权重分布，从而在遭受全参数微调攻击时保持安全对齐。

2. 高效并行算法

为了克服对抗训练通常带来的高昂计算成本，作者提出了一种高效的并行算法来实现 Patcher。该算法旨在：

减少墙钟时间（Wall-clock time）：显著降低训练所需的实际时间。
保持性能：在加速训练的同时，不牺牲 Patcher 的防御效果。

3. 实验结果

广泛的实验表明：

鲁棒性显著提升：与标准的 vanilla SFT 对齐相比，Patcher 大幅提高了模型对恶意全参数微调攻击的鲁棒性。
泛化能力强：Patcher 的防御效果能够迁移到不同的攻击场景和不同规模的模型中，显示出良好的通用性。

关键要点

问题定义：现有的对齐防御主要针对参数高效微调，无法有效防御更具破坏性的全参数微调攻击。
核心创新：提出了 Patcher 方法，利用对抗训练和双层优化框架，通过增加对抗循环中的优化步数来模拟更强的攻击。
防御机制：通过让模型在训练中经历“被彻底攻破”的模拟场景，迫使模型参数变得对恶意微调不敏感，从而提升鲁棒性。
工程优化：设计了高效的并行算法，解决了大规模对抗训练带来的计算效率瓶颈，缩短了训练周期。
实验验证：Patcher 在多种攻击场景和模型规模下均表现出优于传统 SFT 对齐的防御效果，且具备跨场景的迁移能力。

意义与影响

这项研究在开源大模型的安全领域具有重要的理论和实践意义：

填补防御空白：现有研究多关注于轻量级微调攻击的防御，而 Patcher 首次系统地解决了全参数微调这一更强威胁下的防御问题，完善了 LLM 安全对齐的防御体系。
提升开源模型安全性：随着更多开源权重模型的发布，恶意行为者利用全参数微调进行“劫持”的风险增加。Patcher 提供了一种切实可行的训练时防御方案，有助于保护开源模型不被轻易篡改。
方法论启示：将对抗训练和双层优化应用于模型对齐防御，为后续研究提供了新的思路。通过“增强攻击以强化防御”的策略，可能成为未来应对更复杂对抗攻击的标准范式之一。
实用性与可扩展性：提出的高效并行算法使得该方法在实际大规模模型训练中具备可行性，而非仅停留在理论层面。其良好的泛化能力也意味着该方法可以应用于不同架构和规模的 LLMs。

总之，Patcher 为应对日益严峻的恶意微调威胁提供了一种强有力的防御工具，有助于构建更可靠、更安全的大语言模型生态系统。

查看原文 →arxiv.org