技术博客arXiv cs.AI·1 小时前

拒绝控制新解：INLP与DiM方法对比研究

原标题：Refusal Beyond a Single Direction: A Preliminary Comparison of Diff-in-Means and INLP

速览

研究对比了基于均值差（DiM）和迭代零空间投影（INLP）的两种干预方法，评估其在五个开源聊天模型中控制拒绝行为的效果。结果显示，INLP的反事实翻转在抑制拒绝方面与DiM的方向性消融相当，而零空间投影效果较弱。限制INLP仅使用子空间的主要方向可在保持接近基线困惑度的同时保留大部分抑制效果，提供了可调优的能力。几何分析表明，两种INLP干预在激活空间中落入不同区域，暗示模型对概念缺失与对立面编码方式不同。

AI 深度解读

拒绝控制 Beyond a Single Direction: Diff-in-Means 与 INLP 的初步对比解读

背景

在大型语言模型（LLM）的安全对齐（Safety Alignment）研究中，一个核心问题是模型如何学会“拒绝”生成有害内容。Arditi 等人（2024）的研究揭示了一个关键发现：在经过安全微调的聊天模型中，拒绝行为是由残差流（residual stream）中的一个单一线性方向所介导的。

具体而言，通过计算有害激活（harmful activations）与无害激活（harmless activations）之间的均值差（Difference-in-Means, DiM），可以恢复出这一方向。基于这一发现，研究者可以通过激活添加（activation addition）或方向消融（directional ablation）等干预手段，直接操控模型的拒绝行为。

然而，除了 DiM 方法外，还有另一种基于**迭代零空间投影（Iterative Nullspace Projection, INLP）**的技术也被用于概念去除或控制。INLP 旨在通过迭代投影，将特定概念的信息从模型表示中剥离。本文旨在初步比较基于 DiM 的干预方法与基于 INLP 的两种衍生干预方法（零空间投影和反事实翻转），探讨 INLP 是否能在引导拒绝行为上与 DiM 相媲美，以及其更丰富的参数化是否带来了更具可调节性的干预能力。

核心内容

本研究在五个开源权重的聊天模型上，对比了两种不同技术路线对模型拒绝行为的影响。

1. 干预方法对比

研究主要对比了以下两类干预方法：

基于 DiM 的方法：
- 激活添加（Activation Addition）： 向模型激活中注入或减去代表拒绝方向的向量。
- 方向消融（Directional Ablation）： 移除激活中沿拒绝方向的分量。
基于 INLP 的方法：
- 零空间投影（Nullspace Projection）： 将激活投影到特定概念的零空间中，以去除该概念信息。
- 反事实翻转（Counterfactual Flipping）： 将激活映射到相反的概念空间中。

2. 实验结果：拒绝抑制效果

INLP 反事实翻转 vs. DiM 方向消融： 在抑制拒绝行为方面，INLP 的反事实翻转方法与 DiM 的方向消融方法具有竞争力（competitive），表现相当。
INLP 零空间投影： 相比之下，零空间投影方法的抑制效果始终较弱。

3. 可调节性与困惑度（Perplexity）

研究进一步发现，如果将 INLP 限制在提取子空间的**主要方向（leading directions）**上，可以在保持接近基线（baseline）困惑度的同时，保留大部分的抑制效果。这表明 INLP 提供了一种可调节的能力，允许研究者在控制效果与模型语言质量之间进行权衡。

4. 几何视角的深层洞察

从激活空间的几何结构来看，两种 INLP 干预方法落在截然不同的区域：

零空间投影： 将转换后的激活压缩到有害簇与无害簇之间的区域。
反事实翻转： 将激活移动到相反的簇中。

这一几何差异揭示了一个有趣的区分：模型对“概念缺失”（absence of a concept，由零空间投影体现）和“概念的对立面”（opposite of a concept，由反事实翻转体现）的编码方式是不同的。这一发现值得在未来的工作中进行更深入的研究。

关键要点

DiM 的有效性验证： 安全微调模型中的拒绝行为确实由残差流中的单一线性方向介导，可通过有害与无害激活的均值差恢复。
INLP 反事实翻转的有效性： INLP 衍生的“反事实翻转”方法在抑制拒绝行为上表现优异，足以与主流的 DiM 方向消融方法相提并论。
零空间投影的局限性： 在拒绝控制任务中，INLP 的“零空间投影”方法效果 consistently 较弱，不如反事实翻转或 DiM 方法。
可调节的平衡点： 通过限制 INLP 仅使用子空间的主要方向，可以在维持模型语言流畅性（低困惑度）的同时实现有效的拒绝抑制，提供了额外的调优维度。
概念编码的几何差异： 模型在激活空间中区分了“无概念”和“概念的反面”。零空间投影将激活推向中间地带，而反事实翻转将其推向对立簇，暗示了模型内部表征结构的复杂性。

意义与影响

这项研究对大模型安全对齐和可解释性领域具有多重意义：

拓展了干预工具箱： 证明了除了基于均值差（DiM）的主流方法外，基于 INLP 的反事实翻转也是一种有效的拒绝控制手段。这为研究人员提供了更多样化的技术选择，特别是在需要精细调节干预强度的场景下。
揭示了模型内部表征的复杂性： 研究指出模型对“缺失”和“对立”的编码不同，这挑战了简单的线性假设，提示我们在构建安全机制时需更细致地考虑激活空间的几何结构。
平衡安全与性能： INLP 方法（特别是限制主要方向时）能够在保持接近基线困惑度的前提下实现干预，这意味着在提升模型安全性或改变其行为倾向时，对模型基础语言能力的负面影响可能更小。
未来研究方向： 关于模型为何以不同方式编码“概念缺失”与“概念对立”的问题，为后续的理论研究打开了窗口，有助于更深入地理解大模型的安全对齐机制。

查看原文 →arxiv.org