技术博客arXiv cs.CL·12 小时前

专家感知拒绝引导：MoE大模型安全对齐新突破

原标题：Expert-Aware Refusal Steering

速览

针对指令微调大模型的安全对齐问题，研究团队将拒绝引导技术扩展至三种开源混合专家（MoE）大模型。通过利用拒绝特定的专家路由模式和专家特定的引导方向，该方法能有效抑制正常拒绝行为。实验表明，基于单一专家输出的引导即可生效，且拒绝信号与专家路由行为存在差异，凸显了注意力机制在MoE拒绝行为中的重要作用。

AI 深度解读

Expert-Aware Refusal Steering：专家感知型拒绝引导技术深度解读

背景

在指令微调（Instruction-tuned）的大语言模型（LLMs）中，安全对齐（Safety alignment）是核心议题之一。其关键在于模型能否可靠地拒绝回答有害或被禁止的请求。近年来，研究人员发现，通过在推理过程中应用“引导向量”（Steering vector），可以有效抑制密集架构（Dense）LLM 的拒绝行为，从而诱导模型对有害请求做出回应。这一技术通常被称为“拒绝引导”（Refusal Steering）。

然而，随着模型架构向混合专家（Mixture-of-Experts, MoE）演进，原有的引导方法是否依然有效，以及 MoE 架构中复杂的专家路由机制如何影响拒绝行为，尚缺乏深入的研究。MoE 模型通过动态激活不同的专家子网络来处理输入，这种稀疏性和动态性使得传统的基于密集模型的引导策略面临新的复杂性。

核心内容

本文题为《Expert-Aware Refusal Steering》（专家感知型拒绝引导），由 arXiv 计算机科学板块发布。研究团队将现有的拒绝引导方法扩展至三个开源的 MoE LLMs，并在此基础上提出了两种新的“专家感知”引导方法，旨在更精细地控制模型的拒绝行为。

1. 拒绝引导在 MoE 架构中的有效性验证 研究首先验证了传统的拒绝引导方法在 MoE 架构中的表现。结果显示，尽管 MoE 架构具有内在的复杂路由模式，但引导性能并未受到抑制。这意味着，即使在动态激活不同专家的情况下，通过全局向量引导依然能够有效地抑制模型的拒绝行为，诱导其回答有害请求。

2. 提出专家感知型引导方法 为了更精准地利用 MoE 的结构特性，研究者提出了两种新的引导策略：

利用拒绝特定的专家路由模式：识别并针对那些专门负责处理安全或拒绝逻辑的专家进行干预。
利用专家特定的引导方向：为不同的专家定制特定的引导向量，而非使用单一的全局向量。

3. 单一专家输出的关键作用 研究发现，基于单个专家的输出来进行拒绝行为引导是有效的。这表明，拒绝行为并非均匀分布在所有参数中，而是高度集中在特定的专家组件上。

4. 引导信号与路由行为的解耦 研究进一步分析指出，通过引导方法捕获的“拒绝信号”与专家的路由行为（即模型决定激活哪个专家的过程）存在显著差异。这一发现暗示，在 MoE 模型的拒绝行为中，注意力机制（Attention）扮演了比专家路由更重要的角色。换句话说，模型是否拒绝回答，更多取决于注意力机制对上下文的加权处理，而非单纯由哪个专家被激活所决定。

关键要点

MoE 架构兼容性强：传统的拒绝引导方法在开源 MoE 大语言模型中依然有效，复杂的专家路由机制不会阻碍引导向量的作用。
两种新策略：提出了利用“拒绝特定专家路由模式”和“专家特定引导方向”的两种专家感知型引导方法，旨在更精细地抑制正常拒绝行为。
单一专家即可生效：实验表明，仅基于单个专家的输出来实施引导，即可有效操控模型的拒绝行为，这简化了干预的复杂度。
注意力机制的主导地位：引导信号与专家路由行为是解耦的，研究结果强烈暗示注意力机制在 MoE 模型的拒绝决策中起着实质性且重要的作用，而非专家选择本身。
安全对齐的挑战：该研究揭示了通过向量引导抑制安全对齐机制的可行性，这对模型安全护栏的设计提出了新的挑战，同时也为理解模型内部决策机制提供了新视角。

意义与影响

这项研究在理解大语言模型内部工作机制和安全对齐方面具有重要意义。

首先，它证明了拒绝引导技术具有架构泛化能力。尽管 MoE 架构比传统密集模型更复杂，但基于向量空间的引导策略依然适用。这为未来在更大规模、更高效的 MoE 模型上进行安全干预或红队测试（Red-teaming）提供了理论依据和技术路径。

其次，研究揭示了MoE 模型中拒绝行为的内在机制。通过发现“引导信号”与“路由行为”的差异，以及强调“注意力机制”的关键作用，研究者为模型可解释性研究提供了新的线索。这表明，要理解或控制模型的拒绝行为，不能仅关注专家的选择，更需深入分析注意力层的动态变化。

最后，从安全与对抗性角度来看，这项研究展示了通过特定技术手段（如专家感知引导）可以绕过或削弱模型的安全对齐。这对于安全研究人员而言，既是警示也是工具：一方面需要警惕此类技术被用于生成有害内容，另一方面也可以利用这些方法更精准地测试和强化模型的安全边界，确保模型在面对精心构造的提示时仍能保持应有的安全响应。

查看原文 →arxiv.org