← 返回信息流
技术博客arXiv cs.AI·8 天前

超越单一方向:思维链破坏了拒绝行为的简单引导

原标题:Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal

速览

该研究指出,大推理模型(LRM)的拒绝行为由残差流激活和思维链(CoT)共同编码。思维链不仅强化了拒绝信号,还使得仅针对激活层的干预难以完全逆转拒绝。然而,这种机制也暴露出思维链可能成为替代性的表面攻击目标。

AI 深度解读

超越单一方向:思维链(CoT)如何颠覆对拒绝行为的简单操控

来源:arXiv cs.AI 提交日期:2026年5月26日 论文标题:Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal

背景

随着大推理模型(Large Reasoning Models, LRMs)的兴起,AI 的行为控制机制正面临前所未有的复杂性。传统的指令微调大语言模型(Instruction-tuned LLMs)在生成最终输出前,通常不生成显式的中间推理过程。在这些传统模型中,拒绝回答(Refusal,即模型拒绝执行有害或违规请求的行为)往往被编码在残差流(residual stream)的某个单一方向子空间(single directional subspace)中。这意味着,研究人员可以通过“激活引导”(Activation Steering)技术,简单地抑制或反转这一方向,从而有效地控制模型的拒绝行为。

然而,LRMs(如 DeepSeek-R1 系列)引入了思维链(Chain-of-Thought, CoT)机制,即在生成最终答案之前先生成一段推理轨迹。这种机制引入了动态的内部状态,使得模型的控制变得更加困难。CoT 不仅是一个输出步骤,更可能作为一种独立的信号载体,强化或重构模型的合规性/拒绝信号。本文旨在探讨 CoT 如何改变 LRMs 中拒绝行为的编码方式,以及这对现有的激活引导干预手段提出了怎样的挑战。

核心内容

本文通过一系列实验,深入分析了思维链(CoT)在大推理模型(LRMs)拒绝行为中的作用,并对比了不同干预策略下的效果。研究主要围绕 DeepSeek-R1-Distill-LLaMA-8B 模型展开,重点考察了激活引导(Activation Steering)技术在固定 CoT 和动态生成 CoT 两种场景下的有效性。

1. CoT 对拒绝行为的强化作用

研究发现,在 LRMs 中,拒绝行为并非仅由残差流中的单一方向决定,而是由残差流激活和 CoT 共同编码的。

  • 固定 CoT 场景:当研究人员使用激活引导技术试图反转拒绝行为(即让模型从“拒绝”变为“合规”),但保持 CoT 固定不变时,反转成功率仅为 39%。这表明,仅靠调整残差流的方向不足以克服模型内部的拒绝机制。
  • 移除 CoT 场景:当完全移除 CoT 时,同样的激活引导技术将反转成功率提高到了 70%

这一对比清晰地表明,CoT 在 LRMs 中 actively reinforces refusal(主动强化拒绝行为)。CoT 的存在使得简单的激活引导难以生效,因为拒绝信号不仅存在于最终输出的潜在空间中,还通过推理过程得到了巩固。

2. 两阶段干预:CoT 的信号承载与重构能力

为了进一步探究 CoT 的独立性,研究设计了一种两阶段干预策略:

  • 第一阶段:在激活引导的作用下,让模型重新生成其 CoT。
  • 结果:在这种动态干预下,拒绝行为被成功反转的比例高达 94%

更令人惊讶的发现出现在后续分析中:即使移除了激活引导,仅保留新生成的 CoT,该 CoT 仍然保留了 48% 的反转效果。这意味着,新生成的 CoT 本身携带了“合规”信号,并且能够独立于残差流的实时引导,重构出合规的输出行为。

3. 结论:联合编码与攻击面暴露

综上所述,LRMs 中的拒绝行为是**联合编码(Jointly Encoded)**在残差流激活和 CoT 中的。这种联合编码机制使得 LRMs 对仅针对激活层面的干预(Activation-level interventions)具有更强的鲁棒性(Robustness)。然而,这也暴露了 CoT 作为一个潜在的替代攻击面(Alternative Surface Attack)。如果攻击者能够控制或诱导 CoT 的生成,他们可能绕过传统的激活引导防御,直接通过推理过程操纵模型行为。

关键要点

  • 拒绝机制的复杂性升级:与传统 LLMs 不同,LRMs 的拒绝行为不再局限于单一的方向子空间,而是由残差流和思维链(CoT)共同决定。
  • CoT 是拒绝行为的强化器:实验数据显示,移除 CoT 能显著提升激活引导反转拒绝的成功率(从 39% 提升至 70%),证明 CoT 主动维持和强化了拒绝状态。
  • 动态干预的有效性:在激活引导下让模型重新生成 CoT,可以将拒绝反转成功率提升至 94%,远高于固定 CoT 的情况。
  • CoT 的信号独立性:新生成的 CoT 即使在没有外部激活引导的情况下,仍能独立保留近半数的合规信号(48%),证明 CoT 可以独立携带和重构合规/拒绝信号。
  • 安全防御的新挑战:LRMs 的联合编码机制提高了模型对传统激活引导攻击的抵抗力,但也使得 CoT 成为新的潜在脆弱点,可能面临“替代表面攻击”。

意义与影响

这项研究对 AI 安全、模型对齐(Alignment)以及红队测试(Red Teaming)具有深远的影响:

  1. 传统对齐技术的局限性:过去基于“单一方向子空间”假设的对齐和干预技术(如简单的激活引导)在 LRMs 上可能失效。研究人员不能仅关注最终输出的潜在空间,必须将 CoT 纳入控制变量。
  2. 红队测试的新维度:在进行模型安全评估时,攻击者或安全研究人员需要开发针对 CoT 的专门攻击向量。如果 CoT 可以被诱导生成特定的推理路径,从而绕过拒绝机制,那么现有的防御体系可能存在重大漏洞。
  3. 防御策略的转向:为了增强 LRMs 的安全性,防御机制可能需要从“仅控制残差流”转向“联合控制残差流与 CoT”。例如,开发能够监测和约束 CoT 内容的中间层过滤器,或者设计能够识别并阻断恶意推理路径的机制。
  4. 模型设计的启示:对于 LRMs 的设计者而言,理解 CoT 如何影响决策逻辑至关重要。如果 CoT 能够独立承载合规信号,那么优化 CoT 的质量和内容可能成为提升模型可控性和安全性的关键杠杆。

总之,随着 AI 模型从简单的指令跟随者演变为具备推理能力的复杂系统,控制其行为的机制也必须从“静态方向控制”进化为“动态过程控制”。忽视思维链的作用,将导致对模型行为控制的严重误判。

查看原文 →arxiv.org