技术博客arXiv cs.AI·8 天前

超越单一方向：思维链破坏了拒绝行为的简单引导

原标题：Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal

速览

该研究指出，大推理模型（LRM）的拒绝行为由残差流激活和思维链（CoT）共同编码。思维链不仅强化了拒绝信号，还使得仅针对激活层的干预难以完全逆转拒绝。然而，这种机制也暴露出思维链可能成为替代性的表面攻击目标。

AI 深度解读

超越单一方向：思维链（CoT）如何颠覆对拒绝行为的简单操控

来源：arXiv cs.AI 提交日期：2026年5月26日 论文标题：Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal

背景

随着大推理模型（Large Reasoning Models, LRMs）的兴起，AI 的行为控制机制正面临前所未有的复杂性。传统的指令微调大语言模型（Instruction-tuned LLMs）在生成最终输出前，通常不生成显式的中间推理过程。在这些传统模型中，拒绝回答（Refusal，即模型拒绝执行有害或违规请求的行为）往往被编码在残差流（residual stream）的某个单一方向子空间（single directional subspace）中。这意味着，研究人员可以通过“激活引导”（Activation Steering）技术，简单地抑制或反转这一方向，从而有效地控制模型的拒绝行为。

然而，LRMs（如 DeepSeek-R1 系列）引入了思维链（Chain-of-Thought, CoT）机制，即在生成最终答案之前先生成一段推理轨迹。这种机制引入了动态的内部状态，使得模型的控制变得更加困难。CoT 不仅是一个输出步骤，更可能作为一种独立的信号载体，强化或重构模型的合规性/拒绝信号。本文旨在探讨 CoT 如何改变 LRMs 中拒绝行为的编码方式，以及这对现有的激活引导干预手段提出了怎样的挑战。

核心内容

本文通过一系列实验，深入分析了思维链（CoT）在大推理模型（LRMs）拒绝行为中的作用，并对比了不同干预策略下的效果。研究主要围绕 DeepSeek-R1-Distill-LLaMA-8B 模型展开，重点考察了激活引导（Activation Steering）技术在固定 CoT 和动态生成 CoT 两种场景下的有效性。

1. CoT 对拒绝行为的强化作用

研究发现，在 LRMs 中，拒绝行为并非仅由残差流中的单一方向决定，而是由残差流激活和 CoT 共同编码的。

固定 CoT 场景：当研究人员使用激活引导技术试图反转拒绝行为（即让模型从“拒绝”变为“合规”），但保持 CoT 固定不变时，反转成功率仅为 39%。这表明，仅靠调整残差流的方向不足以克服模型内部的拒绝机制。
移除 CoT 场景：当完全移除 CoT 时，同样的激活引导技术将反转成功率提高到了 70%。

这一对比清晰地表明，CoT 在 LRMs 中 actively reinforces refusal（主动强化拒绝行为）。CoT 的存在使得简单的激活引导难以生效，因为拒绝信号不仅存在于最终输出的潜在空间中，还通过推理过程得到了巩固。

2. 两阶段干预：CoT 的信号承载与重构能力

为了进一步探究 CoT 的独立性，研究设计了一种两阶段干预策略：

第一阶段：在激活引导的作用下，让模型重新生成其 CoT。
结果：在这种动态干预下，拒绝行为被成功反转的比例高达 94%。

更令人惊讶的发现出现在后续分析中：即使移除了激活引导，仅保留新生成的 CoT，该 CoT 仍然保留了 48% 的反转效果。这意味着，新生成的 CoT 本身携带了“合规”信号，并且能够独立于残差流的实时引导，重构出合规的输出行为。

3. 结论：联合编码与攻击面暴露

综上所述，LRMs 中的拒绝行为是**联合编码（Jointly Encoded）**在残差流激活和 CoT 中的。这种联合编码机制使得 LRMs 对仅针对激活层面的干预（Activation-level interventions）具有更强的鲁棒性（Robustness）。然而，这也暴露了 CoT 作为一个潜在的替代攻击面（Alternative Surface Attack）。如果攻击者能够控制或诱导 CoT 的生成，他们可能绕过传统的激活引导防御，直接通过推理过程操纵模型行为。

关键要点

拒绝机制的复杂性升级：与传统 LLMs 不同，LRMs 的拒绝行为不再局限于单一的方向子空间，而是由残差流和思维链（CoT）共同决定。
CoT 是拒绝行为的强化器：实验数据显示，移除 CoT 能显著提升激活引导反转拒绝的成功率（从 39% 提升至 70%），证明 CoT 主动维持和强化了拒绝状态。
动态干预的有效性：在激活引导下让模型重新生成 CoT，可以将拒绝反转成功率提升至 94%，远高于固定 CoT 的情况。
CoT 的信号独立性：新生成的 CoT 即使在没有外部激活引导的情况下，仍能独立保留近半数的合规信号（48%），证明 CoT 可以独立携带和重构合规/拒绝信号。
安全防御的新挑战：LRMs 的联合编码机制提高了模型对传统激活引导攻击的抵抗力，但也使得 CoT 成为新的潜在脆弱点，可能面临“替代表面攻击”。

意义与影响

这项研究对 AI 安全、模型对齐（Alignment）以及红队测试（Red Teaming）具有深远的影响：

传统对齐技术的局限性：过去基于“单一方向子空间”假设的对齐和干预技术（如简单的激活引导）在 LRMs 上可能失效。研究人员不能仅关注最终输出的潜在空间，必须将 CoT 纳入控制变量。
红队测试的新维度：在进行模型安全评估时，攻击者或安全研究人员需要开发针对 CoT 的专门攻击向量。如果 CoT 可以被诱导生成特定的推理路径，从而绕过拒绝机制，那么现有的防御体系可能存在重大漏洞。
防御策略的转向：为了增强 LRMs 的安全性，防御机制可能需要从“仅控制残差流”转向“联合控制残差流与 CoT”。例如，开发能够监测和约束 CoT 内容的中间层过滤器，或者设计能够识别并阻断恶意推理路径的机制。
模型设计的启示：对于 LRMs 的设计者而言，理解 CoT 如何影响决策逻辑至关重要。如果 CoT 能够独立承载合规信号，那么优化 CoT 的质量和内容可能成为提升模型可控性和安全性的关键杠杆。

总之，随着 AI 模型从简单的指令跟随者演变为具备推理能力的复杂系统，控制其行为的机制也必须从“静态方向控制”进化为“动态过程控制”。忽视思维链的作用，将导致对模型行为控制的严重误判。

查看原文 →arxiv.org