HARC方法揭示LLM对有害内容的内部识别机制并优化安全对齐
速览
HARC是一种新型微调方法,针对LLM内部表示安全性的关键问题进行设计。它基于对齐模型在残差流中将危害性和拒绝编码为可分离方向的发现,干预仅限于该子空间。 该方法实现最优的安全-能力-可用性权衡,测试中转移到五种模型家族和两种规模,不影响基础能力。 其意义在于为诊断对齐漏洞、应对越狱攻击提供新视角,推动更鲁棒的AI安全策略发展。
AI 深度解读
HARC: Coupling Harmfulness and Refusal Directions for Robust Safety Alignment
arXiv cs.AI
2026年7月1日提交
背景
大型语言模型(LLMs)的安全对齐是确保其在处理有害请求时拒绝,同时保持对有用指令的处理能力的关键。但现有研究发现,Aligned LLMs在残差流(residual stream)中于提示侧的标记位置将“harmfulness”(有害性)和“refusal”(拒绝)编码为可分离的方向。这一发现解释了为何许多越狱(jailbreak)攻击能成功,以及如何指导更健壮的对齐策略。
核心内容
论文分析了Aligned LLMs在提示侧和响应侧残差流中如何内部表示安全机制。研究表明,Aligned LLMs将harmfulness和refusal分别编码为残差流中提示侧标记位置的可分离方向。
越狱攻击通过在任何标记生成前抑制refusal方向或harmfulness方向之一而成功,不同攻击类别占据harmfulness-refusal平面上的可分离区域。
扩展至响应标记位置,研究发现模型即使在输入端未识别有害内容,仍会在生成有害内容时认识到其有害性。
基于这些发现,论文提出HARC(Harmfulness-And-Refusal Coupling)微调方法。该方法在提示和响应位置均对两个方向进行配对。由于干预仅限于harmfulness-refusal子空间,其余残差流保持完整,不影响通用能力,也不增加过度拒绝(over-refusal)。
在广泛实验中,HARC在六种基准(涵盖主要训练时和推理时安全方法)中实现了最强的健壮性-能力-可用性权衡。该harmfulness和refusal方向在提示和响应位置均可跨五个模型家族和两种尺度转移,无需架构特定调优。
关键要点
- Aligned LLMs在残差流提示侧标记位置将harmfulness与refusal编码为可分离方向。
- 越狱攻击通过在任何标记生成前抑制refusal方向或harmfulness方向之一成功,不同攻击类在harmfulness-refusal平面上占据不同区域。
- 模型在生成有害内容时会认识到其有害性,即使输入端未识别。
- HARC方法对提示和响应位置的两个方向进行配对,仅干预harmfulness-refusal子空间,保持其余残差流完整。
- HARC在六种主要安全方法基准中实现最优健壮性-能力-可用性权衡,方向在五个模型家族和两种尺度上可通用转移。
意义与影响
HARC为诊断LLM对齐漏洞提供了新维度,并为设计更健壮的安全对齐策略奠定了基础。通过将harmfulness和refusal方向耦合,HARC显著提升了安全鲁棒性,同时避免了能力退化和过度拒绝,这对构建可靠的LLM应用具有实际价值。方向的跨模型家族和尺度通用转移性表明,其机制在不同架构和规模下具有一致性,为未来针对LLM安全对齐的研究和优化提供了可靠的理论基础。
