超越浅层安全:沿生成轨迹对齐提升大模型推理时鲁棒性
速览
最新研究指出,大模型的安全对齐往往集中在输出前几个token,导致推理时易受短token注入干扰。这种“浅层安全”实为更广泛的推理时漏洞特例,且隐藏状态中的拒绝方向无法预测模型鲁棒性。为此,作者提出通过在模拟中途扰动构建的生成轨迹上进行对齐,显著提升了模型对中途注入及早期token攻击的防御能力。该工作证明,真正的安全对齐需直接训练生成过程本身。
AI 深度解读
超越浅层安全:沿生成轨迹的对齐推理时漏洞
背景
大型语言模型(LLMs)在推理阶段的安全性对齐是一个持续存在的挑战。尽管模型在训练阶段经过了安全微调,但在实际运行(推理)过程中,它们仍然容易受到干预的影响,导致生成方向偏离安全轨道,转而输出有害内容。
近期研究将这一现象归因于“浅层安全”(Shallow Safety),即认为模型的安全对齐主要集中在输出的前几个 token 上。然而,这种观点可能低估了推理时漏洞的复杂性。如果安全仅存在于生成的起始阶段,那么攻击者只需在后续步骤注入短小的 token 序列,即可轻易绕过防御。理解这一漏洞的本质及其深层机制,对于构建真正鲁棒的安全模型至关重要。
核心内容
本文深入探讨了推理时漏洞的本质,指出“浅层安全”并非孤立现象,而是更广泛推理时漏洞的一个特例。研究团队通过实验发现,在生成的任何步骤注入短小的 token 序列,都可能显著改变模型随后的安全行为。这意味着,无论攻击发生在生成的早期、中期还是晚期,只要注入足够短且精准的 token,就可能诱导模型产生有害输出。
此外,研究还揭示了一个关键发现:模型在隐藏状态中对“拒绝方向”(refusal directions)的对齐程度,并不能预测其对此类注入的鲁棒性。换句话说,即使模型内部状态显示出强烈的拒绝倾向,这种内部表征并不足以保证其在受到扰动时能保持安全行为。这表明,仅靠内部状态无法完全决定模型在扰动下的生成行为。
为了解决这一问题,研究团队提出了一种新的对齐方法:直接在生成轨迹上进行对齐。具体而言,他们通过模拟序列中段的扰动来构建生成轨迹,并在此轨迹上对模型进行训练。实验结果表明,这种方法不仅提高了模型对中段注入的鲁棒性,还泛化到了利用早期 token 生成的攻击场景。
这项工作的核心论点在于:鲁棒的安全对齐不能仅关注模型的最终输出,而必须将训练过程扩展到生成过程本身。通过在模拟扰动下的生成轨迹上进行对齐,模型能够学习到更稳定的安全行为,从而在面对各种形式的推理时攻击时保持更强的防御能力。
关键要点
- 浅层安全是特例:现有的“浅层安全”概念(即安全仅存在于输出开头)是更广泛推理时漏洞的一种特殊情况。短 token 注入在任何生成步骤都可能破坏安全。
- 内部状态非充分条件:模型隐藏状态中的安全对齐信号(如拒绝方向)与模型对注入攻击的鲁棒性之间没有直接预测关系。内部表征不能单独决定扰动下的生成行为。
- 生成轨迹对齐方法:通过模拟序列中段扰动来构建生成轨迹,并在此轨迹上直接对模型进行对齐训练,是一种有效的增强鲁棒性的方法。
- 泛化能力:该方法不仅提升了模型对中段注入的抵抗力,还能有效防御针对早期 token 生成的攻击,显示出良好的泛化性能。
- 训练范式的转变:鲁棒的安全对齐需要从“仅关注输出”转向“关注生成过程本身”,即在训练阶段就纳入对生成动态和扰动的考量。
意义与影响
这项研究对大语言模型的安全对齐领域具有深远的影响。首先,它挑战了当前对“浅层安全”的简单理解,指出推理时漏洞是一个贯穿整个生成过程的系统性问题,而非仅限于输出起始阶段。这促使研究人员重新评估现有的安全评估指标和防御策略。
其次,研究揭示了内部状态与外部行为之间的脱节,表明仅依赖内部可解释性分析或状态监控不足以保障模型安全。这为未来开发更复杂的安全监测和干预机制提供了新的视角。
最后,提出的“沿生成轨迹对齐”方法为构建更鲁棒的安全模型提供了一条可行的技术路径。通过将训练重点从静态输出扩展到动态生成过程,模型能够更好地适应各种潜在的推理时攻击,从而在实际应用中提供更可靠的安全保障。这一思路不仅适用于当前的 LLMs,也可能为未来更复杂的多模态或代理系统的安全设计提供借鉴。
