技术博客arXiv cs.AI·12 小时前

超越浅层安全：沿生成轨迹对齐提升大模型推理时鲁棒性

原标题：Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories

速览

最新研究指出，大模型的安全对齐往往集中在输出前几个token，导致推理时易受短token注入干扰。这种“浅层安全”实为更广泛的推理时漏洞特例，且隐藏状态中的拒绝方向无法预测模型鲁棒性。为此，作者提出通过在模拟中途扰动构建的生成轨迹上进行对齐，显著提升了模型对中途注入及早期token攻击的防御能力。该工作证明，真正的安全对齐需直接训练生成过程本身。

AI 深度解读

超越浅层安全：沿生成轨迹的对齐推理时漏洞

背景

大型语言模型（LLMs）在推理阶段的安全性对齐是一个持续存在的挑战。尽管模型在训练阶段经过了安全微调，但在实际运行（推理）过程中，它们仍然容易受到干预的影响，导致生成方向偏离安全轨道，转而输出有害内容。

近期研究将这一现象归因于“浅层安全”（Shallow Safety），即认为模型的安全对齐主要集中在输出的前几个 token 上。然而，这种观点可能低估了推理时漏洞的复杂性。如果安全仅存在于生成的起始阶段，那么攻击者只需在后续步骤注入短小的 token 序列，即可轻易绕过防御。理解这一漏洞的本质及其深层机制，对于构建真正鲁棒的安全模型至关重要。

核心内容

本文深入探讨了推理时漏洞的本质，指出“浅层安全”并非孤立现象，而是更广泛推理时漏洞的一个特例。研究团队通过实验发现，在生成的任何步骤注入短小的 token 序列，都可能显著改变模型随后的安全行为。这意味着，无论攻击发生在生成的早期、中期还是晚期，只要注入足够短且精准的 token，就可能诱导模型产生有害输出。

此外，研究还揭示了一个关键发现：模型在隐藏状态中对“拒绝方向”（refusal directions）的对齐程度，并不能预测其对此类注入的鲁棒性。换句话说，即使模型内部状态显示出强烈的拒绝倾向，这种内部表征并不足以保证其在受到扰动时能保持安全行为。这表明，仅靠内部状态无法完全决定模型在扰动下的生成行为。

为了解决这一问题，研究团队提出了一种新的对齐方法：直接在生成轨迹上进行对齐。具体而言，他们通过模拟序列中段的扰动来构建生成轨迹，并在此轨迹上对模型进行训练。实验结果表明，这种方法不仅提高了模型对中段注入的鲁棒性，还泛化到了利用早期 token 生成的攻击场景。

这项工作的核心论点在于：鲁棒的安全对齐不能仅关注模型的最终输出，而必须将训练过程扩展到生成过程本身。通过在模拟扰动下的生成轨迹上进行对齐，模型能够学习到更稳定的安全行为，从而在面对各种形式的推理时攻击时保持更强的防御能力。

关键要点

浅层安全是特例：现有的“浅层安全”概念（即安全仅存在于输出开头）是更广泛推理时漏洞的一种特殊情况。短 token 注入在任何生成步骤都可能破坏安全。
内部状态非充分条件：模型隐藏状态中的安全对齐信号（如拒绝方向）与模型对注入攻击的鲁棒性之间没有直接预测关系。内部表征不能单独决定扰动下的生成行为。
生成轨迹对齐方法：通过模拟序列中段扰动来构建生成轨迹，并在此轨迹上直接对模型进行对齐训练，是一种有效的增强鲁棒性的方法。
泛化能力：该方法不仅提升了模型对中段注入的抵抗力，还能有效防御针对早期 token 生成的攻击，显示出良好的泛化性能。
训练范式的转变：鲁棒的安全对齐需要从“仅关注输出”转向“关注生成过程本身”，即在训练阶段就纳入对生成动态和扰动的考量。

意义与影响

这项研究对大语言模型的安全对齐领域具有深远的影响。首先，它挑战了当前对“浅层安全”的简单理解，指出推理时漏洞是一个贯穿整个生成过程的系统性问题，而非仅限于输出起始阶段。这促使研究人员重新评估现有的安全评估指标和防御策略。

其次，研究揭示了内部状态与外部行为之间的脱节，表明仅依赖内部可解释性分析或状态监控不足以保障模型安全。这为未来开发更复杂的安全监测和干预机制提供了新的视角。

最后，提出的“沿生成轨迹对齐”方法为构建更鲁棒的安全模型提供了一条可行的技术路径。通过将训练重点从静态输出扩展到动态生成过程，模型能够更好地适应各种潜在的推理时攻击，从而在实际应用中提供更可靠的安全保障。这一思路不仅适用于当前的 LLMs，也可能为未来更复杂的多模态或代理系统的安全设计提供借鉴。

查看原文 →arxiv.org