技术博客arXiv cs.CL·7 天前

PAST2HARM：一种针对多模态AI的简单自适应过去时态越狱攻击

原标题：PAST2HARM: A Simple Adaptive Past Tense Attack for Jailbreaking Multimodal AI

速览

该研究提出PAST2HARM框架，通过过去时态重构和时序深化策略，有效绕过主流多模态文本到图像模型的安全防御。实验显示，该攻击在黑盒设置下对Gemini Nano Banana Pro、GPT Image 2和SD XL等模型的成功率分别达到83%、67%和100%。研究揭示了当前多模态安全机制的脆弱性，并发布了相关基准资源以助力红队测试与对齐训练。

AI 深度解读

PAST2HARM：一种针对多模态 AI 的简单自适应过去时态攻击

背景

尽管不安全文本生成已有大量研究，但针对多模态 AI 系统（Multimodal AI Systems）的越狱攻击（Jailbreak Attacks）仍处于探索不足的阶段。然而，不安全图像生成的后果往往比不安全文本更为严重，因为视觉内容具有更强的冲击力和传播力。与此同时，当前针对多模态模型的安全防御机制相对不成熟。

现有的研究表明，将提示词（Prompts）改写为“过去时态”可以绕过某些文本模型的安全护栏。基于这一发现，研究人员指出多模态生成式 AI 中存在类似的漏洞。为了系统性地利用这一弱点，本文引入了 PAST2HARM，这是一种简单但有效的自适应越狱框架，旨在绕过当前最先进（SOTA）的多模态文本到图像模型中的拒绝训练（Refusal Training）。

核心内容

PAST2HARM 框架通过两个主要维度来表征其攻击效果：广度（Breadth）和深度（Depth）。

1. 攻击维度：广度与深度

广度（Breadth）：时间深化（Temporal Deepening） 该框架通过逐步加强“历史锚定”（Historical Anchoring）和“档案线索”（Archival Cues），侵蚀不同对齐强度模型的拒绝边界。简单来说，它通过构建一个看似发生在过去的、具有历史背景的场景，让模型误以为是在处理历史记录而非生成新的有害内容，从而突破安全限制。
深度（Depth）：迭代升级（Iterative Escalation） 在模型初步顺从后，攻击者通过迭代升级提示词，探测有害生成的上限。为了衡量生成的严重程度，研究使用了一种标量严重性越狱指标（Scalar Severity Jailbreak Metric），由一个作为“裁判”的语言模型（LLM Judge）进行评估。
关键发现：对话轮次的脆弱性 研究发现，对话的中段（Mid conversation turns）形成了最高的脆弱性窗口。在此阶段，有害内容的生成率增加，随后趋于平稳，并最终经历“语义反转”（Semantic Inversion），即模型可能从生成有害内容转变为拒绝或生成无害内容。

2. 实验评估与结果

研究者在三个主流多模态模型上对 PAST2HARM 进行了评估，均在黑盒（Black Box）、无梯度（Gradient-free）的设置下进行：

Gemini Nano Banana Pro：攻击成功率（Attack Success Rate, ASR）为 83%。
GPT Image 2：攻击成功率为 67%。
SD XL (Stable Diffusion XL)：攻击成功率达到 100%。

此外，对抗性提示词（Adversarial Prompts）在不同模型间具有良好的迁移性，跨模型成功率超过 50%。

3. 有害输出类型

PAST2HARM 能够诱发多样化的有害输出，包括但不限于：

露骨的色情内容
政治虚假信息（Political Disinformation）
历史否认叙事（Historical Denial Narratives）
仇恨言论（Hate Speech）
自我伤害的 glorification（美化/鼓吹）

4. 资源发布

为了促进红队测试（Red Teaming）和对齐研究，作者发布了一个精心策划的基准数据集，包含提示词、改写后的提示词以及对应的输出结果。

关键要点

多模态安全防御薄弱：与文本模型相比，多模态 AI 的安全防御机制尚不成熟，且不安全图像生成的潜在危害更大。
过去时态作为攻击向量：PAST2HARM 利用“过去时态”改写提示词，通过构建历史场景来规避安全护栏，这是一种简单但高效的自适应攻击方法。
高成功率与跨模型迁移性：在 SD XL 上达到 100% 的攻击成功率，在其他主流模型上也保持高位（67%-83%），且提示词在不同模型间具有高迁移性（>50%）。
对话中段的脆弱性：模型在对话的中段最容易受到攻击，随后可能出现语义反转，表明安全机制在长上下文或多轮交互中存在动态弱点。
暴露根本性脆弱：研究结果揭示了当前多模态安全护栏的根本性脆弱（Fundamental Brittle），强调了加强多模态安全训练的紧迫性。

意义与影响

PAST2HARM 的研究揭示了当前多模态 AI 系统在安全对齐方面的重大缺陷。尽管过去时态改写在文本领域已被部分研究，但将其系统化应用于多模态生成（特别是图像生成）并实现如此高的成功率，是一个重要的安全警示。

对开发者的警示：仅依靠简单的提示词过滤或基础的拒绝训练不足以保护多模态模型。开发者需要引入更复杂的上下文感知安全机制，特别是针对时间语境和叙事结构的分析。
红队测试的新基准：发布的基准数据集为社区提供了一个标准化的工具，用于评估和改进多模态模型的安全性，推动红队测试的规范化。
未来研究方向：研究指出了“语义反转”和“对话中段脆弱性”等新现象，为后续研究如何构建更鲁棒的多轮对话安全机制提供了方向。
社会风险：由于图像生成的直观性和传播力，此类攻击可能导致虚假信息、仇恨言论和色情内容的快速扩散，对社会造成更直接的负面影响。因此，加强多模态安全训练不仅是技术问题，更是社会责任。

查看原文 →arxiv.org