PAST2HARM:一种针对多模态AI的简单自适应过去时态越狱攻击
速览
该研究提出PAST2HARM框架,通过过去时态重构和时序深化策略,有效绕过主流多模态文本到图像模型的安全防御。实验显示,该攻击在黑盒设置下对Gemini Nano Banana Pro、GPT Image 2和SD XL等模型的成功率分别达到83%、67%和100%。研究揭示了当前多模态安全机制的脆弱性,并发布了相关基准资源以助力红队测试与对齐训练。
AI 深度解读
PAST2HARM:一种针对多模态 AI 的简单自适应过去时态攻击
背景
尽管不安全文本生成已有大量研究,但针对多模态 AI 系统(Multimodal AI Systems)的越狱攻击(Jailbreak Attacks)仍处于探索不足的阶段。然而,不安全图像生成的后果往往比不安全文本更为严重,因为视觉内容具有更强的冲击力和传播力。与此同时,当前针对多模态模型的安全防御机制相对不成熟。
现有的研究表明,将提示词(Prompts)改写为“过去时态”可以绕过某些文本模型的安全护栏。基于这一发现,研究人员指出多模态生成式 AI 中存在类似的漏洞。为了系统性地利用这一弱点,本文引入了 PAST2HARM,这是一种简单但有效的自适应越狱框架,旨在绕过当前最先进(SOTA)的多模态文本到图像模型中的拒绝训练(Refusal Training)。
核心内容
PAST2HARM 框架通过两个主要维度来表征其攻击效果:广度(Breadth)和深度(Depth)。
1. 攻击维度:广度与深度
-
广度(Breadth):时间深化(Temporal Deepening) 该框架通过逐步加强“历史锚定”(Historical Anchoring)和“档案线索”(Archival Cues),侵蚀不同对齐强度模型的拒绝边界。简单来说,它通过构建一个看似发生在过去的、具有历史背景的场景,让模型误以为是在处理历史记录而非生成新的有害内容,从而突破安全限制。
-
深度(Depth):迭代升级(Iterative Escalation) 在模型初步顺从后,攻击者通过迭代升级提示词,探测有害生成的上限。为了衡量生成的严重程度,研究使用了一种标量严重性越狱指标(Scalar Severity Jailbreak Metric),由一个作为“裁判”的语言模型(LLM Judge)进行评估。
-
关键发现:对话轮次的脆弱性 研究发现,对话的中段(Mid conversation turns)形成了最高的脆弱性窗口。在此阶段,有害内容的生成率增加,随后趋于平稳,并最终经历“语义反转”(Semantic Inversion),即模型可能从生成有害内容转变为拒绝或生成无害内容。
2. 实验评估与结果
研究者在三个主流多模态模型上对 PAST2HARM 进行了评估,均在黑盒(Black Box)、无梯度(Gradient-free)的设置下进行:
- Gemini Nano Banana Pro:攻击成功率(Attack Success Rate, ASR)为 83%。
- GPT Image 2:攻击成功率为 67%。
- SD XL (Stable Diffusion XL):攻击成功率达到 100%。
此外,对抗性提示词(Adversarial Prompts)在不同模型间具有良好的迁移性,跨模型成功率超过 50%。
3. 有害输出类型
PAST2HARM 能够诱发多样化的有害输出,包括但不限于:
- 露骨的色情内容
- 政治虚假信息(Political Disinformation)
- 历史否认叙事(Historical Denial Narratives)
- 仇恨言论(Hate Speech)
- 自我伤害的 glorification(美化/鼓吹)
4. 资源发布
为了促进红队测试(Red Teaming)和对齐研究,作者发布了一个精心策划的基准数据集,包含提示词、改写后的提示词以及对应的输出结果。
关键要点
- 多模态安全防御薄弱:与文本模型相比,多模态 AI 的安全防御机制尚不成熟,且不安全图像生成的潜在危害更大。
- 过去时态作为攻击向量:PAST2HARM 利用“过去时态”改写提示词,通过构建历史场景来规避安全护栏,这是一种简单但高效的自适应攻击方法。
- 高成功率与跨模型迁移性:在 SD XL 上达到 100% 的攻击成功率,在其他主流模型上也保持高位(67%-83%),且提示词在不同模型间具有高迁移性(>50%)。
- 对话中段的脆弱性:模型在对话的中段最容易受到攻击,随后可能出现语义反转,表明安全机制在长上下文或多轮交互中存在动态弱点。
- 暴露根本性脆弱:研究结果揭示了当前多模态安全护栏的根本性脆弱(Fundamental Brittle),强调了加强多模态安全训练的紧迫性。
意义与影响
PAST2HARM 的研究揭示了当前多模态 AI 系统在安全对齐方面的重大缺陷。尽管过去时态改写在文本领域已被部分研究,但将其系统化应用于多模态生成(特别是图像生成)并实现如此高的成功率,是一个重要的安全警示。
- 对开发者的警示:仅依靠简单的提示词过滤或基础的拒绝训练不足以保护多模态模型。开发者需要引入更复杂的上下文感知安全机制,特别是针对时间语境和叙事结构的分析。
- 红队测试的新基准:发布的基准数据集为社区提供了一个标准化的工具,用于评估和改进多模态模型的安全性,推动红队测试的规范化。
- 未来研究方向:研究指出了“语义反转”和“对话中段脆弱性”等新现象,为后续研究如何构建更鲁棒的多轮对话安全机制提供了方向。
- 社会风险:由于图像生成的直观性和传播力,此类攻击可能导致虚假信息、仇恨言论和色情内容的快速扩散,对社会造成更直接的负面影响。因此,加强多模态安全训练不仅是技术问题,更是社会责任。
