技术博客arXiv cs.CL·3 小时前

CHASE框架：用强化学习红蓝对抗提升大模型安全

原标题：CHASE: Adversarial Red-Blue Teaming for Improving LLM Safety using Reinforcement Learning

速览

针对现有大模型安全对齐易受提示词重写攻击绕过的问题，研究提出CHASE框架。该框架采用闭环红蓝对抗机制，让黑盒攻击者与防御者协同进化。实验显示，CHASE在多项基准测试中将StrongREJECT得分降低43.2%，且对良性提示零误拒，为LLM安全加固提供了新路径。

AI 深度解读

CHASE：基于强化学习的对抗红蓝对抗以提升大语言模型安全性

背景

尽管大语言模型（LLM）在安全对齐（Safety Alignment）方面取得了显著进展，但面对日益复杂的攻击手段，现有的防御体系仍显得脆弱。特别是提示词重写攻击（Prompt-rewriting attacks），如角色调制（Persona modulation）、虚构框架（Fictional framing）以及基于说服力的重构（Persuasion-based reformulation），甚至能够绕过前沿模型的安全过滤器。

目前，现有的防御措施主要存在两个痛点：

依赖人工策展：非可扩展的人类审核机制难以应对大规模部署中的海量请求。
白盒优化的过拟合风险：许多防御方法依赖于白盒优化，这往往导致模型对特定的模型内部机制过拟合。

这种过拟合使得经过对齐的模型在面对实际部署中必然遇到的、适应性的黑盒攻击者时，表现出极大的脆弱性。为了填补这一空白，研究人员提出了一种新的闭环红蓝对抗框架，旨在通过对抗性训练提升模型的鲁棒性。

核心内容

本文介绍了 CHASE（Co-evolutionary Hardening through Adversarial Safety-Escalation，通过对抗性安全升级进行的协同进化加固），这是一个闭环的红蓝团队对抗框架。在该框架中，黑盒攻击者与安全对齐的防御者进行协同进化。

1. 攻击者训练机制

攻击者通过 GRPO（Group Relative Policy Optimization，组相对策略优化）进行训练。其奖励函数采用乘法形式，同时强制两个目标：

绕过有效性：成功绕过安全过滤器。
意图保真度：保持原始恶意意图的完整性。

2. 防御者加固流程

防御者利用从攻击者那里收集的对抗性重写样本进行加固，采用一个两阶段的混合流程：

第一阶段：GRPO 强化学习。
第二阶段：拒绝采样监督微调（Rejection-sampled SFT）。
数据平衡：该流程与良性数据（Benign data）进行平衡，以防止模型对正常请求产生误拒。

3. 实验评估

在 BeaverTails 和 JailbreakBench 数据集上，针对五个保留的攻击家族（PAIR, TAP, AutoDAN, PAP, Translation）进行了评估。

4. 主要结果

安全性提升：CHASE 将 StrongREJECT 评分降低了 43.2%。
可用性保持：在良性提示词上的误拒率（False-refusal）为 0%。

5. 深层发现

除了 headline 结果外，CHASE 还揭示了一个重要现象：无模板的强化学习（RL）探索能够恢复出潜在的、跨机制攻击家族转移的“攻击原语”（Attack primitives）。这表明，LLM 的安全加固路径可以超越目前对抗性训练所实现的狭窄分布，具有更广泛的泛化能力。

关键要点

闭环对抗框架：CHASE 的核心创新在于构建了一个黑盒攻击者与安全防御者协同进化的闭环系统，而非静态的防御训练。
双目标奖励机制：攻击者的训练不仅追求“绕过”，还通过乘法奖励强制“意图保真”，确保生成的攻击样本具有实际威胁且未被扭曲。
两阶段防御加固：防御端结合了 GRPO 强化学习与拒绝采样 SFT，并平衡良性数据，有效解决了过拟合和误拒问题。
卓越的泛化性能：在五个不同的保留攻击家族测试中，StrongREJECT 评分大幅降低，且对正常请求零误拒，证明了其鲁棒性。
发现通用攻击原语：研究证实，通过无模板的 RL 探索，可以挖掘出跨机制通用的攻击模式，这为构建更通用的 LLM 安全防御提供了新视角。

意义与影响

CHASE 的研究成果对大语言模型的安全领域具有深远意义：

从“静态防御”到“动态进化”：传统的安全对齐往往是一次性的或基于静态数据集的，而 CHASE 证明了通过红蓝对抗的持续协同进化，可以显著提升模型对未知和适应性攻击的抵抗力。
解决黑盒攻击难题：现有的白盒优化方法在面对黑盒部署场景时往往失效。CHASE 明确针对黑盒攻击者进行训练，更贴近真实世界的安全威胁场景。
泛化能力的突破：以往的研究往往局限于特定的攻击分布，而 CHASE 发现并利用了跨机制通用的“攻击原语”。这意味着未来的安全加固不再需要针对每一种新的攻击模板单独训练，而是可以通过理解底层的攻击逻辑来提升整体安全性。
平衡安全与可用性：在大幅降低被攻击风险的同时保持 0% 的良性提示误拒率，解决了安全模型常见的“过度防御”导致用户体验下降的问题。

总之，CHASE 提供了一条通过对抗性强化学习实现 LLM 安全泛化的新路径，为构建更鲁棒、更通用的 AI 安全防御体系奠定了理论基础和技术范式。

查看原文 →arxiv.org