技术博客arXiv cs.AI·1 小时前

RIFT-Bench：面向智能体AI系统的动态红队测试基准

原标题：RIFT-Bench: Dynamic Red-teaming For Agentic AI Systems

速览

针对现有安全评估局限于特定实现或领域的问题，研究团队提出RIFT-Bench，这是一种基于图表示的动态红队测试方法。该方法通过发现系统结构和部署自适应对抗攻击两个自动化阶段，实现对多样化智能体架构的统一安全评估。实验表明，该基准在45个智能体系统上有效，并能直接评估缓解策略，为智能体AI系统的安全评估提供了可扩展的基础。

AI 深度解读

RIFT-Bench：面向 Agentic AI 系统的动态红队测试基准

背景

随着大语言模型（LLM）驱动的 Agentic AI（智能体 AI）系统迅速从简单的对话工具演变为具备自主决策能力的复杂系统，其安全边界正在发生根本性的变化。传统的 LLM 漏洞评估主要关注模型本身的输出内容安全性（如幻觉、偏见或有害信息生成），但 Agentic AI 系统通过调用工具、执行代码、访问外部 API 以及与其他智能体交互，暴露出了远超传统 LLM 的新型攻击向量。例如，恶意提示可能导致智能体执行破坏性操作、泄露敏感数据或陷入无限循环。

然而，当前的安全评估领域存在显著的碎片化问题。现有的安全评测方法往往针对特定的实现框架（如 LangChain、AutoGen 等）或特定的垂直领域，缺乏一种统一的、能够跨异构系统进行比较的标准化方法。这种局限性使得研究人员和开发者难以客观地衡量不同 Agentic 架构的安全水位，也无法系统地比较缓解策略的有效性。为了填补这一空白，我们需要一种能够适应不同系统结构、自动化程度高且具备通用性的动态红队测试（Dynamic Red-teaming）方法论。

核心内容

为了解决上述挑战，研究团队提出了 RIFT-Bench，这是一种基于图表示（Graph Representation）驱动的方法论，旨在为 Agentic AI 系统提供统一的动态红队测试能力。RIFT-Bench 的核心创新在于其能够处理异构的 Agentic 架构，通过自动化的方式发现系统结构并部署自适应的对抗性攻击。

RIFT-Bench 的工作流程建立在一种新颖的分层表示（Hierarchical Representation）之上，主要包含两个自动化的执行阶段：

发现阶段（Discovery）：该阶段旨在提取被测 Agentic 系统的内部结构和逻辑拓扑。通过图表示技术，RIFT-Bench 将智能体的组件（如规划器、记忆模块、工具调用接口等）及其交互关系建模为图结构。这一过程使得系统不再被视为黑盒，而是具有明确边和节点的可视化结构，为后续的针对性攻击提供路径指引。
扫描阶段（Scanning）：在明确系统结构后，进入扫描阶段。RIFT-Bench 在此阶段部署自适应的对抗性攻击（Adversarial Attacks）。这些攻击探针并非静态预设，而是能够根据系统的反馈动态调整策略。它们利用广泛且多样化的攻击向量和目标，对系统进行全方位的压力测试。最终，系统会生成一份综合性的评估报告，详细列出发现的安全漏洞、攻击路径以及潜在风险。

RIFT-Bench 的独特之处在于它不仅评估系统本身，还通过动态适应的对抗探针覆盖多种攻击场景。研究团队在 45 个涵盖不同实现方式的 Agentic 系统上验证了该评估管道的有效性。实验结果表明，RIFT-Bench 能够有效地泛化到异构的 Agentic 架构中，证明了其作为通用安全评估框架的潜力。

此外，RIFT-Bench 不仅限于发现漏洞，还支持对缓解策略（Mitigation Strategies）的直接评估。这意味着开发者可以在实施特定的安全防护措施后，再次运行 RIFT-Bench 来量化该措施对降低攻击成功率的具体贡献，从而形成“测试-修复-再测试”的安全闭环。

关键要点

动态红队测试框架：RIFT-Bench 引入了基于图表示的动态红队测试方法，突破了传统静态评测的局限，能够适应 Agentic AI 系统的自主性和动态交互特征。
统一评估标准：通过分层表示和自动化流程，RIFT-Bench 实现了跨不同 Agentic 架构（异构系统）的统一安全评估，解决了现有工具碎片化、难以横向对比的问题。
两阶段自动化流程：
- Discovery（发现）：自动提取系统结构，构建系统交互的图模型。
- Scanning（扫描）：部署自适应对抗探针，执行多样化攻击并生成综合报告。
广泛的适用性验证：在 45 个不同实现的 Agentic 系统上进行了实证研究，证明了该方法在异构环境下的有效性和泛化能力。
支持缓解策略评估：除了发现漏洞，RIFT-Bench 还能直接评估安全防护措施的有效性，帮助开发者量化安全投入的效果。
应对新型攻击向量：专门针对 Agentic AI 特有的攻击面（如工具滥用、自主决策误导等）设计，超越了传统 LLM 仅关注文本生成的安全范畴。

意义与影响

RIFT-Bench 的提出标志着 Agentic AI 安全评估进入了一个新的阶段。随着企业和社会对自主智能体系统的依赖日益加深，确保这些系统的安全性和可靠性已成为技术落地的关键前提。

首先，RIFT-Bench 提供了一个可扩展的安全评估基础架构。对于开发者而言，它不再需要为每种新的 Agentic 框架编写定制化的测试脚本，而是可以利用这一通用基准快速识别潜在风险。这对于加速 Agentic AI 技术的迭代和安全部署具有重要意义。

其次，它促进了安全研究的标准化。通过提供统一的评估指标和报告格式，RIFT-Bench 使得不同团队、不同产品之间的安全性比较成为可能。这将推动行业形成更清晰的安全最佳实践，并促使监管机构制定更科学的安全合规标准。

最后，RIFT-Bench 对缓解策略的评估能力增强了安全工程的闭环效应。它不仅仅是一个“找茬”工具，更是一个指导安全加固的决策支持系统。通过量化不同防护手段的效果，资源分配将更加精准，有助于构建更具韧性的 Agentic AI 生态系统。

总之，RIFT-Bench 不仅填补了 Agentic AI 动态安全评估的空白，更为构建可信、安全的下一代自主智能体系统奠定了坚实的方法论基础。

查看原文 →arxiv.org