Vera框架实现LLM代理安全测试,组合风险发现自动化验证
速览
Vera框架将软件工程测试原则应用于非确定性LLM代理,采用三阶段自强化管道:文献驱动探索风险分类、组合生成可执行安全案例、沙盒中自适应执行与证据验证。框架针对OpenClaw、Hermes、Codex、Claude Code等四种生产代理框架进行测试,发现平均攻击成功率达93.9%。同时发布Vera-Bench,包含1600个安全案例覆盖124种风险类别。研究强调模块化可执行测试基础设施对于维护快速演进的代理系统安全评估的重要性。
AI 深度解读
背景
LLM Agent 正日益成为自动化系统中重要的执行单元,其通过外部工具进行自主行动时,安全风险呈现出复杂且持续演进的特征。现有安全测试方案多聚焦于专家预先设计好的安全违规行为,这些违规行为最终由硬编码规则进行判定评估,这种方法随着 Agent 能力的快速进步而显得成本高昂、扩展性差。
arXiv 人工智能领域论文《Safety Testing LLM Agents at Scale: From Risk Discovery to Evidence-Grounded Verification》(提交日期:2026 年 7 月 2 日)针对这一痛点,提出 Vera 这一端到端自动化安全测试框架。
核心内容
论文提出 Vera 是一个基于软件工程测试原理的自强化三阶段自动化安全测试框架,专为非确定性 LLM Agent 设计,旨在从风险发现到证据驱动的验证形成闭环。
第一阶段:文献驱动的探索。研究团队持续追踪相关文献,主动发现并结构化新兴风险,构建出安全风险、攻击方法以及工具执行环境三个维度的分类体系。这一过程为后续测试提供系统化的风险知识库。
第二阶段:组合式风险用例生成。利用分类体系中的维度进行组合生成,可执行的安全用例。每个安全用例包含三个关键元素:具体的安全目标、通过程序化方式构造的初始状态,以及基于可观测构件(环境状态和工具调用记录)的确定性验证谓词。这一阶段将抽象风险转化为可直接执行的测试实例。
第三阶段:适应性执行与证据驱动验证。在隔离沙箱环境中,运行多种异构 Agent 并由控制 Agent 依据实时观测进行多轮交互引导,同时使用证据驱动的验证器对最终结果进行判定。验证器参考环境状态与工具调用证据,而非依赖模型自身的自我报告。这种机制显著提高了测试的客观性和可信度。
为了验证 Vera 的有效性,研究团队在四个生产级 Agent 框架(OpenClaw、Hermes、Codex、Claude Code)上开展了大规模实验。结果显示,平均攻击成功率高达 93.9%,且在多通道攻击场景下表现尤为突出。同时,研究团队公开发布了 Vera-Bench,包含 1600 个可执行的安全用例,覆盖 124 个风险类别,跨越三种执行环境。
论文强调,模块化、可执行的测试基础设施是实现对快速演进的 Agentic 系统进行严格、可维护的安全评估的必要条件,并公开了代码(链接:https://this https URL)。
关键要点
- Vera 采用三阶段自强化管道实现自动化安全测试:文献驱动风险探索、组合式可执行用例生成、适应性证据驱动验证。
- 第一阶段构建风险、攻击方法、工具执行环境的分类体系,为后续测试提供结构化知识。
- 第二阶段通过维度组合生成每个安全用例,包含安全目标、程序化初始状态和基于可观测构件的确定性验证谓词。
- 第三阶段在沙箱内运行异构 Agent,由控制 Agent 引导多轮交互,验证器仅参考环境状态与工具调用证据。
- 实验覆盖四个生产框架(OpenClaw、Hermes、Codex、Claude Code),平均攻击成功率 93.9%。
- Vera-Bench 发布:1600 个可执行用例,覆盖 124 个风险类别,跨越三种执行环境。
- 结论:模块化可执行测试基础设施是大规模、快速演进的 Agentic 系统安全评估的核心需求。
意义与影响
Vera 的提出为 LLM Agent 的安全测试提供了一套可扩展的标准化解决方案,有效解决了现有测试因 Agent 演进而带来的维护成本高、覆盖不足等问题。研究结果表明,基于可执行基础设施的测试方法在提升安全评估 rigor 和效率方面具有显著优势。
Vera-Bench 的公开发布为学术界和工业界提供了可直接复用的测试基准,加速了后续安全研究和工具的迭代开发。
总体而言,该框架标志着 Agentic 系统安全评估从依赖手工设计向自动化、证据驱动方向的重大转变,对于保障 AI 自主系统在复杂真实环境中的可靠运行具有深远意义。
