← 返回信息流
技术博客arXiv cs.AI·1 小时前

Mastermind: 基于策略的代码库漏洞复现学习框架

原标题:Mastermind: Strategy-grounded Learning for Repository-Scale Vulnerability Reproduction

速览

Mastermind 是一个双循环学习框架,专注于解决仓库级漏洞复现这一软件工程难题。训练计划器通过SFT和基于里程碑的GRPO学习高阶策略,并独立于执行器形成任务本地经验记录。策略学习可提升多个冻结执行器,实验在CyberGym上验证,针对GPT-5.5等模型显著提高通过率,证明策略学习是可迁移且有效的SE代理优化机制。

AI 深度解读

背景

仓库级漏洞复现是一个高难度软件工程(SE)任务。对于一个代理来说,它必须仔细检查代码库、推断出能够触发漏洞路径的输入语法、构建一个漏洞验证案例(PoC),并验证在补丁构建上崩溃是否消失。当前的LLM代理通常能够完成这些步骤,只要选择的路径正确,但它们仍然容易陷入选择错误策略的困境。

本文提出,策略(而非完整的行动轨迹)才是这类SE代理最适合的学习单元:它足够紧凑以便优化、足够具体以指导执行、且足够稳定以便跨多次尝试保存和复用。论文正是围绕这个核心思想展开的。

核心内容

论文提出了 Mastermind,一个双循环框架,将可迁移的策略学习与任务特定经验分离。该框架包括两个主要部分:

  • 可训练规划器(trainable planner):通过有监督微调(SFT)和基于里程碑的GRPO(Generalized Reinforcement Policy Optimization)来学习可复用的漏洞复现策略。该规划器独立于执行器训练,可在多个冻结执行器上复用,而不修改执行器的行动生成能力。
  • 经验循环(experience loop):维护任务本地的策略记录,这些记录用于指导后续的尝试。

Mastermind 采用这一分离设计,允许策略学习独立提升执行器的整体性能。实验在 CyberGym 环境中进行,使用 260 个训练任务和 200 个留出评估任务。测试了 GPT-5.5、GPT-5.4 mini 和 GLM~5.1 作为冻结执行器。

结果显示:Mastermind 在 GPT-5.5 上的通过率达到 84.5%,显著优于基准方法——“开放书 PoC 上下文”(60.0%)、8 次采样最佳(63.0%)和迭代改进(77.0%)。同样,规划器也分别将 GPT-5.4 mini 从 45.0% 提升至 60.0%,将 GLM~5.1 从 58.5% 提升至 71.0%。这些结果充分证明了学习高层次策略是一种有效且可迁移的机制,能够提升仓库级 SE 代理的表现。

关键要点

  • 策略学习是 SE 代理优化的关键学习单位:紧凑、可控且稳定,适合跨尝试复用。
  • Mastermind 采用双循环架构,将策略规划器与执行器分离,规划器可独立训练并在多个冻结执行器上复用。
  • 规划器通过 SFT 和 GRPO 方法学习漏洞复现策略,经验循环则保留任务特定记录以指导后续行动。
  • 实验验证了框架的通用性:无论执行器是 GPT-5.5、GPT-5.4 mini 还是 GLM~5.1,策略学习均能带来显著性能提升(分别提升 24.5%、15.0% 和 12.5%)。
  • 结果对比显示,Mastermind 全面超越了基于上下文、采样和迭代的传统优化手段。

意义与影响

Mastermind 提出的策略驱动学习范式,为提升仓库级漏洞复现代理提供了新思路。它不仅解决了当前 LLM 代理容易陷入错误策略陷阱的问题,还通过独立训练的规划器实现了可迁移的性能提升,极大简化了代理优化的复杂性。这项工作在 arXiv cs.AI 分类下的 2026 年 7 月 2 日提交,标志着软件工程代理在应对复杂仓库级任务时的研究方向正从“行动轨迹优化”转向“策略复用”,为后续开发更可靠、安全的漏洞检测与修复工具奠定了基础。

查看原文 →arxiv.org