技术博客arXiv cs.AI·1 小时前

Mastermind: 基于策略的代码库漏洞复现学习框架

原标题：Mastermind: Strategy-grounded Learning for Repository-Scale Vulnerability Reproduction

速览

Mastermind 是一个双循环学习框架，专注于解决仓库级漏洞复现这一软件工程难题。训练计划器通过SFT和基于里程碑的GRPO学习高阶策略，并独立于执行器形成任务本地经验记录。策略学习可提升多个冻结执行器，实验在CyberGym上验证，针对GPT-5.5等模型显著提高通过率，证明策略学习是可迁移且有效的SE代理优化机制。

AI 深度解读

背景

仓库级漏洞复现是一个高难度软件工程（SE）任务。对于一个代理来说，它必须仔细检查代码库、推断出能够触发漏洞路径的输入语法、构建一个漏洞验证案例（PoC），并验证在补丁构建上崩溃是否消失。当前的LLM代理通常能够完成这些步骤，只要选择的路径正确，但它们仍然容易陷入选择错误策略的困境。

本文提出，策略（而非完整的行动轨迹）才是这类SE代理最适合的学习单元：它足够紧凑以便优化、足够具体以指导执行、且足够稳定以便跨多次尝试保存和复用。论文正是围绕这个核心思想展开的。

核心内容

论文提出了 Mastermind，一个双循环框架，将可迁移的策略学习与任务特定经验分离。该框架包括两个主要部分：

可训练规划器（trainable planner）：通过有监督微调（SFT）和基于里程碑的GRPO（Generalized Reinforcement Policy Optimization）来学习可复用的漏洞复现策略。该规划器独立于执行器训练，可在多个冻结执行器上复用，而不修改执行器的行动生成能力。
经验循环（experience loop）：维护任务本地的策略记录，这些记录用于指导后续的尝试。

Mastermind 采用这一分离设计，允许策略学习独立提升执行器的整体性能。实验在 CyberGym 环境中进行，使用 260 个训练任务和 200 个留出评估任务。测试了 GPT-5.5、GPT-5.4 mini 和 GLM~5.1 作为冻结执行器。

结果显示：Mastermind 在 GPT-5.5 上的通过率达到 84.5%，显著优于基准方法——“开放书 PoC 上下文”（60.0%）、8 次采样最佳（63.0%）和迭代改进（77.0%）。同样，规划器也分别将 GPT-5.4 mini 从 45.0% 提升至 60.0%，将 GLM~5.1 从 58.5% 提升至 71.0%。这些结果充分证明了学习高层次策略是一种有效且可迁移的机制，能够提升仓库级 SE 代理的表现。

关键要点

策略学习是 SE 代理优化的关键学习单位：紧凑、可控且稳定，适合跨尝试复用。
Mastermind 采用双循环架构，将策略规划器与执行器分离，规划器可独立训练并在多个冻结执行器上复用。
规划器通过 SFT 和 GRPO 方法学习漏洞复现策略，经验循环则保留任务特定记录以指导后续行动。
实验验证了框架的通用性：无论执行器是 GPT-5.5、GPT-5.4 mini 还是 GLM~5.1，策略学习均能带来显著性能提升（分别提升 24.5%、15.0% 和 12.5%）。
结果对比显示，Mastermind 全面超越了基于上下文、采样和迭代的传统优化手段。

意义与影响

Mastermind 提出的策略驱动学习范式，为提升仓库级漏洞复现代理提供了新思路。它不仅解决了当前 LLM 代理容易陷入错误策略陷阱的问题，还通过独立训练的规划器实现了可迁移的性能提升，极大简化了代理优化的复杂性。这项工作在 arXiv cs.AI 分类下的 2026 年 7 月 2 日提交，标志着软件工程代理在应对复杂仓库级任务时的研究方向正从“行动轨迹优化”转向“策略复用”，为后续开发更可靠、安全的漏洞检测与修复工具奠定了基础。

查看原文 →arxiv.org

Mastermind: 基于策略的代码库漏洞复现学习框架

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐