← 返回信息流
AI 资讯Hacker News·7 天前

用于自动化漏洞发现与复现的多智能体LLM系统

原标题:Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction

速览

该研究提出了一种基于多智能体大语言模型的系统,旨在自动化执行软件漏洞的发现与复现过程。通过协同多个智能体角色,系统能够高效地分析代码、生成攻击向量并验证漏洞存在。这一方法显著提升了安全测试的自动化水平,为软件安全评估提供了新的技术路径。

AI 深度解读

FuzzingBrain V2:基于多智能体 LLM 系统的自动化漏洞发现与复现深度解读

背景

软件漏洞构成了严峻的安全威胁。据统计,仅在 2025 年,全球就报告了近 50,000 个 CVE(通用漏洞披露)编号。尽管大型语言模型(LLMs)在自动化漏洞检测方面展现出巨大潜力,但在实际应用中仍面临三大关键挑战:

  1. 高误报率与缺乏可复现性:LLM 生成的漏洞报告往往存在较高的误报率,且缺乏可复现的验证机制,导致安全研究人员难以确认漏洞的真实性。
  2. 定位粒度次优:现有的基于 LLM 的方法在漏洞定位上存在粒度选择的困境。函数级(function-level)分析在上下文变得庞大时会遗漏细微的 Bug;而行级(line-level)分析虽然精细,却缺乏足够的上下文信息来理解代码逻辑。
  3. 复杂依赖推理困难:现有方法难以处理具有复杂跨函数依赖关系和触发条件的漏洞,缺乏有效的逻辑推理能力。

在此背景下,研究团队提出了 FuzzingBrain V2,这是一个基于多智能体(Multi-Agent)的 LLM 系统,旨在通过自动化手段解决上述痛点,实现漏洞的高效发现与精确复现。

核心内容

FuzzingBrain V2 是一个创新的多智能体系统,其核心贡献在于通过四个关键技术维度填补了现有技术的空白:

1. 基于 OSS-Fuzz 的全自动化漏洞分析

该系统完全构建在 Google 的 OSS-Fuzz 基础设施之上。这一设计确保了所有报告的漏洞都可以通过模糊测试(Fuzzing)工具进行复现。这种“fuzzer-reproducible”的特性从根本上解决了 LLM 报告漏洞“只说不练”或“无法验证”的问题,极大地提高了报告的置信度。

2. Suspicious Point:基于控制流的精确抽象

为了解决定位粒度问题,研究团队提出了一种名为 Suspicious Point 的新颖抽象概念。这是一种基于控制流(control-flow-based)的抽象方法,旨在以最优的粒度进行精确的漏洞定位。它既避免了函数级分析的上下文缺失,又克服了行级分析的孤立性,能够在代码逻辑的关键节点上精准捕捉潜在风险。

3. 逻辑驱动的层级函数分析与双层模糊测试

针对资源受限环境下的覆盖率问题,系统采用了逻辑驱动的层级函数分析策略,并结合了双层模糊测试(dual-layer fuzzing)。这种方法在有限的计算资源下,显著增强了函数覆盖率,使得系统能够深入挖掘那些隐藏在深层调用链中的漏洞。

4. 基于 MCP 的静态与动态分析工具

系统集成了基于模型上下文协议(MCP, Model Context Protocol)的静态和动态分析工具,并辅以上下文工程(context engineering)。这一组合增强了系统对复杂漏洞(如跨函数依赖、特定触发条件)的逻辑推理能力,使其能够像资深安全专家一样思考代码的执行路径和数据流向。

性能表现与实战成果

  • 竞赛表现:在 AIxCC 2025 决赛的 C/C++ 数据集测试中,FuzzingBrain V2 实现了 90% 的漏洞检测率(在 40 个已知漏洞中成功检出 36 个)。
  • 真实世界部署:在实际部署中,该系统在 12 个开源项目中发现了 29 个零日漏洞(Zero-day vulnerabilities)。这些漏洞均得到了项目维护者的确认和修复,其中 2 个漏洞已被分配了正式的 CVE 编号。

关键要点

  • 自动化与可验证性并重:不同于传统 LLM 仅生成文本报告,FuzzingBrain V2 通过集成 OSS-Fuzz,确保每个发现的漏洞都能通过模糊测试复现,大幅降低了误报率。
  • 创新的定位抽象(Suspicious Point):引入了基于控制流的“Suspicious Point”概念,解决了传统方法在函数级和行级分析之间的粒度失衡问题,实现了更精准的漏洞定位。
  • 资源优化的双层模糊测试:通过逻辑驱动的层级分析和双层模糊测试,在有限资源下最大化了代码覆盖率,提升了发现深层漏洞的能力。
  • 增强的推理能力:利用 MCP 协议整合静态和动态分析工具,结合上下文工程,显著提升了系统对复杂跨函数依赖和触发条件的推理能力。
  • 卓越的实战效果:在 AIxCC 2025 竞赛中达到 90% 的检测率,并在真实开源项目中成功发现 29 个零日漏洞,证明了其从理论到落地的有效性。

意义与影响

FuzzingBrain V2 的推出标志着自动化漏洞检测领域的一个重要里程碑。它不仅仅是一个简单的 LLM 应用,而是一个将传统模糊测试技术与前沿大语言模型推理能力深度融合的系统。

首先,它解决了 LLM 在安全领域应用的核心痛点——幻觉与不可验证性。通过强制要求漏洞必须通过 Fuzzing 复现,它为自动化安全审计建立了一个新的可信标准。

其次,Suspicious Point 和层级分析方法的提出,为代码分析提供了新的理论视角,表明通过更智能的抽象和上下文管理,LLM 可以更有效地理解代码的结构和行为,而不仅仅是语法。

最后,其实战成果证明了 AI 辅助安全研究的巨大潜力。随着开源软件供应链安全的日益重要,像 FuzzingBrain V2 这样的工具能够帮助维护者和安全团队更高效地识别和修复高危漏洞,从而提升整个软件生态系统的安全性。对于从事安全研究、DevSecOps 以及 AI 应用开发的工程师而言,该系统提供了极具参考价值的技术架构和实践案例。

查看原文 →arxiv.org