← 返回信息流
Agent SkillLINUX DO · AI·13 小时前

AI挖掘SRC漏洞实战:Skill与记忆系统落地困境探讨

原标题:关于AI挖掘SRC漏洞的一些经验和问题分享

速览

本文探讨了利用AI挖掘SRC漏洞的实战经验,重点分析了堆叠Skill和构建记忆系统的两种主流方法及其局限性。作者指出,当前AI在长上下文中易偏离指令,且难以有效将实战经验转化为可检索的结构化知识,导致工具调用失败或漏测。尽管部分模型能发现特定漏洞,但整体自动化效率与可靠性仍面临挑战,亟需更优的落地方案。

AI 深度解读

背景

随着人工智能在网络安全领域的应用日益深入,利用 AI 挖掘 SRC(安全响应中心)漏洞成为新的热点。近期,各类培训机构纷纷推出基于 AI 的漏洞挖掘课程,其中不乏声称拥有“成熟套路”的方案。

一位拥有二进制安全(PWN 和逆向工程)背景的安全研究员,在转型 SRC 研究一个月后,尝试了行业内较早成熟的 AI 挖掘方案。尽管接受了相关培训,但在实际测试中,他遇到了多个难以通过现有 AI 技术解决的核心痛点,包括 Skill(技能/指令)的有效性、上下文管理的局限性以及记忆系统的落地难题。为了寻求更优的解决方案并与社区交流,他分享了自己对各类 AI 挖掘方法论的实测数据、遇到的问题以及对未来方向的思考。

核心内容

作者首先梳理了当前主流的几种基于 AI 的 Skill 构建方法,并指出了各自的局限性:

  1. SRC 报告蒸馏法:将历史 SRC 报告喂给 AI,让其总结成 Skill。
    • 缺陷:SRC 报告通常侧重于漏洞复现过程,缺乏漏洞发现阶段的排查思路和逻辑推导,导致 AI 难以学习到真正的“发现”技巧。
  2. 靶场实战总结法:让 AI 在靶场中进行实战,并总结成 Skill。
    • 缺陷:实测发现,DeepSeek(dp)难以编写有效的 Skill,且在检测到有价值点时往往不进行有效总结;GPT-5.5 表现稍好,但整体效果仍不尽如人意。
  3. 网安 Skill 蒸馏法:直接蒸馏各类网络安全领域的 Skill。
    • 缺陷:信息杂乱,通常由 AI 自行总结,导致内容脱离实战场景,且据称难以产出高质量成果。

此外,作者指出一个普遍现象:随着上下文窗口变长,AI 对 Skill 指令的遵循度会逐渐下降。

针对上述问题,作者探讨了引入“记忆系统”的尝试。该理念主张将上下文、技巧和经验不仅存储在 Skill 中,也存储在数据库中,以实现类似本地知识库的功能。然而,落地过程中面临巨大挑战:

  • 触发机制缺失:AI 无法自主判断何时将重复错误行为转化为经验存入数据库,也无法确定何时从数据库中提取何种经验。
  • 技术选型困境:使用 RAG(检索增强生成)显得过于臃肿;使用 JSONL 等轻量级存储又仅支持关键词的一比一搜索,缺乏模糊搜索能力,且 AI 往往无法有效利用这些存储的数据。

作者提出的初步解决办法包括:采用传统 Skill 方式编写,但依赖人工审核干预(如看到 AI 重复犯错时触发写记忆 Skill),但这无法实现自动化。

为了验证不同方案的效果,作者选取了一个其徒弟曾测试过的教育类(edu)站点进行对比测试:

  • 第一版(重流程 Skill,无记忆系统)
    • 策略:从国外大佬处提取流程,并通过靶场强制优化。
    • 结果:DeepSeek V4 Pro 表现最佳,不仅挖出了手工挖掘需数小时才能发现的身份证信息泄露漏洞,还额外发现了 4 个 CSRF 漏洞。
  • 第二版(加记忆系统,轻 Skill)
    • 结果:DeepSeek 陷入混乱,被困在主站页面,浪费大量 Token 后无任何发现(初期未使用 MCP 工具,一直使用 curl);GPT-5.5 问题更严重,从头到尾未调用 MCP 工具。
  • 第三版(最轻量 Skill)
    • 结果:GPT-5.5 出现相同问题,且表现出“胆子很小”的特性,避开各种功能点,甚至忽略 JavaScript 代码。

作者最终感到徘徊:虽然认为记忆系统有必要,但不知如何有效落地。他质疑 AI 挖洞的核心意义在于覆盖手工无法覆盖的范围并提高效率,如果 AI 无法学习手工技巧、漏掉功能点,则失去了其存在价值。

关键要点

  • Skill 构建的三大困境:SRC 报告缺乏发现逻辑、靶场总结效果不佳、蒸馏 Skill 脱离实战;且随着上下文增加,AI 对指令的服从性降低。
  • 记忆系统的落地难点:缺乏自动化的触发机制(存入与提取时机不明),技术选型在 RAG 的臃肿与 JSONL 的简陋之间难以平衡,AI 难以有效利用结构化记忆数据。
  • 实测效果对比
    • DeepSeek V4 Pro:在无记忆系统的重流程 Skill 下表现优异,能高效发现敏感信息泄露和 CSRF 漏洞。
    • DeepSeek (dp):在引入记忆系统后表现崩溃,陷入循环且浪费资源。
    • GPT-5.5:在引入记忆系统或轻量 Skill 时,存在不调用工具、回避功能点、忽略代码等严重退化现象。
  • 核心矛盾:自动化记忆系统与人工干预的矛盾,以及 AI 在保持流程遵循与灵活探索之间的平衡难题。
  • 价值反思:AI 挖掘的价值应体现在弥补手工测试的盲区和提升效率,若无法复现手工挖掘的逻辑覆盖能力,则其意义存疑。

意义与影响

这篇分享揭示了当前 AI 辅助网络安全挖掘(AI for Security)领域存在的“泡沫”与“现实”之间的差距。尽管市场宣传火热,但现有的成熟方案在实战中仍面临严峻挑战,特别是在复杂逻辑推理、长期记忆管理以及工具调用稳定性方面。

对于安全从业者而言,该分享提供了宝贵的避坑指南:

  1. 不要盲目迷信自动化记忆系统:当前的 RAG 或轻量级记忆方案尚不成熟,人工介入和流程约束仍是保证效果的关键。
  2. 重视 Prompt/Skill 的工程化优化:简单的报告蒸馏或靶场总结不足以构建高质量的挖掘逻辑,需要结合人工审核和针对性的流程设计。
  3. 模型选择需谨慎:不同模型在特定任务(如工具调用、长上下文遵循)上的表现差异巨大,DeepSeek V4 Pro 在此类场景下展现出优于 GPT-5.5 的稳定性,但具体效果需结合实际测试验证。

此外,这也引发了行业对 AI 安全测试本质的思考:AI 不应仅仅是自动化工具的堆砌,而应真正理解安全测试的逻辑与思维模式。未来的研究方向可能需要集中在如何构建更高效的上下文管理机制、更智能的经验提取算法,以及如何让 AI 更好地模拟人类安全专家的排查思路,而非仅仅依赖关键词匹配或简单的流程执行。

查看原文 →linux.do