Agent SkillLINUX DO · AI·13 小时前

AI挖掘SRC漏洞实战：Skill与记忆系统落地困境探讨

原标题：关于AI挖掘SRC漏洞的一些经验和问题分享

速览

本文探讨了利用AI挖掘SRC漏洞的实战经验，重点分析了堆叠Skill和构建记忆系统的两种主流方法及其局限性。作者指出，当前AI在长上下文中易偏离指令，且难以有效将实战经验转化为可检索的结构化知识，导致工具调用失败或漏测。尽管部分模型能发现特定漏洞，但整体自动化效率与可靠性仍面临挑战，亟需更优的落地方案。

AI 深度解读

背景

随着人工智能在网络安全领域的应用日益深入，利用 AI 挖掘 SRC（安全响应中心）漏洞成为新的热点。近期，各类培训机构纷纷推出基于 AI 的漏洞挖掘课程，其中不乏声称拥有“成熟套路”的方案。

一位拥有二进制安全（PWN 和逆向工程）背景的安全研究员，在转型 SRC 研究一个月后，尝试了行业内较早成熟的 AI 挖掘方案。尽管接受了相关培训，但在实际测试中，他遇到了多个难以通过现有 AI 技术解决的核心痛点，包括 Skill（技能/指令）的有效性、上下文管理的局限性以及记忆系统的落地难题。为了寻求更优的解决方案并与社区交流，他分享了自己对各类 AI 挖掘方法论的实测数据、遇到的问题以及对未来方向的思考。

核心内容

作者首先梳理了当前主流的几种基于 AI 的 Skill 构建方法，并指出了各自的局限性：

SRC 报告蒸馏法：将历史 SRC 报告喂给 AI，让其总结成 Skill。
- 缺陷：SRC 报告通常侧重于漏洞复现过程，缺乏漏洞发现阶段的排查思路和逻辑推导，导致 AI 难以学习到真正的“发现”技巧。
靶场实战总结法：让 AI 在靶场中进行实战，并总结成 Skill。
- 缺陷：实测发现，DeepSeek（dp）难以编写有效的 Skill，且在检测到有价值点时往往不进行有效总结；GPT-5.5 表现稍好，但整体效果仍不尽如人意。
网安 Skill 蒸馏法：直接蒸馏各类网络安全领域的 Skill。
- 缺陷：信息杂乱，通常由 AI 自行总结，导致内容脱离实战场景，且据称难以产出高质量成果。

此外，作者指出一个普遍现象：随着上下文窗口变长，AI 对 Skill 指令的遵循度会逐渐下降。

针对上述问题，作者探讨了引入“记忆系统”的尝试。该理念主张将上下文、技巧和经验不仅存储在 Skill 中，也存储在数据库中，以实现类似本地知识库的功能。然而，落地过程中面临巨大挑战：

触发机制缺失：AI 无法自主判断何时将重复错误行为转化为经验存入数据库，也无法确定何时从数据库中提取何种经验。
技术选型困境：使用 RAG（检索增强生成）显得过于臃肿；使用 JSONL 等轻量级存储又仅支持关键词的一比一搜索，缺乏模糊搜索能力，且 AI 往往无法有效利用这些存储的数据。

作者提出的初步解决办法包括：采用传统 Skill 方式编写，但依赖人工审核干预（如看到 AI 重复犯错时触发写记忆 Skill），但这无法实现自动化。

为了验证不同方案的效果，作者选取了一个其徒弟曾测试过的教育类（edu）站点进行对比测试：

第一版（重流程 Skill，无记忆系统）：
- 策略：从国外大佬处提取流程，并通过靶场强制优化。
- 结果：DeepSeek V4 Pro 表现最佳，不仅挖出了手工挖掘需数小时才能发现的身份证信息泄露漏洞，还额外发现了 4 个 CSRF 漏洞。
第二版（加记忆系统，轻 Skill）：
- 结果：DeepSeek 陷入混乱，被困在主站页面，浪费大量 Token 后无任何发现（初期未使用 MCP 工具，一直使用 curl）；GPT-5.5 问题更严重，从头到尾未调用 MCP 工具。
第三版（最轻量 Skill）：
- 结果：GPT-5.5 出现相同问题，且表现出“胆子很小”的特性，避开各种功能点，甚至忽略 JavaScript 代码。

作者最终感到徘徊：虽然认为记忆系统有必要，但不知如何有效落地。他质疑 AI 挖洞的核心意义在于覆盖手工无法覆盖的范围并提高效率，如果 AI 无法学习手工技巧、漏掉功能点，则失去了其存在价值。

关键要点

Skill 构建的三大困境：SRC 报告缺乏发现逻辑、靶场总结效果不佳、蒸馏 Skill 脱离实战；且随着上下文增加，AI 对指令的服从性降低。
记忆系统的落地难点：缺乏自动化的触发机制（存入与提取时机不明），技术选型在 RAG 的臃肿与 JSONL 的简陋之间难以平衡，AI 难以有效利用结构化记忆数据。
实测效果对比：
- DeepSeek V4 Pro：在无记忆系统的重流程 Skill 下表现优异，能高效发现敏感信息泄露和 CSRF 漏洞。
- DeepSeek (dp)：在引入记忆系统后表现崩溃，陷入循环且浪费资源。
- GPT-5.5：在引入记忆系统或轻量 Skill 时，存在不调用工具、回避功能点、忽略代码等严重退化现象。
核心矛盾：自动化记忆系统与人工干预的矛盾，以及 AI 在保持流程遵循与灵活探索之间的平衡难题。
价值反思：AI 挖掘的价值应体现在弥补手工测试的盲区和提升效率，若无法复现手工挖掘的逻辑覆盖能力，则其意义存疑。

意义与影响

这篇分享揭示了当前 AI 辅助网络安全挖掘（AI for Security）领域存在的“泡沫”与“现实”之间的差距。尽管市场宣传火热，但现有的成熟方案在实战中仍面临严峻挑战，特别是在复杂逻辑推理、长期记忆管理以及工具调用稳定性方面。

对于安全从业者而言，该分享提供了宝贵的避坑指南：

不要盲目迷信自动化记忆系统：当前的 RAG 或轻量级记忆方案尚不成熟，人工介入和流程约束仍是保证效果的关键。
重视 Prompt/Skill 的工程化优化：简单的报告蒸馏或靶场总结不足以构建高质量的挖掘逻辑，需要结合人工审核和针对性的流程设计。
模型选择需谨慎：不同模型在特定任务（如工具调用、长上下文遵循）上的表现差异巨大，DeepSeek V4 Pro 在此类场景下展现出优于 GPT-5.5 的稳定性，但具体效果需结合实际测试验证。

此外，这也引发了行业对 AI 安全测试本质的思考：AI 不应仅仅是自动化工具的堆砌，而应真正理解安全测试的逻辑与思维模式。未来的研究方向可能需要集中在如何构建更高效的上下文管理机制、更智能的经验提取算法，以及如何让 AI 更好地模拟人类安全专家的排查思路，而非仅仅依赖关键词匹配或简单的流程执行。

查看原文 →linux.do

AI挖掘SRC漏洞实战：Skill与记忆系统落地困境探讨

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐