技术博客arXiv cs.AI·1 天前

Memory as an Attack Surface in LLM Agents: A Study on Multiple-Choice Question Answering

AI 深度解读

背景

随着大语言模型（LLM）能力的不断演进，传统的单次问答模式已逐渐向具备持续交互能力的 AI Agent 转变。现代 AI Agent 不仅集成了语言理解与任务执行能力，还引入了外部工具调用以及至关重要的记忆机制。记忆机制使得 Agent 能够保留历史交互信息，从而提供更具个性化与上下文感知的响应。然而，这种对过往信息的依赖也打开了新的安全隐患：一旦存储的记忆被污染或篡改，即便当前的用户查询是干净且无害的，Agent 的输出依然可能被操控。本文正是基于这一潜在风险，深入探究了记忆机制在 LLM Agent 中的攻击面问题。

核心内容

本文研究了基于 LLM 的 AI Agent 在多选题问答场景下，记忆作为攻击面的具体表现与影响。

首先，作者设计并实现了一个具备外部记忆组件的 LLM-based AI Agent。该组件负责存储和检索与任务相关的信息，以模拟真实场景中 Agent 利用历史上下文进行推理的过程。

在此基础上，作者引入了基础的记忆操纵场景。在这些场景中，当 Agent 回答多选题之前，攻击者会向其外部记忆中插入具有误导性或被损坏的信息。

为了量化这种操纵的影响，作者采用了受控的实验设置，对比了 Agent 在记忆操纵前后的性能表现。评估指标包括：答案准确率的变化、攻击成功率，以及 Agent 选择被操纵选项的频率。

实验结果表明，即便是简单的记忆操纵，也能对 Agent 的最终答案产生显著影响。具体而言，尽管 Agent 接收到的当前问题是干净且格式良好的，但由于其依赖了被污染的外部记忆，依然会选择错误的选项。这直接证明了记忆系统已成为 LLM Agent 中一个不容忽视的安全薄弱点。

关键要点

记忆即攻击面：LLM Agent 的记忆机制虽然提升了上下文感知能力，但也引入了新的漏洞，存储的信息即使面对干净查询也能影响未来输出。
隐蔽性强：攻击者无需篡改当前的用户输入，只需在历史记忆中植入误导信息，即可在后续任务中成功操控 Agent。
多选题场景验证：研究在多选题问答（Multiple-Choice Question Answering）的受控环境下，成功验证了记忆操纵攻击的可行性。
攻击简单且有效：实验证明，简单的记忆操纵就能显著降低答案准确率，并大幅提高攻击成功率，导致 Agent 倾向于选择被植入的错误选项。

意义与影响

本文的研究对 LLM Agent 的安全架构设计具有重要的警示意义。它揭示了当前 Agent 开发中过度依赖记忆机制而忽视记忆完整性的风险。随着 AI Agent 在复杂决策、个人助理及自动化办公等场景中的普及，记忆系统极易成为高级持续性威胁的突破口。未来的 Agent 设计必须引入记忆的验证、隔离与防篡改机制，例如对记忆内容进行来源校验、实施读写权限控制，或建立记忆污染的检测模型。本文不仅为 Agent 安全领域提供了新的研究视角，也为构建更具鲁棒性的 AI Agent 系统奠定了安全基线。

查看原文 →arxiv.org

Memory as an Attack Surface in LLM Agents: A Study on Multiple-Choice Question Answering

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐