技术博客arXiv cs.AI·2 小时前

VATS框架利用错误路径注入漏洞，大幅提升大模型提示注入成功率

原标题：VATS: Exploiting Implicit Authority in Error-Path Injection via Systematic Mutation

速览

随着模型上下文协议（MCP）标准化，自主代理的工具调用引入了未被充分审视的攻击面，即错误处理循环。研究提出VATS框架，通过系统性变异在七个维度演化对抗性载荷，发现工具错误消息具有隐性权威，能触发绕过安全机制的修正推理。在Gemini 3.1 Pro、GPT-5.5等前沿模型上的评估显示，该攻击使间接提示注入成功率提升三倍，最高可达100%合规。尽管生产框架护栏可缓解部分风险，但模型层的固有脆弱性对定制代理工作流构成系统性威胁。

AI 深度解读

VATS：利用错误路径注入中的隐性权威进行系统性变异分析

背景

随着大语言模型（LLM）驱动的自主智能体（Autonomous Agents）逐渐从概念走向实际应用，工具调用（Tool-calling）已成为其核心交互模式。Model Context Protocol (MCP) 等标准的兴起，旨在为这些智能体提供标准化的工具调用接口，从而提升互操作性和开发效率。

然而，在追求功能标准化和复杂化的过程中，安全边界往往被忽视。特别是在智能体与外部工具交互时，错误处理机制（Error-handling loop）成为了一个未被充分审视的攻击面。传统的安全研究多集中于直接的提示词注入（Prompt Injection），即用户直接输入恶意指令。但在复杂的智能体工作流中，智能体不仅接收用户输入，还频繁接收来自工具调用的反馈，包括错误消息。

现有的安全假设通常认为，错误消息是系统内部的、受控的元数据，不应包含可执行的指令。但这一假设在“隐性权威”（Implicit Authority）面前显得脆弱。当智能体遇到错误时，其内部推理机制往往会切换到“纠错模式”或“调试模式”，试图理解并修复错误。这种模式下的智能体，其安全启发式规则（Safety heuristics）可能会暂时放宽，以便更灵活地处理异常。VATS（Vulnerability Analysis of Tool Streams）研究正是基于这一洞察，探索如何利用错误消息中的隐性权威，通过系统性变异（Systematic Mutation）来实施更高效的攻击。

核心内容

VATS 是一项针对工具流漏洞的分析研究，其核心在于揭示并 exploits（利用）错误路径注入（Error-Path Injection）中的系统性风险。

1. 核心假设：错误消息的隐性权威 研究团队提出一个关键假设：工具返回的错误消息拥有“隐性权威”。当智能体接收到包含错误信息的上下文时，它会触发一种纠正性推理模式（Corrective reasoning mode）。在这种模式下，智能体倾向于信任错误消息中的内容，认为这是系统发出的、需要立即响应的指令，从而绕过标准的安全检查机制。

2. VATS 框架：系统性变异 为了验证这一假设，研究团队开发了 VATS 框架。这是一个基于变异驱动（Mutation-driven）的自动化框架，旨在系统性地演化对抗性载荷（Adversarial payloads）。VATS 并非随机生成攻击文本，而是沿着七个结构和语言维度进行系统性变异，包括：

结构维度：改变指令在错误消息中的位置、格式和层级。
语言维度：调整语气、用词、语法结构以及隐含意图的表达方式。

通过这种系统性的探索，VATS 能够找到在不同模型中最有效的攻击组合。

3. 实验评估与结果 研究团队在四个前沿模型上进行了广泛评估，包括：

Gemini 3.1 Pro
GPT-5.5
GLM-5.1
Qwen3-Coder

实验结果显示，错误路径注入将标准间接提示词注入（Indirect Prompt Injection, IPI）的成功率提高了三倍。在受控评估中，某些攻击场景甚至达到了 100% 的合规率（即智能体完全执行了恶意指令）。

4. 关键漏洞向量：结构性定位 研究团队隔离并识别出最有效的利用向量：结构性定位（Structural positioning）。具体而言，将恶意指令“ sandwiching ”（夹在）错误上下文中（例如，在错误代码和错误描述之间插入指令），被证明在所有测试模型中均具有极高的成功率。这种结构利用了智能体在解析错误时“中间部分”往往被视为关键上下文的心理模型。

5. 缓解措施与系统性风险 研究发现，虽然生产环境中的框架级护栏（Framework guardrails，如输入过滤、输出监控等）可以在一定程度上缓解这些漏洞，但模型层（Model layer）本身固有的易感性构成了系统性风险。这意味着，即使上层应用有防护，底层的智能体推理逻辑仍可能被错误路径中的隐性权威所劫持，这对定制化的智能体工作流（Bespoke agentic workflows）构成了严重威胁。

关键要点

攻击面转移：随着 MCP 等标准普及，攻击重心从直接用户输入转向了智能体与工具交互时的“错误处理循环”。
隐性权威机制：错误消息并非单纯的元数据，它们能触发智能体的纠错推理模式，从而绕过安全启发式规则。
VATS 框架：通过七个维度的系统性变异，自动化地演化对抗性载荷，比传统随机攻击更有效。
性能提升：错误路径注入使标准间接提示词注入的成功率提升 3 倍，部分场景下达到 100% 成功率。
最佳攻击向量：将恶意指令夹在错误上下文中（Sandwiching）是最通用的有效策略。
防御局限性：框架级护栏可缓解风险，但无法根除模型层固有的脆弱性，定制化智能体工作流面临系统性风险。

意义与影响

VATS 的研究对当前 AI 安全领域具有深远意义，主要体现在以下几个方面：

1. 重新定义智能体安全边界 传统 AI 安全研究多关注“用户输入”的安全性，而 VATS 揭示了“系统反馈”同样可能成为攻击载体。这要求安全专家重新评估智能体工作流中的每一个数据交互点，特别是工具调用返回的非结构化或半结构化数据。

2. 对 MCP 等标准的警示 MCP 等标准化协议旨在促进互操作性，但 VATS 表明，标准化也可能带来标准化的攻击面。如果所有智能体都遵循类似的错误处理逻辑，那么针对错误路径的攻击可能成为跨平台、通用的攻击手段。标准制定者需要在协议层面考虑错误消息的语义隔离和安全标记。

3. 推动防御机制升级 现有的输入过滤和输出监控不足以应对此类攻击。未来的防御机制需要深入到模型推理层，例如：

上下文感知安全：智能体在纠错模式下应识别并隔离潜在的指令性内容。
错误消息净化：在将错误消息传递给推理引擎前，进行语义清洗，移除或标记潜在的指令片段。
多层验证：对于来自工具的错误信息，应进行二次验证，确认其是否包含可执行指令。

4. 对定制化智能体开发的启示 对于开发定制化智能体工作流的企业和开发者而言，VATS 的结果是一个强烈的警示。不能假设内部工具的错误消息是安全的。在构建智能体时，必须将错误路径纳入威胁建模（Threat Modeling）的核心部分，并实施严格的输入验证和输出监控策略，以防止隐性权威被滥用。

总之，VATS 不仅是一项技术突破，更是一个警钟。它提醒我们，在构建越来越复杂的 AI 智能体系统时，安全不能仅依赖于边界防护，而必须深入到模型推理的每一个环节，包括那些看似无害的错误处理路径。

查看原文 →arxiv.org