技术博客arXiv cs.CL·3 天前

研究：用模拟工具调用隔离不可信提示词并未提升大模型鲁棒性

原标题：Evaluating using Mock Tool Calls to Quarantine Untrusted Prompt Inputs

速览

大型语言模型常需处理不可信输入，业界曾提议通过模拟工具调用将其隔离以增强安全性。然而，针对七个模型和三项评估任务的红队测试显示，该策略并未广泛提升鲁棒性。在二元评估任务中，该方法反而提高了攻击成功率，违背了预期的指令层级信任假设。研究建议部署系统警惕此局限，并探索更强的指令层级训练或新的不可信输入原语。

AI 深度解读

评估使用模拟工具调用隔离不可信提示输入

背景

大型语言模型（LLM）在实际部署中必须频繁处理不可信的用户输入。这些场景包括：判定另一个模型生成的答案质量、运行垃圾邮件检测或有害内容分类器等任务，且往往处于对抗性压力之下。

目前，主流提供商（如 OpenAI）的 LLM 规范中，通过“指令层级”（Instruction Hierarchy）来区分输入的可信度。该层级从最可信的“系统消息”（System messages）到最不可信的“工具结果”（Tool Results）排列。

一种自然的缓解思路是：将不可信内容包裹在“模拟工具调用”（Mock Tool Calls）中，作为一种隔离（Quarantine）机制。然而，这种直觉是否真的能提升系统的安全性，尚需实证检验。

核心内容

本文通过自动化红队测试（Automated Redteaming）搜索静态攻击字符串，在七种模型和三种“以 LLM 作为评判者”（LLM-as-a-Judge）任务上，对“模拟工具调用隔离”这一假设进行了评估。

研究结果与初始假设相悖：工具包裹（Tool-wrapping）并未广泛提升鲁棒性。

具体发现如下：

二元评估任务（Binary Evaluation Task）： 在 GSM8K（数学推理数据集）评分任务中，使用工具包裹通常增加了攻击成功率。这表现为指令层级的明显倒置——即本应更受信任的结构反而导致了更差的防御效果。
标量（Scalar）和成对（Pairwise）任务： 在这些任务中，工具包裹的影响较小且高度依赖于具体模型。没有任何一个被测试的模型从中可靠地获益，相反，有几个模型甚至表现出了指令层级的倒置现象。

基于上述发现，作者建议：

在部署系统中评估这一局限性。
从长远来看，应追求更强的“指令层级”训练，或开发新的处理不可信输入的原语（Primitives）。

关键要点

假设被证伪： 将不可信输入包裹在模拟工具调用中，并不能像预期那样提高模型对对抗性攻击的抵抗力。
指令层级倒置风险： 在 GSM8K 评分等二元判断任务中，使用工具包裹反而使攻击更容易成功，违背了“工具结果可信度最低”的设计初衷。
效果不稳定： 在标量和成对比较任务中，效果因模型而异，且没有模型表现出一致的防御提升。
现有规范局限： 尽管 OpenAI 等厂商定义了基于指令层级的信任机制，但简单的结构包裹（如 Mock Tool Calls）不足以解决不可信输入带来的安全风险。
未来方向： 需要更深入的指令层级训练，或探索专门针对不可信输入的新型处理机制，而非依赖现有的工具调用格式进行隔离。

意义与影响

这项研究对当前 LLM 应用开发中的安全实践提出了重要警示。许多开发者倾向于利用 LLM 规范中的结构特性（如将用户输入视为 Tool Result 以降低其影响力）来构建安全护栏。然而，本文证明这种“结构隔离”策略在对抗性环境下可能是无效的，甚至适得其反。

对于生产环境中的 LLM 应用，特别是涉及模型输出评估（LLM-as-a-Judge）或内容审核的场景，单纯依赖提示词工程中的层级结构来防御恶意输入是不够的。开发者需要认识到，不可信输入可能通过更隐蔽的方式绕过基于层级的信任机制。

长远来看，模型训练需要更精细地强化指令层级的语义区分能力，或者引入专门用于处理不可信数据的新原语，以确保系统在对抗性压力下的鲁棒性。

查看原文 →arxiv.org