技术博客arXiv cs.AI·2 小时前

强制延迟攻击：操纵多模态大模型级联的路由决策

原标题：Forced Deferral: Manipulating Routing Decisions in Multimodal LLM Cascades

速览

多模态大语言模型级联系统通过弱模型初步判断是否调用强模型以节省算力，但这一机制存在被利用的风险。研究者提出强制延迟攻击（FDA），通过优化温度平滑目标函数生成通用边界触发器，有效降低弱模型置信度。该攻击能迫使系统频繁将查询路由至强模型，从而在不影响回答正确性的前提下，恶意操纵计算资源分配。

AI 深度解读

Forced Deferral: Manipulating Routing Decisions in Multimodal LLM Cascades

背景

多模态大语言模型（Multimodal Large Language Models, MLLMs）在视觉推理任务中展现了强大的能力，但为每一个查询请求部署和运行一个庞大的全功能模型在计算资源上极其昂贵。为了缓解这一成本压力，业界开始广泛采用 MLLM Cascades（多模态大语言模型级联架构）。

这种架构的核心逻辑是“分级处理”：首先使用一个轻量级、低成本的“弱模型”处理查询；只有当弱模型的输出置信度较低（即模型对自己答案不确定）时，系统才会将请求“推迟”（defer）给一个更强大、但计算成本更高的“强模型”。

然而，这种依赖“置信度”来决定计算资源分配（Compute Allocation）的机制，暴露出一个新的安全攻击面。攻击者可以通过操纵弱模型的置信度，使其对特定查询表现出低置信度，从而诱导系统不断将请求路由到昂贵的强模型上。这种攻击并不旨在改变模型的输出结果，而是旨在滥用计算资源，导致服务成本激增或拒绝服务。

核心内容

针对上述漏洞，研究人员提出了一种名为 Forced Deferral Attack (FDA)（强制推迟攻击）的新型对抗性图像攻击方法。该攻击的核心目标是降低弱模型对输入图像的置信度，迫使级联系统将查询路由至强模型，从而实现对计算资源的操纵。

攻击原理与机制

FDA 通过优化一个经过温度平滑（temperature-flattened）的目标函数，学习到一个通用的“边界触发器”（universal border trigger）。

目标函数设计：该目标函数的作用是将被触发输入（triggered inputs）在弱模型中的 token 分布，推向由干净响应（clean responses）构建的、集中度较低的目标分布。简而言之，它让模型在遇到带有特定触发器的图像时，变得“犹豫不决”。
通用触发器：与针对特定样本的扰动不同，FDA 学习的是一个通用的边界触发器，这意味着它可以应用于多种不同的输入场景，具有广泛的适用性。
非破坏性：与传统的对抗攻击不同，FDA 并不试图误导模型给出错误的答案，而是专注于操纵系统的内部路由决策机制。

实验结果

研究人员在多个数据集、模型家族以及推迟指标上对 FDA 进行了评估。结果表明：

高效的路由操纵：FDA 能够 consistently（一致地）增加请求被路由到强模型的比例。
优于基线：在增加强模型使用率方面，FDA 的表现优于基于图像扰动（image-perturbation）和提示注入（prompt-injection）的基线方法。

这些结果证实了 MLLM 级联系统在面对操纵计算资源分配的攻击时存在脆弱性。攻击者无需直接针对答案的正确性进行干扰，即可通过迫使系统使用强模型来达成攻击目的。

关键要点

新攻击向量：MLLM 级联架构中，基于置信度的资源分配机制引入了新的安全风险，即“计算资源滥用”。
FDA 攻击定义：Forced Deferral Attack (FDA) 是一种专门针对级联架构的对抗性图像攻击，旨在通过降低弱模型置信度来强制路由至强模型。
技术实现：FDA 利用温度平滑的目标函数，优化出一个通用的边界触发器，使弱模型在遇到触发器时输出低置信度。
攻击特性：该攻击不改变最终答案的正确性，仅改变系统的计算路径，属于一种“侧信道”式的资源攻击。
广泛有效性：实验证明 FDA 在不同数据集、模型家族和指标下均能有效提升强模型的路由比例，且优于传统的图像扰动和提示注入攻击。

意义与影响

这项研究揭示了当前 MLLM 级联部署中的一个关键安全隐患。随着企业越来越依赖“弱模型预处理 + 强模型兜底”的架构来平衡成本与性能，这种架构的鲁棒性至关重要。

成本风险：如果攻击者能够大规模触发 FDA，他们可以将原本应由廉价弱模型处理的请求强制转嫁给昂贵强模型，导致服务提供方的计算成本急剧上升，甚至造成经济上的损失。
安全风险：在极端情况下，这种攻击可能被用于发起拒绝服务（DoS）攻击，通过耗尽强模型的算力资源，导致合法用户的请求被延迟或拒绝。
防御需求：现有的安全研究多关注模型输出的准确性或内容安全性，而忽视了系统层面的资源分配逻辑。本文呼吁开发新的防御机制，例如对置信度输出进行异常检测、引入基于行为的速率限制，或设计对触发器更鲁棒的置信度校准方法。

总之，Forced Deferral Attack 提醒开发者，在构建高效的多模态 AI 系统时，不仅要考虑模型本身的准确性，还必须将系统架构的资源分配逻辑纳入安全评估的范畴。

查看原文 →arxiv.org