技术博客arXiv cs.CL·3 小时前

电商虚假界面下Web智能体安全性基准测试

原标题：Benchmarking Web Agent Safety under E-commerce Deceptive Interfaces

速览

随着自主Web智能体在现实任务中的部署，其安全性成为关键问题。本文引入WebDecept框架，在电商环境中注入七种常见欺骗性界面模式以评估多模态Web智能体。结果显示，当前智能体极易受此类欺骗影响，且基于提示的约束往往无法有效缓解。

AI 深度解读

电商欺骗性界面下 Web Agent 安全性基准测试

背景

随着自主 Web Agent（网络智能体）被越来越多地部署以执行现实世界中的复杂任务，确保其在开放互联网环境中的安全性已成为一个至关重要的议题。然而，当前的 Web Agent 大多是在相对干净、结构化的测试环境中进行评估的，这往往掩盖了真实互联网环境中存在的复杂干扰因素。

在电子商务领域，网页前端充满了各种旨在引导用户行为的设计模式，其中不乏具有欺骗性或操纵性的界面元素。这些元素包括误导性广告、域名重定向以及购物流程中的隐蔽陷阱等。当 Web Agent 面对这些非标准化的、甚至带有恶意的界面时，其决策逻辑和安全性保障机制是否依然有效，目前尚缺乏系统的量化评估。

核心内容

本研究针对上述问题，深入探讨了 Web Agent 在现实世界电商欺骗性界面下的行为表现。研究团队引入了一种名为 WebDecept 的轻量级、可配置的插件框架。该框架的核心功能是允许研究人员在现有的 Web 环境中，对前端界面进行受控的欺骗性模式注入。

通过 WebDecept，研究团队实例化了七种在开放互联网上常见的欺骗性模式，具体包括：

定向广告（Targeted Advertisements）：伪装成正常内容或系统提示的广告。
域名重定向（Domain Redirection）：将用户或 Agent 引导至非预期或恶意域名的行为。
购物操纵（Shopping Manipulation）：在结账或浏览过程中通过 UI 设计误导 Agent 做出非最优或错误决策的行为。

在任务执行期间，研究团队将这些欺骗性模式动态注入到 Web 前端，并对多个多模态 Web Agent 进行了受控评估。实验结果揭示，当前的 Web Agent 对多类欺骗性界面表现出极高的易感性。尽管研究团队尝试使用基于提示词（prompt-based）的安全约束来缓解这一问题，但结果表明，仅靠提示词工程往往不足以有效抵御这些精心设计的界面操纵。

此外，研究还深入分析了欺骗性模式的设计选择如何影响操纵的成功率，为理解 Agent 在面对视觉和交互层面的欺骗时的脆弱性提供了细粒度的视角。

关键要点

WebDecept 框架：提出了一种轻量级、可配置的插件框架，支持在现有 Web 环境中受控注入欺骗性界面模式，为安全性评估提供了标准化的测试工具。
七种典型欺骗模式：涵盖了电商场景中常见的七种欺骗性 UI 模式，包括定向广告、域名重定向和购物操纵等，反映了真实互联网环境的复杂性。
高易感性发现：评估结果显示，当前主流的多模态 Web Agent 在面对多类欺骗性界面时极易出错，表明其鲁棒性不足。
提示词约束的局限性：研究发现，传统的基于提示词（prompt-based）的安全约束策略在应对界面层面的欺骗性操纵时效果有限，无法有效 mitigate（缓解）失败案例。
设计选择的影响分析：研究量化分析了不同欺骗性模式的设计细节如何影响操纵成功率，揭示了 Agent 在视觉理解和交互逻辑上的具体弱点。

意义与影响

这项研究揭示了随着 Web Agent 向现实世界大规模部署所面临的关键安全挑战。它表明，仅仅关注 Agent 的逻辑推理能力是不够的，必须同时重视其在复杂、非结构化甚至具有敌意的视觉交互环境中的安全性。

对于 AI 社区和 Web Agent 开发者而言，这一发现意味着需要开发更强大的安全机制，超越简单的提示词约束，可能需要结合更深层的视觉语义理解、行为监控或专门的对抗性训练。WebDecept 框架的开源和标准化也为后续研究提供了一个重要的基准，有助于推动更安全的自主智能体技术的发展，确保其在真实的商业和互联网环境中能够可靠、安全地运行。

查看原文 →arxiv.org