← 返回信息流
技术博客arXiv cs.CL·4 小时前

AI审稿人能否看清全貌?多模态同行评审攻防研究

原标题:Does AI Reviewer See the Full Picture? Attacking and Defending Multimodal Peer Review

速览

随着大语言模型和多模态模型融入科学同行评审,论文中的图表等核心证据可能成为对抗攻击的目标,而现有研究多局限于文本。为此,研究团队推出PaperGuard,这是首个针对多模态同行评审的系统性基准,涵盖多领域数据集、统一攻击套件及基于分块嵌入搜索的防御机制。实验证实AI审稿人普遍存在漏洞,该研究为构建可信、抗攻击的AI辅助学术评审奠定了基础。

AI 深度解读

AI 审稿人是否看到了全貌?攻击与防御多模态同行评审

背景

随着大型语言模型(LLMs)和多模态大型语言模型(MLLMs)逐渐融入科学同行评审的工作流程,一种新颖且显著的风险随之产生:对抗性操纵。在科学论文中,核心证据不仅通过文本传达,更大量依赖于图表(Figures)。然而,当前的 AI 同行评审鲁棒性研究 overwhelmingly(压倒性地)局限于纯文本领域,忽略了多模态特性带来的独特漏洞。

此外,同行评审中的攻击问题与标准的“越狱”(Jailbreaking)攻击截然不同。标准越狱通常旨在违反通用的安全策略,而同行评审攻击旨在诱导领域特定的、有针对性的失败(例如,“提高这个评分”)。针对这种特定场景,目前缺乏实用的防御机制。

核心内容

为了解决上述差距,研究团队引入了 PaperGuard,这是首个旨在系统评估和防御 AI 生成同行评审免受领域特定、跨模态攻击的综合基准测试框架。该框架建立在三大支柱之上:

  1. 新的多模态同行评审数据集:涵盖多个科学领域,填补了现有数据在多模态评审场景下的空白。
  2. 统一的攻击套件:包括黑盒提示注入(Black-box prompt injections)和白盒扰动(White-box perturbations)。这些攻击专门设计用于同时针对文本(使用 GCG 算法)和图表(使用 PGD 算法),模拟真实世界中对 AI 审稿人的潜在操纵手段。
  3. 实用的防御机制:鉴于学术论文通常具有长上下文的挑战,该防御机制采用基于分块(Chunk-based)的嵌入搜索技术,能够高效地定位并缓解有害指令。

研究团队在最新一代的模型上进行了广泛的实验,结果证实了 AI 审稿人普遍存在脆弱性。PaperGuard 不仅建立了基础基准和协议,还提供了可操作的防御手段,为开创可信、抗攻击的 AI 辅助学术评审奠定了基础。

关键要点

  • 多模态漏洞被忽视:当前 AI 同行评审的安全性研究主要关注文本,忽略了图表作为核心证据载体所引入的多模态攻击面。
  • 攻击目标具有领域特异性:与通用的安全越狱不同,针对同行评审的攻击旨在诱导特定的评分操纵(如虚高评分),而非触发通用安全拦截。
  • PaperGuard 框架创新
    • 提供了首个针对多模态同行评审的系统性基准。
    • 集成了针对文本(GCG)和图像(PGD)的统一攻击方法。
    • 提出了基于分块嵌入搜索的防御策略,以解决长文档上下文中的有害指令定位问题。
  • 普遍脆弱性证实:实验表明,现有的先进 AI 模型在同行评审任务中容易受到跨模态攻击的影响。
  • 推动可信 AI 评审:该研究为建立抗攻击、可信赖的 AI 辅助学术评审系统提供了必要的基准、协议和防御方案。

意义与影响

这项研究揭示了当前 AI 辅助科学评审体系中一个关键但被低估的安全隐患。随着学术界越来越多地依赖 LLMs 和 MLLMs 进行论文初审或辅助评审,确保这些系统不被恶意操纵变得至关重要。

PaperGuard 的提出标志着从“纯文本鲁棒性”向“多模态领域特定鲁棒性”的转变。它不仅为研究人员提供了一个评估 AI 审稿人安全性的标准工具,还通过提供具体的防御策略(如基于分块的嵌入搜索),为实际部署提供了可行路径。这对于维护科学出版的公正性、防止学术不端行为利用 AI 漏洞进行操纵具有深远影响,是构建未来可信 AI 科学基础设施的重要一步。

查看原文 →arxiv.org