技术博客arXiv cs.CL·4 小时前

AI审稿人能否看清全貌？多模态同行评审攻防研究

原标题：Does AI Reviewer See the Full Picture? Attacking and Defending Multimodal Peer Review

速览

随着大语言模型和多模态模型融入科学同行评审，论文中的图表等核心证据可能成为对抗攻击的目标，而现有研究多局限于文本。为此，研究团队推出PaperGuard，这是首个针对多模态同行评审的系统性基准，涵盖多领域数据集、统一攻击套件及基于分块嵌入搜索的防御机制。实验证实AI审稿人普遍存在漏洞，该研究为构建可信、抗攻击的AI辅助学术评审奠定了基础。

AI 深度解读

AI 审稿人是否看到了全貌？攻击与防御多模态同行评审

背景

随着大型语言模型（LLMs）和多模态大型语言模型（MLLMs）逐渐融入科学同行评审的工作流程，一种新颖且显著的风险随之产生：对抗性操纵。在科学论文中，核心证据不仅通过文本传达，更大量依赖于图表（Figures）。然而，当前的 AI 同行评审鲁棒性研究 overwhelmingly（压倒性地）局限于纯文本领域，忽略了多模态特性带来的独特漏洞。

此外，同行评审中的攻击问题与标准的“越狱”（Jailbreaking）攻击截然不同。标准越狱通常旨在违反通用的安全策略，而同行评审攻击旨在诱导领域特定的、有针对性的失败（例如，“提高这个评分”）。针对这种特定场景，目前缺乏实用的防御机制。

核心内容

为了解决上述差距，研究团队引入了 PaperGuard，这是首个旨在系统评估和防御 AI 生成同行评审免受领域特定、跨模态攻击的综合基准测试框架。该框架建立在三大支柱之上：

新的多模态同行评审数据集：涵盖多个科学领域，填补了现有数据在多模态评审场景下的空白。
统一的攻击套件：包括黑盒提示注入（Black-box prompt injections）和白盒扰动（White-box perturbations）。这些攻击专门设计用于同时针对文本（使用 GCG 算法）和图表（使用 PGD 算法），模拟真实世界中对 AI 审稿人的潜在操纵手段。
实用的防御机制：鉴于学术论文通常具有长上下文的挑战，该防御机制采用基于分块（Chunk-based）的嵌入搜索技术，能够高效地定位并缓解有害指令。

研究团队在最新一代的模型上进行了广泛的实验，结果证实了 AI 审稿人普遍存在脆弱性。PaperGuard 不仅建立了基础基准和协议，还提供了可操作的防御手段，为开创可信、抗攻击的 AI 辅助学术评审奠定了基础。

关键要点

多模态漏洞被忽视：当前 AI 同行评审的安全性研究主要关注文本，忽略了图表作为核心证据载体所引入的多模态攻击面。
攻击目标具有领域特异性：与通用的安全越狱不同，针对同行评审的攻击旨在诱导特定的评分操纵（如虚高评分），而非触发通用安全拦截。
PaperGuard 框架创新：
- 提供了首个针对多模态同行评审的系统性基准。
- 集成了针对文本（GCG）和图像（PGD）的统一攻击方法。
- 提出了基于分块嵌入搜索的防御策略，以解决长文档上下文中的有害指令定位问题。
普遍脆弱性证实：实验表明，现有的先进 AI 模型在同行评审任务中容易受到跨模态攻击的影响。
推动可信 AI 评审：该研究为建立抗攻击、可信赖的 AI 辅助学术评审系统提供了必要的基准、协议和防御方案。

意义与影响

这项研究揭示了当前 AI 辅助科学评审体系中一个关键但被低估的安全隐患。随着学术界越来越多地依赖 LLMs 和 MLLMs 进行论文初审或辅助评审，确保这些系统不被恶意操纵变得至关重要。

PaperGuard 的提出标志着从“纯文本鲁棒性”向“多模态领域特定鲁棒性”的转变。它不仅为研究人员提供了一个评估 AI 审稿人安全性的标准工具，还通过提供具体的防御策略（如基于分块的嵌入搜索），为实际部署提供了可行路径。这对于维护科学出版的公正性、防止学术不端行为利用 AI 漏洞进行操纵具有深远影响，是构建未来可信 AI 科学基础设施的重要一步。

查看原文 →arxiv.org