技术博客arXiv cs.CL·14 小时前

AI辅助同行评审易受低成本操纵，引发科研诚信新风险

原标题：Gaming AI-Assisted Peer Reviews Poses New Risks to the Scientific Community

速览

研究表明，AI辅助的同行评审系统存在显著漏洞，作者仅需花费约5分钟和1美元，通过表面改写摘要即可大幅提高AI评审的接受率和评分。这种攻击无需改变论文实质内容，且难以与正常编辑区分，可能导致编辑决策从拒绝转向接受。该发现揭示了AI在高风险评审中若缺乏系统性鲁棒性测试和人工监督，可能被作者利用来优化AI评价而非提升科学价值。

AI 深度解读

游戏化 AI 辅助同行评审给科学界带来新风险

来源：arXiv cs.CL 提交日期：2026年6月8日标题：Gaming AI-Assisted Peer Reviews Poses New Risks to the Scientific Community

背景

随着人工智能（AI）技术的飞速发展，其在科学出版流程中的应用日益广泛。从初筛稿件、协助审稿人到编辑部的分类处理，AI 正逐渐介入科学同行评审（Peer Review）的各个环节。尽管这些系统承诺能够减轻审稿人的负担并加速发表流程，但其对策略性操纵的鲁棒性（robustness）仍知之甚少。

近期的一项研究揭示了一个令人担忧的现象：在 AI 介导的同行评审中，存在一种简单且低成本的操纵手段，即对论文摘要进行表面的改写。这种操纵不仅改变了评审结果的分布，还可能误导后续的人类决策，从而对科学共同体的公正性和严谨性构成新的威胁。

核心内容

本研究通过实验证明，AI 辅助的同行评审系统容易受到一种简单、低成本的攻击：对论文摘要进行对抗性重写（adversarially rewritten abstracts）。关键在于，这种重写并不改变论文底层的科学内容或沟通逻辑，甚至不需要攻击者了解具体的评审模型。

研究团队在多个学科和出版渠道中进行了测试，涵盖了人类撰写和 AI 生成的论文。结果显示，经过对抗性重写的摘要显著改善了 AI 评审的结果。具体数据如下：

攻击成功率：最强的攻击策略实现了约 38% 的攻击成功率。
评分提升：在 10 分制量表上，针对 Gemini 3 Flash 审稿人，接受评分提高了 +1.31 分；针对 GPT 5.4 Mini 审稿人，评分提高了 +0.88 分。
逆转拒绝建议：当原始 AI 评审建议“拒绝”时，攻击的成功率上升至 50% 以上。

这种影响不仅仅体现在整体分数的通胀上，还提高了评审的置信度，并提升了核心科学标准（如健全性 soundness、重要性 significance 和感知贡献 perceived contribution）的评分。

从操作层面来看，该攻击非常实用。对于一篇 10 页的 AI 会议投稿，实施该攻击仅需约 5 分钟和 1 美元的成本，且很难与普通科学编辑区分开来。

研究指出，被夸大的 AI 评审可能会偏见下游的人类决策，将编辑部的推荐意见从“拒绝”转向“接受”。这一发现揭示了 AI 辅助科学评估中的一个普遍脆弱性：当 AI 生成的评审意见影响编辑决策时，作者可能会受到激励，去优化其稿件以迎合 AI 的判断，而非追求科学价值本身。

关键要点

低成本高收益操纵：仅通过改写摘要（无需改动正文或了解模型细节），即可显著改善 AI 评审结果，成本低至 1 美元和 5 分钟。
跨学科与跨模型通用性：该漏洞在多个学科、出版渠道以及不同 AI 模型（如 Gemini 3 Flash, GPT 5.4 Mini）中均被观察到，无论是人类撰写还是 AI 生成的论文均受影响。
评分与置信度双重通胀：攻击不仅提高了接受评分，还增加了 AI 对评审结果的置信度，并在健全性、重要性等核心指标上获得更高评价。
逆转“拒绝”建议：在原始 AI 建议拒绝的情况下，攻击成功率超过 50%，直接改变了稿件的命运。
误导人类决策：夸大的 AI 评审意见会作为偏见源，影响后续人类编辑或审稿人的判断，导致本应被拒的稿件被接受。
激励错位风险：研究警示，若 AI 评审在高风险同行评审中不被视为中立评估者，作者将倾向于“优化稿件以迎合 AI”而非“提升科学质量”，从而扭曲科学评价的本质。

意义与影响

这项研究对当前科学出版界过度依赖 AI 辅助评审的趋势提出了严峻警告。其核心意义在于揭示了“对齐问题”在科学评价领域的具体表现：AI 模型可能被表面的语言特征所误导，而非真正理解科学内容。

对科学公正性的威胁：如果作者可以通过低成本的语言游戏来操纵 AI 评审，那么基于 AI 辅助的发表流程将不再公平。这可能导致低质量或伪科学内容通过“语言包装”进入学术视野，稀释科学共同体的知识积累。
对人类决策者的警示：研究强调了人类监督（human oversight）的重要性。AI 不应被视为中立的裁判，而应作为辅助工具。在缺乏系统性鲁棒性测试和透明保障措施的情况下，完全依赖 AI 评审意见可能导致系统性偏见。
未来 AI 评估系统的改进方向：
- 鲁棒性测试：在部署 AI 评审工具前，必须进行针对对抗性攻击的系统性测试。
- 透明机制：评审过程应更加透明，让编辑和审稿人了解 AI 评分的依据，并警惕异常的高置信度评分。
- 重新定义 AI 角色：AI 应被定位为提供初步筛选或辅助建议的工具，而非最终决策者。最终的科学价值判断必须回归到对人类专家判断的依赖，并加强对“语言形式”与“科学实质”的分离评估。

总之，随着 AI 深入科学出版的核心环节，我们必须警惕技术带来的新漏洞。科学界需要建立更严格的防御机制，确保 AI 服务于科学真理的发现，而非成为被策略性操纵的对象。

查看原文 →arxiv.org