技术博客arXiv cs.AI·6 天前

评测街机：大模型评论的人类对齐性与可操纵性

原标题：Review Arcade: On the Human Alignment and Gameability of LLM Reviews

速览

该研究基于2025年ACL滚动评审数据，评估了大模型生成论文评论在作者和审稿人视角下的表现。研究发现大模型评论与人类意见的对齐度有限且波动较大。此外，作者利用大模型反馈进行迭代修改，能显著提升部分论文的评分，显示出对评审系统的可操纵性。

AI 深度解读

Review Arcade：LLM 评论的人类对齐性与“可博弈性”深度解读

背景

随着大语言模型（LLM）在自然语言处理领域的深入应用，其在学术出版流程中的介入程度日益加深。目前，LLM 生成的科学论文评论不仅受到广泛关注，甚至已被部分顶级会议作为官方试点项目引入同行评审流程。

然而，这一趋势背后存在一个被长期忽视的双向动态：不仅审稿人可能利用 LLM 辅助评审，作者也可能利用 LLM 在提交前修改和完善论文。现有的研究多聚焦于 LLM 作为审稿人的能力，却缺乏对“作者利用 LLM 反馈优化论文”这一场景的系统性评估。

在此背景下，本研究基于 2025 年 ACL Rolling Review (ARR) 的论文数据，从作者和审稿人双重视角出发，实证评估了 LLM 评论的质量及其在学术出版中的实际影响，特别是探讨了 LLM 评论与人类评论的一致性，以及作者通过迭代式“草稿-修改”工作流对 LLM 评论进行“博弈”（Gaming）的有效性。

核心内容

本研究通过实证实验，深入分析了 LLM 在科学论文评审中的表现，主要涵盖以下三个维度的发现：

1. LLM 评论与人类评论的对齐性有限

研究首先评估了 LLM 生成的评论与人类专家评论之间的一致性（Alignment）。结果显示，这种对齐性是有限的，且存在显著的不稳定性。

最佳情况：在某些理想条件下，LLM 评论与人类评论的对齐程度是合理的，能够捕捉到论文的核心优缺点。
变异性：研究指出，LLM 与人类评论的对齐程度在不同提示词（Prompts）和不同模型之间差异巨大。这意味着 LLM 的评审表现高度依赖于具体的配置和模型选择，缺乏鲁棒性。

2. “博弈”LLM 评论的有效性

研究重点考察了一种特定场景：作者利用 LLM 生成的评论作为反馈，通过迭代的“草稿-修改”工作流来优化其提交论文。这种行为被定义为对 LLM 评论的“博弈”（Gaming）。

实验发现：这种策略在特定场景下是有效的。通过根据 LLM 的反馈修改论文，作者能够显著提升论文在 LLM 评审中的得分。
量化结果：数据显示，对于高达 35% 的论文，经过基于 LLM 反馈的迭代修改后，其总体评分出现了统计上显著的 increase（提升）。

3. 研究方法论

数据来源：实验基于 2025 年 ACL Rolling Review (ARR) 的论文数据。
双重视角：同时从作者（修改者）和审稿人（评估者）的角度出发，全面评估 LLM 评论的实际效用。
开源承诺：研究团队已公开相关代码，以促进后续研究复现与扩展。

关键要点

双向 AI 介入已成常态：学术出版中，LLM 不仅被审稿人使用，也被作者广泛用于论文修改，形成了“AI 审 AI 改”的潜在闭环。
对齐性并非绝对可靠：LLM 评论与人类专家意见的一致性有限，且受提示词工程和模型选择的强烈影响，不能简单地将 LLM 评分等同于人类专家评分。
“刷分”风险真实存在：作者可以通过针对性地根据 LLM 反馈修改论文，显著提升 LLM 给出的评分。这一现象在 35% 的样本中导致了统计显著的分数提升。
评审系统的脆弱性：如果会议官方采用 LLM 作为主要或辅助评审工具，可能会面临作者通过算法优化“操纵”评审结果的风险，从而削弱评审的公正性和有效性。
代码与数据开源：研究团队已发布相关代码，支持社区进一步验证和探索 LLM 在学术评审中的行为模式。

意义与影响

这项研究对当前 AI 辅助学术出版的实践具有重要的警示和指导意义：

对会议组织者的警示：如果顶级会议（如 ACL、NeurIPS 等）计划大规模引入 LLM 作为官方评审工具，必须警惕“博弈”效应。简单的 LLM 评分可能无法真实反映论文质量，因为作者可以通过优化论文以迎合 LLM 的偏好来获得高分。会议需要设计更复杂的评估机制，或结合人类专家复核，以抵消算法操纵的风险。
对 LLM 作为评审工具可靠性的质疑：研究揭示了 LLM 评论与人类评论对齐性的不稳定性。这表明，目前 LLM 尚不能独立承担需要高度一致性和公平性的评审任务。不同模型、不同提示词导致的评分差异，可能引入新的偏见和不公。
对学术诚信的挑战： “博弈”现象的发现表明，AI 可能成为学术不端的新工具。作者可能不再专注于提升论文的实质科学价值，而是专注于优化论文表述以通过 LLM 的“检查”。这要求学术界重新思考如何定义和评估“论文质量”，以及如何在 AI 时代维护学术诚信。
未来研究方向：该研究为后续工作提供了基础。未来的研究可以探索如何设计更具鲁棒性的 LLM 评审系统，使其对“博弈”行为不敏感；或者开发能够识别作者是否利用 AI 进行针对性修改的检测机制。此外，研究也呼吁社区共同探索如何在开放、卓越和用户数据隐私的前提下，利用 AI 工具提升学术出版效率，同时防范其潜在风险。

查看原文 →arxiv.org