技术博客arXiv cs.CL·3 小时前

大模型科学同行评审：方法、基准与可靠性挑战

原标题：LLM-Based Scientific Peer Review: Methods, Benchmarks, and Reliability Challenges

速览

本文系统分析了大语言模型在科学同行评审中的批判生成与评分预测功能。研究揭示了提示注入、数据投毒等鲁棒性风险，并指出当前数据集与评估方法的局限性。该综述为构建稳健、透明的AI辅助科学评估系统提供了路线图。

随着科学论文提交量的激增，传统的同行评审（Peer Review）制度正面临可扩展性的极限。为了应对这一挑战，学术界开始探索利用大型语言模型（LLMs）作为智能自动化评估助手，以期提高评审效率。

尽管近期研究表明，LLMs 能够生成流畅的批评意见，并在一定程度上近似人类评审员的评分，但其在作为决策支持系统时的可靠性、鲁棒性以及安全性仍未得到充分理解。现有的研究多集中于性能指标的提升，而缺乏对系统级风险和数据偏差的全面审视。

本文是一篇关于基于 LLM 的科学同行评审的系统性综述，旨在从系统层面分析 LLM 在该领域的应用现状。文章主要聚焦于两个核心评估功能：批评意见生成（Critique Generation）和评分预测（Score Prediction）。

文章提出了一种结构化的分类法，将当前的建模方法归纳为以下四类：

文章综合了现有基准测试中的实证发现，指出当前评估实践存在以下局限性：

除了性能指标，文章重点识别了自动化评审管道中新兴的鲁棒性风险，这些风险可能导致系统受到战略性操纵：

从数据挖掘的角度，文章指出了两个关键的开放性问题：

文章最终将自动化同行评审重新定义为一种高风险、多目标的决策问题，并为此提供了开发稳健、透明且可信的 AI 辅助科学评估系统的路线图。

双核心功能：LLM 在科学评审中的主要任务被界定为“生成批评意见”和“预测评分”，这两者构成了自动化评审的基础。
方法多样性：当前技术路线涵盖了从简单的 Prompt Engineering 到复杂的监督微调和 RLHF 对齐优化，不同方法各有优劣。
现有评估的三大缺陷：
1. 数据集存在约束，无法覆盖所有科学场景。
2. 评估体系存在短板，缺乏对深层逻辑和准确性的严格测试。
3. 数据分布不均，导致模型在特定领域（如 CS）表现良好，但在其他领域泛化能力差。
安全与鲁棒性是核心痛点：
- 自动化评审管道极易受到提示注入和数据中毒的攻击。
- 奖励黑客现象表明，模型可能学会“作弊”以获取高分，而非提供高质量评审。
- 检索增强架构引入了额外的检索漏洞风险。
重新定义问题本质：科学评审不应仅被视为文本生成或分类任务，而应被视为一个高风险、多目标的决策问题，需要兼顾准确性、公平性、透明度和安全性。
未来研究方向：重点在于解决主观分歧的建模以及提升跨领域的泛化能力，以构建真正可信的 AI 辅助系统。

这篇综述不仅是对现有技术的总结，更是对 AI 介入科学核心流程的一次深刻反思。其意义在于：

警示风险：在追求效率的同时，明确指出了 LLM 作为决策支持系统的安全隐患，特别是针对战略性操纵的防御机制尚不完善。
确立标准：通过梳理建模方法和基准测试，为后续研究提供了清晰的技术路线图和评估框架。
推动信任建设：强调“透明”和“可信”的重要性，指出未来的 AI 辅助评审系统必须能够解释其决策逻辑，并能够处理科学界固有的主观多样性。
跨学科启示：虽然主要基于计算机科学（cs.CL）视角，但其提出的鲁棒性挑战和泛化问题，对所有依赖 AI 进行专业评估的领域（如法律、医学）都具有重要的借鉴意义。

总之，该文章呼吁学术界在利用 LLM 提升评审效率的同时，必须高度重视其可靠性与安全边界，避免自动化系统成为科学严谨性的新威胁。