技术博客arXiv cs.CL·2 小时前

深度学习揭示多轮同行评审中情感演变与轮次关联

原标题：Aspect-Based Sentiment Evolution and its Correlation with Review Rounds in Multi-Round Peer Reviews: A Deep Learning Approach

速览

该研究通过挖掘Nature Communications中11063篇论文的同行评审文本，利用深度学习模型分析细粒度情感分布。研究发现，随着评审轮次增加，正面情感比例上升，负面情感下降，且情感得分与评审总轮次呈负相关。

AI 深度解读

基于深度学习的多轮同行评审中方面级情感演变及其与评审轮次的相关性研究

背景

同行评审（Peer Review）是科学出版流程的核心环节，旨在确保研究成果的质量与可信度。传统的学术出版研究往往侧重于宏观层面的指标，如接受率、审稿周期或最终评分。然而，评审意见（Review Comments）中蕴含的文本信息，特别是审稿人态度的细微变化，长期以来未被充分挖掘。

既往研究存在两个主要局限：

分析粒度粗糙：多将评审意见视为整体，进行粗粒度的正面/负面情感分析，忽略了审稿人在不同维度（如实验设计、创新性、写作质量）上的具体关注点。
缺乏动态视角：现有文献很少探讨在多轮评审过程中，审稿人的关注焦点和情感倾向是如何随时间（即评审轮次）演变的。

随着深度学习在自然语言处理（NLP）领域的突破，特别是方面级情感分析（Aspect-Based Sentiment Analysis, ABSA）技术的发展，为深入解析评审文本提供了新的工具。本研究旨在填补这一空白，通过量化多轮评审中方面级情感的分布与演变，揭示其与评审轮次之间的内在联系。

核心内容

本研究以顶级期刊 Nature Communications 上发表的 11,063 篇被接收论文的多轮评审意见为数据源，构建了一套完整的方面级情感分析框架，并深入分析了情感演变与评审轮次的关系。

1. 数据构建与预处理

数据来源：选取 Nature Communications 的 11,063 篇已接收论文，提取其多轮评审评论。
方面聚类：首先对评审文本进行细粒度的方面聚类（Review Aspect Clusters），识别出审稿人主要评价的维度（如“实验”、“研究意义”、“结果分析”等）。
标注数据集：构建了一个包含约 5,000 句评审句子的人工标注语料库，用于训练和评估模型。

2. 模型训练与评估

研究训练了一系列基于深度学习的方面级情感分类模型，以识别每个方面对应的正面、负面或中性情感。在多种模型对比中，LCF-BERT-CDM 模型表现最佳。

最佳性能：LCF-BERT-CDM 模型在测试集上达到了 82.65% 的 Macro-F1 分数。
技术优势：该模型结合了局部上下文过滤（Local Context Filtering）和交叉注意力机制，能够更精准地捕捉特定方面与其周围上下文之间的情感关联。

3. 情感演变与评审轮次的相关性分析

基于训练好的模型，研究对评审意见进行了情感打分，并进行了以下统计分析：

情感趋势演变：
- 随着评审轮次的增加，正面情感的比例呈上升趋势，而负面情感的比例则逐渐下降。
- 这一趋势表明，在多轮修改和反馈过程中，作者对审稿人意见的回应逐渐改善了稿件质量，或审稿人对修改后的稿件满意度提高。
相关性分析：
- 方面情感得分与总评审轮次呈负相关。即，评审轮次越多，平均情感得分越低（或者说，需要更多轮次才能接受的稿件，其初始或过程中的负面评价较多）。
- 关键方面识别：研究发现，以下三个方面的关联强度最高：
  1. 实验（Experiments）
  2. 研究意义（Research Significance）
  3. 结果分析（Result Analysis）
- 这意味着，审稿人在这些核心科学维度上的负面评价往往是导致评审轮次延长的主要因素。

关键要点

细粒度分析优于粗粒度：传统的整体情感分析掩盖了审稿人在不同维度上的具体态度，方面级情感分析能更精准地定位问题所在。
LCF-BERT-CDM 模型最优：在 Nature Communications 评审数据的方面级情感分类任务中，LCF-BERT-CDM 模型以 82.65% 的 Macro-F1 分数成为最佳基线模型。
正向演变规律：在多轮评审过程中，正面情感占比增加，负面情感占比减少，反映了稿件质量的迭代提升或共识的形成。
轮次与情感的负相关：总评审轮次与情感得分呈负相关，表明需要更多轮次修改的稿件通常伴随着更多的负面反馈。
核心痛点维度：“实验”、“研究意义”和“结果分析”是与评审轮次关联最紧密的三个方面，是审稿人最关注的核心科学要素。

意义与影响

1. 对学术出版流程的优化

本研究为理解同行评审的动态过程提供了量化依据。期刊编辑和审稿人可以利用方面级情感分析工具，快速识别稿件在哪些具体维度（如实验设计或数据分析）存在持续性问题，从而更有针对性地提出修改建议或做出决定。

2. 提升评审效率与公平性

通过识别“实验”和“研究意义”等关键方面的负面情感与评审轮次的强相关性，期刊可以优化审稿流程。例如，对于在核心科学维度上长期存在负面评价的稿件，可能更早地进入拒稿或深度复审程序，避免无效的多轮往返，提高出版效率。

3. 方法论的推广

该研究展示了一种将深度学习应用于学术出版分析的有效范式。不仅限于 Nature Communications，该方法可推广至其他科学期刊，甚至扩展到预印本平台（如 arXiv）的社区评审分析，为科学交流机制的研究提供新的数据驱动视角。

4. 作者指南的启示

对于科研人员而言，研究结果提示，在撰写和修改论文时，应特别重视“实验”的严谨性、“研究意义”的清晰阐述以及“结果分析”的深度。在这些方面提供充分、有力的证据，有助于减少因核心科学问题引发的多轮争议，加速论文发表进程。

查看原文 →arxiv.org