技术博客arXiv cs.AI·3 小时前

RWGBench：基于引文决策评估相关文献生成

原标题：RWGBench: Evaluating Scholarly Positioning in Related Work Generation

速览

现有相关文献生成评估多依赖文本相似度，难以捕捉引文选择等学术定位问题。研究推出RWGBench基准，基于4万余篇论文构建，从引文选择、语境适宜性等维度进行评估。实验表明该基准能更准确反映专家判断，揭示当前模型在引文层面的系统性局限。

AI 深度解读

RWGBench：评估相关工作生成中的学术定位能力

背景

随着大型语言模型（LLMs）在科学写作中展现出卓越的流畅性，学术界对自动化生成“相关工作”（Related Work, RW）部分的关注日益增加。然而，目前针对相关工作生成（RWG）的评估体系仍然滞后且存在显著缺陷。

现有的评估方法大多沿用了面向摘要生成的指标，主要依赖文本与参考章节之间的词汇或语义相似度来代理质量评估。这种“表面相似性”导向的评估逻辑存在根本性的误区：相关工作写作本质上是一个引用级别的学术定位任务。它要求模型不仅生成连贯的文本，更需从海量文献中精准选择、组织并构建框架，以阐明目标论文与现有研究的关系、差异以及超越之处。

由于缺乏针对这一核心能力的评估标准，现有的语言模型往往能生成语义相关且通顺的文本，但在学术严谨性上却存在致命缺陷，例如引用选择不当、参考文献位置错置等。这些“学术性失败”是传统的基于文本相似度的指标无法捕捉的。为了解决这一痛点，研究人员提出了 RWGBench，旨在从引用决策的角度重新评估相关工作生成系统。

核心内容

RWGBench 是一个全新的基准测试平台，其核心设计理念是从“文本相似度”转向“引用决策”。该基准通过以下维度构建了一套多维度的评估框架，全面衡量模型在生成相关工作时的表现：

数据集构建：
- RWGBench 基于一个包含 40,108 篇计算机科学论文的大规模集合构建。
- 检索语料库包含 109 万份文档。
- 精心策划的测试集由 100 篇论文及其对应的已发表相关工作部分组成。
多维度评估框架：该框架不再仅仅关注生成的文本是否像原文，而是深入评估以下四个关键维度：
- 引用选择（Citation Selection）：模型是否选择了正确、相关且必要的参考文献？
- 语境适宜性（Contextual Appropriateness）：引用的文献是否被正确地置于当前的学术语境中？
- 组织结构（Organization）：相关工作部分的逻辑结构是否清晰、合理？
- 话语构建（Discourse）：模型是否有效地构建了学术话语，以展示目标论文的贡献？
主要发现与研究结果：
- 揭示系统性局限：RWGBench 揭示了当前系统在引用决策方面的系统性缺陷，这些缺陷在标准的文本相似度评估中被掩盖了。
- 瓶颈解耦：通过“Oracle 研究”（即假设拥有完美检索结果的情况），研究人员成功解耦了检索层面和生成层面的瓶颈，明确了当前模型在哪个环节存在不足。
- 人类评估验证：人类专家评估结果显示，基于引用的核心指标与专家判断的一致性远高于表面级的文本指标。这证明了 RWGBench 提出的指标更能反映真实的学术写作质量。

关键要点

评估范式的转变：RWGBench 标志着相关工作生成评估从“文本相似度代理”向“引用决策质量”的根本性转变。
学术定位的核心地位：相关工作生成的本质是“学术定位”，即通过引用选择和组织来界定目标论文在学术版图中的位置，而非简单的文本复述。
现有指标的盲区：传统的基于词汇或语义相似度的指标无法捕捉引用选择不当、参考文献错置等严重的学术性错误。
大规模数据支撑：该基准建立在超过 4 万篇 CS 论文和 109 万篇文档的庞大语料库之上，确保了评估的广度和代表性。
多维评估体系：引入了引用选择、语境适宜性、组织和话语四个维度，比单一指标更能全面反映生成质量。
与人类判断高度一致：实验证明，RWGBench 的引用中心指标比传统文本指标更贴合人类专家对学术写作质量的判断。
瓶颈识别能力：通过 Oracle 分析，该基准能够区分模型是在“找文献”（检索）还是“写文献”（生成）环节出错。

意义与影响

RWGBench 的提出为科学写作自动化领域提供了一个至关重要的引用中心测试床（Citation-centric Testbed）。其意义主要体现在以下几个方面：

对齐学术写作规范：现有的 LLM 评估往往忽视了科学写作的核心规范——即严谨的引用和定位。RWGBench 迫使模型和研究人员关注这一核心，使生成的系统更好地符合学术写作实践。
提升生成系统的可信度：通过暴露传统指标掩盖的引用错误，RWGBench 有助于开发更可靠、更严谨的学术辅助工具，减少“幻觉”引用或不当引用的风险。
指导模型优化方向：通过解耦检索和生成瓶颈，研究人员可以更针对性地优化模型架构。例如，如果瓶颈主要在检索，则需改进检索增强生成（RAG）策略；如果主要在生成，则需优化模型的逻辑组织和话语构建能力。
推动评估标准革新：RWGBench 为后续的自然语言处理研究树立了一个新的评估标杆，强调了在科学文本生成中，语义准确性和逻辑相关性应优先于表面的文本流畅度。

总之，RWGBench 不仅是一个评估工具，更是对当前 AI 科学写作能力的一次深刻反思，它强调了在自动化过程中保持学术严谨性和定位准确性的重要性。

查看原文 →arxiv.org