AI 资讯Hacker News·2 小时前

你的论文真的写得烂吗？

原标题：Does Your Paper Really Suck?

速览

本文以讽刺性标题质疑学术论文的写作质量。旨在引发对学术写作标准和评审过程的反思。

AI 深度解读

Does Your Paper Really Suck? —— 深度解读 QED Score 的科学性争议

背景

随着预印本服务器和期刊上发表的新研究数量激增，科学家们正面临着前所未有的信息过载。传统的论文筛选信号——如期刊声誉、会议级别和所属机构——在判断论文质量时的可靠性正在下降。与此同时，生成式 AI 的普及使得大规模生产看似合理但实质空洞的科学写作变得容易，这进一步加剧了甄别高质量研究的难度。

在此背景下，像 QED Science 这样的公司开始构建基于 AI 的工具，旨在帮助科学家识别高质量的工作。QED 利用大型语言模型（LLMs）对科学论文进行审查并提供反馈。许多科学家表示，这些 AI 反馈具有实用性，且常类似于人类同行评审中的意见。

近期，QED 发布了一份白皮书，推出了所谓的“QED Score”（QED 评分）。这是一个旨在衡量论文质量的单一数值指标。该评分通过提示一组 LLMs 从“原创性”和“有效性”两个维度审查论文，并将评估结果整合而成。QED 声称，与期刊排名相比，QED 评分能提供更准确、更快速且偏差更小的论文质量估算。

然而，一篇发表在 Hacker News 上的深度评论文章对这一主张提出了严厉质疑。作者通过评估 QED 白皮书中提供的三项验证研究，认为现有证据并不支持 QED 评分比传统指标更准确或偏差更小的说法，并指出了其中存在的地理偏见问题。

核心内容

该评论文章对 QED 提出的三项验证研究进行了逐一拆解，指出了方法论上的缺陷和逻辑矛盾，并揭示了评分系统中存在的地理偏见。

案例研究 1：方法论不透明，无法证明有效性

在第一个案例研究中，作者使用了一个由专家小组标记的 975 篇已发表论文的数据集，标签分为“有限（Limited）”、“满意（Satisfactory）”和“强（Strong）”。专家的身份未公开，标签基于有效性和原创性，这与 QED 评分的标准一致。研究比较了 QED 评分和 SCImago 期刊排名（SJR）预测这些标签的能力。结果显示，QED 在区分“有限”与“满意+强”论文时的 AUC 为 0.863，而 SJR 为 0.804；在区分“强”与“满意+有限”论文时，QED 为 0.782，SJR 为 0.774。

尽管数值上 QED 略高，但评论指出这些结果无法被有意义地解读，原因如下：

缺乏数据透明度：未报告标签分布，未说明专家是否对期刊、作者或机构身份盲审。
无法复现：未提供数据或代码以复现分析。
数据泄露风险：未保证用于评估的论文已排除在训练 LLM 的数据集之外。因此，该案例研究未能确立 QED 评分对科学质量的准确测量能力。

案例研究 2：证据不一致，逻辑自相矛盾

第二个案例研究比较了 2,879 篇 bioRxiv 预印本的 QED 评分与其最终发表期刊的 SJR 分数。整体斯皮尔曼相关系数为 0.63。但在不同领域内，相关性差异巨大：从遗传学的 0.78 到系统生物学的 0.39 不等。

作者将整体一致性描述为“实质性”，并将某些领域的一致性较弱归因于 SJR 是质量的“嘈杂代理”。评论指出这一论点存在内部逻辑矛盾：

如果 SJR 是科学质量的合理代理，那么跨领域的一致性较弱意味着 QED 评分也是质量的弱代理。
如果 SJR 是科学质量的嘈杂代理，那么与 SJR 的一致性就不能用来验证 QED 评分。无论哪种情况，正如作者自己所承认的，该分析并未确立 QED 评分作为质量准确度量的地位。

案例研究 3：存在未控制的变量，可能产生偏差

第三个研究要求 15 位领域专家比较 QED 和 SJR 评分分歧最大的论文对。作者计算了 QED 评分与 log(SJR + 1) 的差值，保留了分歧最强的 100 对，其中只有 70 对获得了专家“自信”的判断，其余 30 对被丢弃。结果显示，专家偏好高分 QED 论文的比率是高分 SJR 论文的三倍左右。

评论指出该实验引入了多个未控制且未解释的变异来源：

指标层级不同：QED 评分是针对预印本的论文级指标，而 SJR 是针对期刊的期刊级指标，且 SJR 是在同行评审后分配的。
混淆变量：比较是在两篇不同的论文之间进行的，专家偏好可能取决于写作风格、主题或对领域的熟悉程度，而非科学质量本身。
筛选标准不明：作者未解释“自信”是如何定义的，也未说明为何丢弃 30% 的比较结果。因此，该案例研究不足以证明 QED 评分的优越性。

地理偏见：对非洲和南美科学家的系统性歧视

QED 评分不仅仅是一个内部指标，其公开发布的 bioRxiv 预印本前 1% 排名揭示了显著的地理偏见，特别是针对非洲和南美科学家。

数据差异：白皮书称 QED 对 57,455 篇 bioRxiv 预印本进行了评分，但公开网站仅包含 53,938 篇（前 1% 中有 571 篇，其余 99% 中有 53,367 篇），这一差异未得到解释。
排名结果：QED 网站根据作者隶属关系分配地理区域。由于只要有一位作者具有非洲隶属关系，论文即可被归类为非洲，筛选结果显示，前 1% 中仅有 3 篇论文被归类为非洲。
缺乏主导机构：这 3 篇论文中没有一篇是由非洲机构主导的：
1. 第一篇 TENM4 is an essential transduction component for touch：20 位作者主要隶属德国，因一位作者有埃及次要隶属关系而被归类为非洲。
2. 第二篇 Memory Regulatory T Cells Reprogram into Protective Tfh-like Effectors in Recurrent Malaria：10 位作者中仅 1 位有非洲隶属关系。
3. 第三篇 Modular and redundant genomic architecture...：11 位作者中仅 1 位有非洲隶属关系。
反例：相比之下，论文 Inflammatory Biomarkers of Asymptomatic and Symptomatic Tuberculosis 针对主要影响撒哈拉以南非洲的疾病，包含 28 位主要隶属非洲的作者，仅 6 位主要隶属欧洲或北美。尽管该论文涉及重要健康问题，但其排名情况未在截断文本中完全展示，但意在对比说明非洲主导的高质量研究未被充分认可。

关键要点

AI 辅助评审的兴起：面对论文数量激增和 AI 生成内容的干扰，QED Science 等公司推出基于 LLM 的 AI 评审工具，试图通过单一数值（QED Score）量化论文质量。
验证证据薄弱：QED 白皮书中提供的三项验证研究均存在严重的方法论缺陷。案例研究 1 缺乏透明度和复现性；案例研究 2 逻辑自相矛盾；案例研究 3 存在未控制的混淆变量和选择性报告偏差。
无法证明优越性：现有数据不足以支持 QED 评分比传统期刊排名（如 SJR）更准确或偏差更小的主张。QED 在预测专家标签上的微弱优势可能源于数据泄露或统计噪音，而非真正的质量衡量能力。
显著的地理偏见：QED 的公开排名显示了对非洲和南美科学家的系统性忽视。前 1% 的论文中几乎没有由非洲机构主导的研究，即使存在由非洲机构主导且针对该地区高发疾病的高质量研究，也未获得相应认可。
指标层级错配：QED 评分是论文

查看原文 →sina.bio