← 返回信息流
技术博客arXiv cs.CL·1 小时前

Revising RVL-CDIP: Quantifying Errors and Test-Train Overlap

AI 深度解读

背景

RVL-CDIP(Ryerson Vision Lab Complex Document Information Processing)是文档分类领域最广泛使用的大规模基准数据集之一,包含 16 个类别的数百万张文档图像。长期以来,研究人员和工业界依赖该数据集来评估和对比文档分类模型的性能。然而,大规模数据集往往伴随着数据质量问题,如标签错误和测试-训练重叠(数据泄露),这些问题会虚高模型指标,并误导对模型真实泛化能力的判断。本文针对 RVL-CDIP 数据集展开了严格的审计与修订工作。

核心内容

RVL-CDIP 数据集存在大量的标签错误以及不可忽视的测试集与训练集重叠问题,这两者均可能对模型性能指标产生干扰。本文针对这两个核心问题展开了系统性的量化与修复工作:

  1. 标签错误的发现与修复:研究者对数据集中的标注进行了严格审查,识别并修正了错误的标签。
  2. 测试-训练重叠的检测与处理:研究者检测了测试集与训练集之间的重复样本,并生成了去重后的数据集变体。

基于上述工作,研究者生成了多个不同修复版本的 RVL-CDIP 数据集,并在这些新变体上重新进行了文档分类的基准测试。

研究得出的关键量化结果令人警醒:

  • 标签错误率:RVL-CDIP 语料库中存在高达 12% 的标签错误。
  • 测试-训练重复率:测试集与训练集之间存在约 35% 的重复样本。

在性能评估方面,研究者观察到了截然相反的两种现象:

  • 修复标签错误后,分类准确率得到了提升。
  • 去除重复样本后,分类准确率反而出现了下降。

此外,研究者还进一步在 RVL-CDIP-N(一个分布外/OOD 基准数据集)上评估了模型表现。结果表明,使用纠错后的数据进行训练,能显著提升模型的 OOD 泛化能力。监督模型的平均准确率提升了

查看原文 →arxiv.org