低资源马耳他语 OCR 论文:多流投票引擎实现70%字符错误率降低
速览
马耳他语作为低资源语言,缺乏大量标注PDF语料,仅57页。为此,作者构建合成训练流水线,开发5流Tesseract集成在词典锚定ROVER风格投票机制下的LV-ROVER-MLT方案。论文提交至DocEng 2026竞赛,Dev-set基准上字符错误率较Tesseract微调基线下降70%至0.00700。方法还验证匈牙利语和卢森堡语,证实多流投票对低资源OCR的普适性。
AI 深度解读
背景
Maltese 是一种低资源语言,尽管拥有自己的文本语料库和预训练语言模型,但可用的真实标注 PDF 语料库数量极少,仅有 57 页文档,远低于段落级训练所需规模。在缺乏大规模真实标注语料的情况下,研究者构建了合成训练流水线,并采用 5 流 Tesseract 集成在词典锚定、ROVER 风格的投票方案下进行投票融合。这种方法是针对低资源设置的工程化适配,命名为 LV-ROVER-MLT,是对 LV-ROVER 投票算法的适配版本,并提交至 DocEng 2026 竞赛。
核心内容
Maltese 虽然是低资源语言,但拥有自己的文本语料库和预训练语言模型,研究者仅知晓一个真实标注的 PDF 语料库,用于 OCR 训练,仅 57 页,远低于段落级训练所需要的规模。由于没有真实的语料可以大规模训练,研究者构建了一个合成训练管道,并使用了一个 5 流的 Tesseract 集成,在词典锚定和 ROVER 风格的投票方案下进行投票,这个方案是为低资源设置适配的。研究者称之为 Maltese 提交 LV-ROVER-MLT,这是一个对 LV-ROVER 投票算法的工程化适配版本,不是一个新的算法,提交给了 DocEng 2026 竞赛。以下是所有结果都是来自竞赛自身基准的开发集结果,竞赛的真实测试集 CER 目前未知,写作时无法报告一个。研究者在 422 段落的基准上报告了结果,与一个微调后的 Tesseract 基线相比,字符错误率 (CER) 为 0.0234。集成识别本身,在与基线相同的标签约定下评分,将字符错误率提高了 44%,降至 0.01317。后续的后期处理链条将 Tesseract 的直引号和破折号输出与基准的卷曲引号约定对齐,并添加一个阶段来恢复误读的音节符号,将完整流水线提升至字符错误率 0.00700,即下降了 70%。研究者还测试了相同的未修改方法在匈牙利语和卢森堡语上:引导和排列审计显示卢森堡语的字符错误率改善了 33.7%,而匈牙利语的边际改善为 0.8%,在统计上不显著。
关键要点
- Maltese 仅有一个真实标注的 57 页 PDF 语料库,远不足以训练段落级 OCR 模型,需依赖合成训练流水线。
- 采用 5 流 Tesseract 集成进行投票融合,融合方案为词典锚定的 ROVER 风格低资源适配版本,命名为 LV-ROVER-MLT(非全新算法)。
- 开发集上,集成 OCR 相较微调 Tesseract 基线(CER 0.0234)将 CER 降低 44% 至 0.01317。
- 完整管道通过直引号/破折号与卷曲引号约定对齐,以及音节符号误读恢复,CER 进一步降至 0.00700(70% 改进)。
- 相同方法在卢森堡语上验证,CER 改善 33.7%(统计显著);匈牙利语仅改善 0.8%,无统计显著性。
意义与影响
该工作针对低资源 OCR 领域提供了可复制的工程化解决方案,通过合成数据训练和多流集成投票,有效缓解了标注语料短缺问题,为 Maltese 等低资源语言的 OCR 技术发展奠定基础。LV-ROVER-MLT 的适配设计展示了如何将经典 ROVER 算法与词典引导相结合,在数据稀缺场景下实现显著 CER 下降(最高 70%),为文档处理竞赛和实际应用提供参考。该方法在卢森堡语上的扩展验证,进一步突出了跨语言的可迁移性,同时在匈牙利语上的边缘效果也揭示了统计显著性在低资源场景中的重要性,为后续研究提供了实证依据。整体而言,这项贡献不仅提升了 OCR 准确性,还为低资源语言处理生态系统注入实用工具,推动了学术与产业界在资源受限环境下文档智能化的应用。
