GitHub 热榜GitHub Trending · 日·11 小时前

allenai/olmocr：面向 LLM 数据集与训练的 PDF 线性化工具包

原标题：allenai/olmocr

Python★ 18,044 stars+295 今日

速览

olmocr 提供一套端到端的 PDF 线性化流水线，可将扫描版、复杂版式 PDF 高质量地转化为干净、结构化的纯文本，直接用于 LLM 的预训练或指令微调数据集构建。它集成了 OCR、版面分析与文本重排能力，支持批量处理与高效并行，适合大规模语料制备场景。

AI 深度解读

这是什么

olmOCR 是 Allen Institute for AI (Ai2) 开源的文档线性化工具包，基于 7B 参数的视觉语言模型 (VLM) 构建，专门用于将 PDF、PNG、JPEG 等图像类文档转换为结构化的 Markdown 纯文本。项目于 2025 年 2 月首次公开发布，目前 GitHub 星标已超 18,000。

与传统的 OCR 引擎（如 Tesseract、PaddleOCR）不同，olmOCR 采用端到端的 VLM 方案，将文档图像直接送入模型进行语义理解与文本生成，而非先识别字符再重组版面。该项目配套发布了 olmOCR-Bench 基准测试集，覆盖 1,400 份文档、7,000+ 测试用例，用于评估文档转换系统的真实性能。

解决的问题

传统文档 OCR 在以下场景表现不佳，olmOCR 正是针对这些痛点设计：

复杂版面还原：学术论文、技术报告常见的多栏布局、侧边栏、跨页表格，传统 OCR 容易打乱阅读顺序或丢失结构信息。
数学公式与表格：LaTeX 公式、矩阵、表格在传统 OCR 中识别率低，olmOCR 能直接输出 Markdown 兼容的公式和表格语法。
页眉页脚干扰：扫描文档中的页码、页眉、水印常被误识别为正文内容，olmOCR 可自动过滤。
手写体与混合排版：对打印-手写混合、字体变化频繁的文档有更好的鲁棒性。
成本与效率平衡：传统方案要么精度高但成本昂贵（如商业 API），要么免费但质量差。olmOCR 声称处理百万页成本低于 200 美元。

核心功能

| 功能 | 说明 | |------|------| | 多格式输入 | 支持 PDF、PNG、JPEG 等图像类文档 | | Markdown 输出 | 生成结构化 Markdown，保留标题、列表、表格、代码块等语义 | | 公式识别 | 将数学公式转换为 LaTeX 语法，嵌入 Markdown | | 表格重建 | 识别复杂表格结构，输出 Markdown 表格或 HTML 表格 | | 自然阅读顺序 | 即使存在多栏、插图、跨页内容，也能按人类阅读习惯排序 | | 自动清理 | 移除页眉、页脚、页码、水印等无关元素 | | 批量处理 | 支持本地目录、通配符匹配、AWS S3 大规模并行处理 | | 远程推理 | 可对接 vLLM 服务器或兼容 OpenAI API 的推理服务 |

版本演进关键节点：

v0.2.1：默认启用 FP8 量化，推理速度显著提升，重试次数减少
v0.3.0：修复空白文档幻觉和自动旋转检测问题
v0.4.0：引入合成数据与 RL 训练，olmOCR-bench 分数提升约 4 分

亮点 / 与同类相比

1. VLM 方案 vs 传统 OCR 流水线 传统 OCR 通常采用「检测→识别→版面分析→后处理」的多阶段流水线，误差累积严重。olmOCR 使用单一 VLM 模型端到端处理，对复杂版面的语义理解更连贯。

2. 成本效益 基于 7B 参数模型，在单张 RTX 4090 上即可运行，百万页处理成本低于 200 美元，远低于 Google Document AI、Azure Form Recognizer

查看原文 →github.com