GitHub 热榜GitHub Trending · 日·5 小时前

PaddleOCR：面向AI的结构化文档解析工具

原标题：PaddlePaddle/PaddleOCR

Python★ 79,542 stars+105 今日

速览

PaddleOCR是一款轻量级且强大的OCR工具包，支持100多种语言，能够将非结构化的图像和PDF文档转换为结构化数据。它特别适用于需要结合大语言模型（LLMs）进行文档智能处理、RAG（检索增强生成）数据预处理等场景。

AI 深度解读

这是什么

PaddleOCR 是由百度飞桨（PaddlePaddle）团队开源的工业级多语言 OCR（光学字符识别）工具包。作为 GitHub 上拥有超过 79,500 Star 的顶级开源项目，它已从传统的 OCR 工具演进为面向大语言模型（LLM）时代的文档结构化数据引擎。

该项目不仅提供高精度的文字识别能力，更通过引入视觉语言模型（VLM）和结构感知转换技术，能够将 PDF、图片甚至 Office 文档转化为 LLM 可直接消费的 JSON 或 Markdown 格式数据。它是构建智能 RAG（检索增强生成）和 Agentic（智能体）应用的基础设施，被 Dify、RAGFlow、Cherry Studio 等头部 AI 应用广泛采用。

解决的问题

在 LLM 时代，非结构化数据（如扫描件、复杂排版 PDF、图片）的获取与处理是主要瓶颈。PaddleOCR 旨在解决以下核心痛点：

非结构化数据到结构化数据的转化：传统 OCR 仅输出纯文本，丢失了文档的层级、表格、公式等结构信息。PaddleOCR 通过 PP-StructureV3 和 PaddleOCR-VL 系列模型，能够精准提取文本坐标、表格单元格、公式及图表，输出带有语义结构的 Markdown 或 JSON。
复杂场景下的识别精度与鲁棒性：解决自然场景（如街景、身份证、工业组件）、历史古籍、印章、生僻字以及多语言混合文档中的识别难题。
LLM 高质量数据供给：为 LLM 微调提供高保真的“数据飞轮”，解决训练数据清洗难、结构混乱的问题。
资源效率与部署成本：在保持商业级精度的同时，提供极小的模型 footprint，支持边缘端和云端的高效部署，降低对昂贵算力的依赖。

核心功能

1. SOTA 文档视觉语言模型 (PaddleOCR-VL 系列)

PaddleOCR-VL-1.6 (0.9B)：行业领先的轻量级文档解析 VLM。在 OmniDocBench v1.6 上准确率达到 96.3%，在文本、公式、表格识别上处于领先地位。特别增强了对古籍、生僻字、印章和图表的理解能力。
PaddleOCR-VL-1.5：引入 PP-DocLayoutV3 算法，支持不规则形状定位，能处理倾斜、弯曲、扫描、光照不均和屏幕翻拍等 5 类复杂场景。支持印章识别、文本定位及 111 种语言。
PaddleOCR-VL-0.9B：基于 NaViT 风格动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型构建，兼顾高精度与低资源消耗。

2. 结构感知转换 (PP-StructureV3)

将复杂 PDF 和图片无缝转换为 Markdown 或 JSON。
提供细粒度的坐标信息（如表格单元格坐标、文本框坐标），优于单纯的 VLM 输出，适合需要精确位置信息的下游任务。

3. 多语言与复杂元素识别 (PP-OCRv5)

多语言支持：原生支持 100+ 种语言，包括中文、英文、日文、拼音、拉丁文、西里尔字母、阿拉伯文、天城文等。
复杂元素识别：不仅限于标准文本，还支持自然场景文字定位（ID 卡、路牌、书籍、工业零件等）。
性能提升：PP-OCRv5 相比上一代准确率提升 13%，且保持“极致效率”。

4. 全链路数据处理与部署

Office 文档转换：支持将 Word、Excel、PowerPoint 转换为 Markdown。
DOCX 导出：解析结果可直接导出为 DOCX 格式，方便在 Microsoft Word 中查看和编辑。
浏览器端推理：发布 PaddleOCR.js，支持在浏览器中直接运行 PP-OCRv5，无需后端服务器。
灵活推理后端：支持 Paddle 静态图、动态图以及 Hugging Face Transformers 后端，20 多个主流模型支持 Transformers 推理。
硬件适配：支持 NVIDIA GPU、Intel CPU、昆仑芯 XPU 及各类 AI 加速卡。

亮点 / 与同类相比

精度与效率的平衡：在 OmniDocBench 等公开基准测试中，PaddleOCR-VL 系列在文本、公式、表格识别上超越众多闭源解决方案，同时保持极低的资源占用，适合边缘部署。
LLM 原生友好：不同于传统 OCR 工具，PaddleOCR 从设计之初就考虑了 LLM 的需求，直接输出结构化数据（JSON/Markdown），简化了 RAG 应用中的数据预处理流程。
生态集成深度：与 Dify、RAGFlow、Pathway、Cherry Studio 等 AI Agent 框架深度集成，成为构建智能应用的首选数据引擎。
持续迭代与开源贡献：从 3.2.0 到 3.5.0 的快速迭代中，不断引入 SOTA 模型（如 VL-1.6），并增强对 Hugging Face 生态的支持，社区活跃度高。
多模态能力扩展：不仅限于 OCR，还涵盖了文档版面分析、表格识别、公式识别、印章识别、图表理解等多种视觉任务。

适合谁用 / 上手

适合谁用

RAG 应用开发者：需要高效、高精度地将 PDF/图片文档转化为 LLM 可理解的向量或文本块。
AI Agent 构建者：需要结构化数据源来驱动智能体进行文档问答、信息提取等任务。
企业 IT 部门：需要处理大量历史文档数字化、发票识别、表单自动化等场景，且对部署成本敏感。
学术研究人员：需要最新的文档解析 SOTA 模型进行基准测试或算法改进。

如何上手

环境准备：安装 PaddlePaddle 或支持 Transformers 的 Python 环境。
模型选择：
- 对于高精度文档解析，推荐使用 PaddleOCR-VL-1.6 或 PaddleOCR-VL-1.5。
- 对于轻量级、多语言文本识别，使用 PP-OCRv5 系列模型。
- 对于需要保留复杂结构（如表格坐标）的场景，使用 PP-StructureV3。
部署方式：
- 云端/服务器：通过 Python SDK 调用，支持 GPU/CPU 加速。
- 边缘/前端：使用 PaddleOCR.js 在浏览器中直接运行，实现零后端部署。
- 集成框架：在 Dify 或 RAGFlow 中直接配置 PaddleOCR 作为文档解析插件。
资源获取：模型权重可在 HuggingFace 或 PaddleOCR 官网下载。

查看原文 →github.com