技术博客Hugging Face Blog·2 小时前

PP-OCRv6上线Hugging Face：参数量150万至3450万支持50种语言OCR

原标题：PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters

速览

百度PaddleOCR团队推出的PP-OCRv6模型现已在Hugging Face平台发布。该模型支持50种语言的OCR任务，参数量范围覆盖150万至3450万，旨在提供高效且多语言的文本识别能力。这一发布降低了多语言OCR模型的部署门槛，有助于推动相关技术在更广泛场景中的应用。

AI 深度解读

PP-OCRv6 深度解读：从 150 万到 3450 万参数的 50 语言通用 OCR 模型

背景

在视觉语言模型（VLM）蓬勃发展的当下，专用 OCR（光学字符识别）模型是否仍有价值？PP-OCR 团队通过最新一代通用 OCR 模型家族 PP-OCRv6 给出了肯定答案。PP-OCRv6 旨在解决现实世界中复杂的文本检测与识别需求，涵盖文档、截图、多语言图像、数字显示屏、工业标签及场景文本等多种场景。

与以往版本相比，PP-OCRv6 不仅大幅提升了精度，更在模型轻量化和部署灵活性上进行了深度优化。它提供了从 1.5M 到 34.5M 参数的三个层级（tiny、small、medium），并在 PaddleOCR 官方内部的多场景 OCR 基准测试中，显著超越了前代旗舰模型 PP-OCRv5_server。

核心内容

PP-OCRv6 的核心设计理念是在保持模型体积适合不同部署环境的前提下，最大化 OCR 准确率。该模型家族在架构、训练策略和数据层面均进行了全面升级。

1. 统一的骨干网络与层级架构

PP-OCRv6 采用 PPLCNetV4 作为文本检测和文本识别的统一骨干网络（Backbone）。这一设计确保了模型家族内部的一致性：Tiny、Small 和 Medium 层级并非互不相关的独立模型，而是共享共同架构方向的同一 OCR 家族成员。这种一致性简化了开发者的选型和集成过程。

2. 检测模块升级：RepLKFPN

文本检测是 OCR 流水线的第一阶段，检测质量直接决定送入识别器的裁剪图像（crops）质量，进而影响最终识别效果。

技术改进：PP-OCRv6 引入了 RepLKFPN，这是一种专为多尺度文本检测设计的轻量级大核特征金字塔网络。
适用场景：该改进特别针对现实世界中常见的挑战，如小文本、密集文本、旋转文本、低分辨率文本以及复杂背景下的文本嵌入。

3. 识别模块升级：EncoderWithLightSVTR

在文本识别阶段，PP-OCRv6 采用了 EncoderWithLightSVTR。

技术原理：该模块结合了局部上下文建模与全局注意力机制，旨在提升对具有挑战性文本裁剪图像的识别质量。
适用场景：在多语言文本、屏幕文本、工业字符、特殊符号、密集文本及噪声图像区域等场景中表现尤为突出。

4. 多语言支持

PP-OCRv6 的 Medium 和 Small 层级支持 50 种语言，包括简体中文、繁体中文、英语、日语以及 46 种拉丁字母脚本语言。这一特性显著减少了在多语言 OCR 场景中维护多个独立模型的需求。

5. 性能基准对比

在 PaddleOCR 官方内部的多场景 OCR 基准测试中，PP-OCRv6_medium 取得了以下成绩：

文本检测 Hmean 达到 86.2%。
文本识别准确率达到 83.2%。
相比 PP-OCRv5_server，文本检测性能提升 +4.6 个百分点，文本识别性能提升 +5.1 个百分点。

6. 灵活的部署与后端支持

PP-OCRv6 通过 PaddleOCR 提供了多种推理后端选项，以适应不同的运行环境：

Paddle Inference（默认后端）：使用 PaddlePaddle 原生推理引擎，适合大多数 Python 环境。

from paddleocr import PaddleOCR
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
for res in result:
    res.print()
    res.save_to_img("output")
    res.save_to_json("output")

输出结果可保存为可视化图像或结构化 JSON，便于下游系统（如文档解析、搜索、提取、RAG、分析或 Agent 工作流）使用。

Transformers 后端：对于 Hugging Face 用户，PaddleOCR 3.7 提供了统一的推理引擎接口，支持通过 engine="transformers" 运行选定的 OCR 和文档解析模型。
```
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine="transformers",
)
```

ONNX Runtime 后端：在 PP-OCRv6 Collection 中提供了 ONNX 变体，适用于通过 engine="onnxruntime" 使用 ONNX Runtime 的环境。

ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine="onnxruntime",
)

关键要点

模型家族化：PP-OCRv6 提供三个层级（Tiny, Small, Medium），参数量从 1.5M 到 34.5M 不等，共享 PPLCNetV4 骨干网络，架构一致。
精度显著提升：相比 PP-OCRv5_server，PP-OCRv6_medium 的检测 Hmean 提升 4.6%，识别准确率提升 5.1%。
50 语言支持：Small 和 Medium 层级支持 50 种语言，覆盖中、英、日及 46 种拉丁语系语言，减少多语言模型维护成本。
架构创新：
- 检测端使用 RepLKFPN 处理多尺度、密集、旋转及低质文本。
- 识别端使用 EncoderWithLightSVTR 结合局部与全局注意力，提升复杂场景识别率。
多后端兼容：支持 Paddle Inference（默认）、Transformers 和 ONNX Runtime 三种后端，通过 PaddleOCR 3.7 的统一接口灵活切换。
结构化输出：支持输出可视化图像和结构化 JSON，无缝对接下游 RAG、Agent 等工作流。
资源获取：模型资产（包括 safetensors、Paddle 推理模型和 ONNX 模型）已托管于 Hugging Face Hub 的 PP-OCRv6 Collection。

意义与影响

PP-OCRv6 的发布标志着通用 OCR 模型在精度与效率之间取得了新的平衡。其意义主要体现在以下几个方面：

专用模型在 VLM 时代的持续价值：PP-OCRv6 证明了在需要高精度、结构化输出和特定部署约束（如边缘设备、低延迟）的场景中，专用 OCR 模型依然具有不可替代的优势。
降低多语言 OCR 门槛：通过单一模型支持 50 种语言，极大地简化了全球性应用中的文本处理流程，无需为不同语言维护独立模型，降低了部署和维护成本。
灵活的工程落地能力：提供从轻量级 Tiny 模型到高性能 Medium 模型的完整梯度，以及多种推理后端支持，使得开发者可以根据硬件资源（CPU/GPU/边缘设备）和框架偏好（Paddle/Transformers/ONNX）灵活选择最佳方案。
促进下游应用集成：结构化 JSON 输出和与 Hugging Face 生态的紧密集成，使得 PP-OCRv6 更容易嵌入到现代 AI 应用栈中，如 RAG（检索增强生成）和智能 Agent 系统，加速 OCR 技术在实际业务中的落地。

开发者可以通过 PP-OCRv6 Online Demo 在线体验，或在 [Hugging Face Hub](https://huggingface

查看原文 →huggingface.co