AI 资讯雷峰网·4 小时前

百度发布PP-OCRv6：浏览器端97毫秒OCR，综合性能全球第一

原标题：97毫秒！百度 PP-OCRv6 把 OCR 带进毫秒时代

速览

百度文心正式发布新一代OCR模型PP-OCRv6，推出Tiny、Small、Medium三档模型，支持50多种语言。其中Tiny模型仅1.5MB，可在浏览器端实现97毫秒极速识别，兼顾隐私与效率。该模型在文本检测和识别任务上刷新纪录，综合性能位居全球第一，领先于Qwen3-VL、GPT-5.5等主流多模态大模型。

AI 深度解读

背景

作为百度文心大模型多模态能力的重要拼图，PP-OCR 系列近年来持续推动文本检测与识别技术的迭代升级。从 PP-OCRv1 到 PP-OCRv6，该系列模型不仅在精度上不断突破，更在轻量化与多场景适配上取得了显著进展。目前，PP-OCR 系列所在的 PaddleOCR 项目已支持超过 110 种语言识别，服务覆盖全球 170 多个国家和地区，在 GitHub 上的 Star 数量突破 8.22 万，超越谷歌旗下的开源 OCR 标杆产品 Tesseract OCR，成为全球最受关注的开源 OCR 项目之一。

核心内容

近日，百度文心正式发布新一代 OCR 模型 PP-OCRv6。此次发布一次性推出了 Tiny、Small、Medium 三档模型，旨在覆盖从浏览器端、嵌入式设备到服务器等主流应用场景，并支持 50 多种语言。

在性能表现上，PP-OCRv6 再次刷新了 OCR 领域的评测纪录，综合性能位居全球第一。具体数据显示，PP-OCRv6 在文本检测和文本识别任务中分别取得了 86.2 和 83.2 的成绩，双双超越了此前由 PP-OCRv5 保持的最佳水平。在与国内外主流多模态大模型的对比中，PP-OCRv6 的整体表现领先于 Qwen3-VL-235B、GPT-5.5、Gemini-3.1-Pro 等模型，在 OCR 这一专业任务上展现出更强的竞争力。

其中，PP-OCRv6 Tiny 模型尤为引人注目。其模型尺寸仅为 1.5MB，可直接部署于本地浏览器环境中，单图预测最快仅需 97 毫秒。这种极致的轻量化使得用户数据无需上传至云端即可完成 OCR 处理，在保障隐私安全的同时，大幅降低了部署门槛。有开发者评价称，PP-OCRv6 可能是全球唯一可在浏览器环境运行的高精度 OCR 模型。这一特性为 AI Agent 提供了“视觉感知”能力，使其能够在智能办公、教育、工业等场景中提供更加轻量、高效的视觉处理能力。

目前，PP-OCRv6 已上线 PaddleOCR 官网，用户可通过网页或 API 方式快速使用。同时，代码和模型权重也已开源至 GitHub 和 HuggingFace，供广大用户下载和使用。凭借轻量化和高精度的特点，PP-OCR 系列已被广泛集成至 UmiOCR、MinerU、TurboOCR 等业界 OCR 工具链中，广泛应用于文档解析、数据处理、知识库构建等场景，成为开发者和企业常用的开源 OCR 解决方案，同时也为各大模型团队的数据预处理、文档解析和知识提取提供了重要支持。

关键要点

极致轻量化与速度：PP-OCRv6 Tiny 模型仅 1.5MB，支持在本地浏览器环境直接运行，单图预测最快仅需 97 毫秒，实现了“端侧”高精度 OCR。
隐私安全与低门槛：由于支持本地部署，用户数据无需上传云端，既保障了数据隐私，又大幅降低了技术部署门槛。
性能全球领先：在文本检测和识别任务中分别取得 86.2 和 83.2 的成绩，刷新自身保持的纪录，综合性能超越 Qwen3-VL-235B、GPT-5.5、Gemini-3.1-Pro 等主流多模态大模型。
多场景与多语言支持：提供 Tiny、Small、Medium 三档模型，支持 50 多种语言，覆盖浏览器、嵌入式设备及服务器等多种主流场景。
生态影响力：PaddleOCR 项目 GitHub Star 数突破 8.22 万，超越 Tesseract OCR，被集成至 UmiOCR、MinerU 等多个知名工具链，广泛应用于文档解析、知识库构建及模型训练数据预处理。
全面开源：模型权重及代码已开源至 GitHub 和 HuggingFace，并通过 PaddleOCR 官网提供网页和 API 服务。

意义与影响

PP-OCRv6 的发布标志着 OCR 技术正式迈入“毫秒时代”，其核心意义在于打破了高精度 OCR 模型对云端算力和大数据的依赖。通过实现 1.5MB 模型在浏览器端的流畅运行，PP-OCRv6 解决了传统 OCR 方案中隐私泄露风险高、部署成本昂贵以及网络延迟大等痛点。

对于 AI Agent 的发展而言，PP-OCRv6 相当于为其装上了一双“眼睛”，使得智能体能够在本地环境中实时、高效地获取视觉信息，从而在智能办公、教育和工业等场景中实现更自主的视觉感知与决策。此外，PP-OCRv6 在性能上超越众多主流多模态大模型，证明了专用小模型在特定垂直任务（如 OCR）上仍具有不可替代的优势，为行业提供了“大模型通用能力+小模型专用效率”的混合架构新思路。其广泛的开源生态和工具链集成，将进一步降低 AI 视觉技术的普及门槛，加速 OCR 技术在更广泛行业中的落地应用。

查看原文 →leiphone.com

百度发布PP-OCRv6：浏览器端97毫秒OCR，综合性能全球第一

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐