AI 资讯量子位·2 天前

百度发布PaddleOCR-VL-1.6，文档解析准确率突破96.33%

原标题：百度文心发布 PaddleOCR-VL-1.6：准确率突破 96.33%，刷新文档解析 SOTA

速览

百度已上线PaddleOCR-VL-1.6版本，该模型在文档解析任务上的准确率突破96.33%，刷新了行业SOTA纪录。新版本已部署至PaddleOCR官网，全面支持网页端在线使用及API接口调用。此次更新显著提升了OCR技术在复杂文档场景下的解析精度与易用性。

AI 深度解读

背景

在文档数字化与智能信息提取需求日益增长的背景下，光学字符识别（OCR）技术正从传统的单模态识别向多模态视觉语言模型（VLM）演进。百度文心团队近期发布了基于文心大模型衍生的 PaddleOCR-VL-1.6 模型。作为全球开发者广泛使用的开源 OCR 项目 PaddleOCR 的最新迭代版本，该模型旨在解决复杂场景下的文档解析难题，并在权威评测中刷新了业界标准。

核心内容

PaddleOCR-VL-1.6 是 PaddleOCR 系列模型的重大升级版本，其核心突破在于准确率与复杂场景适应能力的双重提升。

在权威评测方面，该模型在 OmniDocBench v1.6 基准测试中取得了 96.33% 的总指标准确率，这一成绩超越了 Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro 以及 GLM-OCR 等主流闭源及专用模型，综合性能位居全球第一，刷新了文档解析领域的 SOTA（State of the Art，当前最佳）记录。此外，在面向真实复杂场景构建的 Real5-OmniDocBench 评测中，PaddleOCR-VL-1.6 以 93.19% 的总指标领先，较 Gemini-3-Pro 提升近 4 个百分点。

在技术架构上，PaddleOCR-VL-1.6 保持了 0.9B 的轻量化架构。通过引入模型驱动的数据构建机制和渐进式训练优化策略，模型在维持轻量级的同时，显著增强了在文本、公式、表格等核心要素的识别能力，特别是在表格解析、古籍阅读、生僻字识别、印章检测、Spotting（特定目标检测）以及图表识别等复杂场景中表现优异。

值得注意的是，由于 PaddleOCR-VL-1.6 与上一代 PaddleOCR-VL-1.5 模型结构一致，开发者和企业用户无需进行额外的代码适配，即可实现平滑迁移。此前，PaddleOCR 的 GitHub Star 数已突破 79.2K，超越了谷歌开源项目 Tesseract OCR，成为全球最受开发者欢迎的开源 OCR 项目之一。目前，该模型已上线 PaddleOCR 官网，支持网页端和 API 调用，且代码及权重已在 GitHub 和 Hugging Face 开源。

关键要点

SOTA 性能突破：在 OmniDocBench v1.6 评测中准确率达 96.33%，综合性能全球第一，超越 Gemini-3-Pro、GPT-5.2 等头部模型。
真实场景领先：在 Real5-OmniDocBench 中得分 93.19%，在扫描件、弯折文档、屏幕拍照、光照变化及倾斜文档五大真实场景下均保持领先。
轻量化高效架构：保持 0.9B 参数规模，通过模型驱动数据构建和渐进式训练优化，实现了精度与效率的平衡。
平滑升级体验：与 V1.5 版本结构一致，用户无需额外适配即可平滑迁移，降低部署成本。
多模态能力增强：全面支持超 100 种语言识别，在表格、古籍、生僻字、印章及图表等复杂元素解析上显著优于主流开源及闭源方案。
全球开源开放：代码与权重已在 GitHub 和 Hugging Face 开源，官网支持 API 调用，覆盖 170 多个国家和地区。

意义与影响

PaddleOCR-VL-1.6 的发布标志着开源 OCR 技术在多模态理解能力上迈出了关键一步。其在全球范围内的 SOTA 表现，不仅证明了百度文心大模型在多模态领域的技术实力，也为全球开发者提供了一个高性能、轻量级且易于部署的文档解析基座。

对于行业而言，该模型在复杂场景（如古籍、生僻字、非标准版式文档）下的卓越表现，将极大降低文档数字化的门槛和成本，加速金融、法律、出版及档案管理等行业的智能化转型。同时，作为超越 Tesseract OCR 的全球热门开源项目，PaddleOCR 的持续迭代进一步巩固了其在开源社区的影响力，推动了全球文档智能处理技术标准的提升。

查看原文 →qbitai.com

百度发布PaddleOCR-VL-1.6，文档解析准确率突破96.33%

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐