百度发布PaddleOCR-VL-1.6,文档解析准确率突破96.33%
速览
百度已上线PaddleOCR-VL-1.6版本,该模型在文档解析任务上的准确率突破96.33%,刷新了行业SOTA纪录。新版本已部署至PaddleOCR官网,全面支持网页端在线使用及API接口调用。此次更新显著提升了OCR技术在复杂文档场景下的解析精度与易用性。
AI 深度解读
背景
在文档数字化与智能信息提取需求日益增长的背景下,光学字符识别(OCR)技术正从传统的单模态识别向多模态视觉语言模型(VLM)演进。百度文心团队近期发布了基于文心大模型衍生的 PaddleOCR-VL-1.6 模型。作为全球开发者广泛使用的开源 OCR 项目 PaddleOCR 的最新迭代版本,该模型旨在解决复杂场景下的文档解析难题,并在权威评测中刷新了业界标准。
核心内容
PaddleOCR-VL-1.6 是 PaddleOCR 系列模型的重大升级版本,其核心突破在于准确率与复杂场景适应能力的双重提升。
在权威评测方面,该模型在 OmniDocBench v1.6 基准测试中取得了 96.33% 的总指标准确率,这一成绩超越了 Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro 以及 GLM-OCR 等主流闭源及专用模型,综合性能位居全球第一,刷新了文档解析领域的 SOTA(State of the Art,当前最佳)记录。此外,在面向真实复杂场景构建的 Real5-OmniDocBench 评测中,PaddleOCR-VL-1.6 以 93.19% 的总指标领先,较 Gemini-3-Pro 提升近 4 个百分点。
在技术架构上,PaddleOCR-VL-1.6 保持了 0.9B 的轻量化架构。通过引入模型驱动的数据构建机制和渐进式训练优化策略,模型在维持轻量级的同时,显著增强了在文本、公式、表格等核心要素的识别能力,特别是在表格解析、古籍阅读、生僻字识别、印章检测、Spotting(特定目标检测)以及图表识别等复杂场景中表现优异。
值得注意的是,由于 PaddleOCR-VL-1.6 与上一代 PaddleOCR-VL-1.5 模型结构一致,开发者和企业用户无需进行额外的代码适配,即可实现平滑迁移。此前,PaddleOCR 的 GitHub Star 数已突破 79.2K,超越了谷歌开源项目 Tesseract OCR,成为全球最受开发者欢迎的开源 OCR 项目之一。目前,该模型已上线 PaddleOCR 官网,支持网页端和 API 调用,且代码及权重已在 GitHub 和 Hugging Face 开源。
关键要点
- SOTA 性能突破:在 OmniDocBench v1.6 评测中准确率达 96.33%,综合性能全球第一,超越 Gemini-3-Pro、GPT-5.2 等头部模型。
- 真实场景领先:在 Real5-OmniDocBench 中得分 93.19%,在扫描件、弯折文档、屏幕拍照、光照变化及倾斜文档五大真实场景下均保持领先。
- 轻量化高效架构:保持 0.9B 参数规模,通过模型驱动数据构建和渐进式训练优化,实现了精度与效率的平衡。
- 平滑升级体验:与 V1.5 版本结构一致,用户无需额外适配即可平滑迁移,降低部署成本。
- 多模态能力增强:全面支持超 100 种语言识别,在表格、古籍、生僻字、印章及图表等复杂元素解析上显著优于主流开源及闭源方案。
- 全球开源开放:代码与权重已在 GitHub 和 Hugging Face 开源,官网支持 API 调用,覆盖 170 多个国家和地区。
意义与影响
PaddleOCR-VL-1.6 的发布标志着开源 OCR 技术在多模态理解能力上迈出了关键一步。其在全球范围内的 SOTA 表现,不仅证明了百度文心大模型在多模态领域的技术实力,也为全球开发者提供了一个高性能、轻量级且易于部署的文档解析基座。
对于行业而言,该模型在复杂场景(如古籍、生僻字、非标准版式文档)下的卓越表现,将极大降低文档数字化的门槛和成本,加速金融、法律、出版及档案管理等行业的智能化转型。同时,作为超越 Tesseract OCR 的全球热门开源项目,PaddleOCR 的持续迭代进一步巩固了其在开源社区的影响力,推动了全球文档智能处理技术标准的提升。
