← 返回信息流
AI 资讯量子位·2 天前

百度发布PaddleOCR-VL-1.6,文档解析准确率突破96.33%

原标题:百度文心发布 PaddleOCR-VL-1.6:准确率突破 96.33%,刷新文档解析 SOTA

速览

百度已上线PaddleOCR-VL-1.6版本,该模型在文档解析任务上的准确率突破96.33%,刷新了行业SOTA纪录。新版本已部署至PaddleOCR官网,全面支持网页端在线使用及API接口调用。此次更新显著提升了OCR技术在复杂文档场景下的解析精度与易用性。

AI 深度解读

背景

在文档数字化与智能信息提取需求日益增长的背景下,光学字符识别(OCR)技术正从传统的单模态识别向多模态视觉语言模型(VLM)演进。百度文心团队近期发布了基于文心大模型衍生的 PaddleOCR-VL-1.6 模型。作为全球开发者广泛使用的开源 OCR 项目 PaddleOCR 的最新迭代版本,该模型旨在解决复杂场景下的文档解析难题,并在权威评测中刷新了业界标准。

核心内容

PaddleOCR-VL-1.6PaddleOCR 系列模型的重大升级版本,其核心突破在于准确率与复杂场景适应能力的双重提升。

在权威评测方面,该模型在 OmniDocBench v1.6 基准测试中取得了 96.33% 的总指标准确率,这一成绩超越了 Gemini-3-ProGPT-5.2MinerU-2.5-Pro 以及 GLM-OCR 等主流闭源及专用模型,综合性能位居全球第一,刷新了文档解析领域的 SOTA(State of the Art,当前最佳)记录。此外,在面向真实复杂场景构建的 Real5-OmniDocBench 评测中,PaddleOCR-VL-1.693.19% 的总指标领先,较 Gemini-3-Pro 提升近 4 个百分点。

在技术架构上,PaddleOCR-VL-1.6 保持了 0.9B 的轻量化架构。通过引入模型驱动的数据构建机制和渐进式训练优化策略,模型在维持轻量级的同时,显著增强了在文本、公式、表格等核心要素的识别能力,特别是在表格解析、古籍阅读、生僻字识别、印章检测、Spotting(特定目标检测)以及图表识别等复杂场景中表现优异。

值得注意的是,由于 PaddleOCR-VL-1.6 与上一代 PaddleOCR-VL-1.5 模型结构一致,开发者和企业用户无需进行额外的代码适配,即可实现平滑迁移。此前,PaddleOCR 的 GitHub Star 数已突破 79.2K,超越了谷歌开源项目 Tesseract OCR,成为全球最受开发者欢迎的开源 OCR 项目之一。目前,该模型已上线 PaddleOCR 官网,支持网页端和 API 调用,且代码及权重已在 GitHub 和 Hugging Face 开源。

关键要点

  • SOTA 性能突破:在 OmniDocBench v1.6 评测中准确率达 96.33%,综合性能全球第一,超越 Gemini-3-Pro、GPT-5.2 等头部模型。
  • 真实场景领先:在 Real5-OmniDocBench 中得分 93.19%,在扫描件、弯折文档、屏幕拍照、光照变化及倾斜文档五大真实场景下均保持领先。
  • 轻量化高效架构:保持 0.9B 参数规模,通过模型驱动数据构建和渐进式训练优化,实现了精度与效率的平衡。
  • 平滑升级体验:与 V1.5 版本结构一致,用户无需额外适配即可平滑迁移,降低部署成本。
  • 多模态能力增强:全面支持超 100 种语言识别,在表格、古籍、生僻字、印章及图表等复杂元素解析上显著优于主流开源及闭源方案。
  • 全球开源开放:代码与权重已在 GitHub 和 Hugging Face 开源,官网支持 API 调用,覆盖 170 多个国家和地区。

意义与影响

PaddleOCR-VL-1.6 的发布标志着开源 OCR 技术在多模态理解能力上迈出了关键一步。其在全球范围内的 SOTA 表现,不仅证明了百度文心大模型在多模态领域的技术实力,也为全球开发者提供了一个高性能、轻量级且易于部署的文档解析基座。

对于行业而言,该模型在复杂场景(如古籍、生僻字、非标准版式文档)下的卓越表现,将极大降低文档数字化的门槛和成本,加速金融、法律、出版及档案管理等行业的智能化转型。同时,作为超越 Tesseract OCR 的全球热门开源项目,PaddleOCR 的持续迭代进一步巩固了其在开源社区的影响力,推动了全球文档智能处理技术标准的提升。

查看原文 →qbitai.com