← 返回信息流
AI 资讯量子位·2 小时前

百度开源新OCR模型,作者疑似前DeepSeek研究员

原标题:一次吃下一本书!百度开源新OCR,作者疑似前DeepSeek研究员

速览

百度近日开源了一款全新的OCR(光学字符识别)模型,旨在提升文档解析与文本提取的效率与精度。该项目的作者背景引发热议,疑似为前DeepSeek研究员,显示出人才流动对开源社区的影响。此举将进一步推动OCR技术在AI应用中的落地与优化。

AI 深度解读

背景

在当前的AI技术演进中,光学字符识别(OCR)正从单纯的工具性应用转变为AI时代至关重要的数据入口。随着互联网公开数据的快速消耗,企业真正具有高价值的数据大量沉睡在PDF、合同、报告、票据和扫描件等非结构化文档中。对于大模型而言,这些文档最初只是像素,而OCR的核心意义在于将这些像素转化为模型能够理解和推理的Token。

然而,传统OCR在处理超长文档时面临显著瓶颈。主流的处理方式通常采用“逐页处理+结果拼接”的for-loop方案,即每读完一页就重置上下文,最后由外部程序拼接结果。这种方案虽然工程上可行,但本质上是一种权宜之计。其根本原因在于,传统解码器在生成新Token时需要回溯查看之前生成的所有历史Token,导致KV Cache随文档长度持续膨胀,进而引发显存占用激增、推理速度下降以及延迟飙升等问题。这使得现有系统难以实现类似人类“一口气读完一本书”的连续阅读体验。

在此背景下,百度近期开源了全新的OCR模型——Unlimited OCR。该模型不仅在OmniDocBench基准测试上刷新了SOTA(State of the Art),更因其独特的架构设计和疑似前DeepSeek研究员魏浩然的参与而引发业界广泛关注。

核心内容

Unlimited OCR 的核心突破在于解决长文档连续解析中的记忆管理与计算效率问题,其核心创新点为参考滑动窗口注意力(Reference Sliding Window Attention, R-SWA)

1. 传统方案的局限性 传统OCR流程中,图片进入编码器被压缩为视觉Token,解码器再逐字生成文本。由于自回归生成的特性,每生成一个新Token,模型都需要关注所有之前的历史Token。随着文档变长,KV Cache无限膨胀,导致计算开销和显存占用线性增长。因此,现有系统被迫采用重置上下文的策略,破坏了阅读的连续性。

2. R-SWA 机制:模仿人类的“软遗忘” Unlimited OCR 提出了一种模仿人类抄录员工作方式的机制。人类在阅读长文档时,并不会每写一个字就重新翻阅前几十页,而是保留当前的阅读状态和最近写下的一小段内容,更久远的信息则逐渐淡出工作记忆。论文将这种机制称为软遗忘(Soft Forgetting)

R-SWA 的具体设计如下:

  • 参考Token固定保留:模型始终关注全部的参考Token(Reference Tokens),包括视觉Token和提示词。这就像原书始终摊开在桌面上,模型可以随时查看完整的图像信息,确保对原图的感知不会随解码过程模糊。
  • 输出Token滑动窗口:在输出端,模型仅保留最近 $n$ 个历史Token(默认128个)参与注意力计算。这就像手边只保留最近写下的几行字,用于追踪当前进度和确认没有跳行。
  • KV Cache 恒定大小:KV Cache 被设计为一个固定长度的队列。每生成一个新Token,最旧的一部分状态自动移出,新状态补入。无论最终生成几千还是几万个Token,KV Cache 的规模始终保持恒定,从而避免了显存和计算开销随文档长度增长。

3. 与其他注意力机制的区别

  • 对比全注意力(Full Attention):全注意力的KV Cache随解码不断膨胀,而R-SWA保持固定大小。
  • 对比传统滑动窗口注意力(SWA):传统SWA会将视觉Token和文本Token一起放入窗口,随着窗口滑动,早期的视觉信息会被挤出,导致解码越长,对原图的感知越模糊。R-SWA将视觉Token单独保留,不参与滑动窗口更新,仅文本Token发生滑动,从而保证了图像信息的完整性和清晰度。

4. 性能表现 在OmniDocBench v1.5和v1.6基准测试中,Unlimited OCR 分别取得了93.23%和93.92%的综合得分,刷新了当前SOTA,相比DeepSeek OCR有显著提升。在长文本解析方面,即使一次性输入40页以上文档,模型依然保持稳定,Distinct-35指标达到96.90%,编辑距离维持在0.1069以下,未出现明显的内容混淆。此外,由于恒定KV Cache设计,其推理速度(TPS)在生成6000个Token时相比DeepSeek OCR提升约35%,且调用延迟基本保持稳定。

关键要点

  • 架构创新:引入参考滑动窗口注意力(R-SWA),实现视觉Token固定保留、文本Token滑动窗口的分离式记忆管理。
  • 显存优化:KV Cache 规模恒定,无论文档多长,显存占用和计算开销不随Token数量增长,解决了长程任务中的资源瓶颈。
  • 性能突破:在OmniDocBench v1.6上以93.92%的成绩刷新SOTA,长文档(40页+)解析质量稳定,推理速度提升约35%。
  • 研究思路转变:从“扩容上下文窗口”转向“学会遗忘”,通过软遗忘机制优化长上下文管理,而非单纯增加模型记忆容量。
  • 作者背景争议:技术报告署名中有一位代号“YY”的技术总监,结合行文风格、技术路线(沿用DeepEncoder)及GitHub致谢,网友推测其为前DeepSeek研究员、GOT-OCR2.0核心开发者魏浩然,但官方尚未确认。
  • 未来路线图:短期计划训练128K上下文版本;长期计划构建“预填池(Prefill Pool)”机制,实现按需调取历史KV状态,并将R-SWA扩展至语音识别、机器翻译等任务。

意义与影响

Unlimited OCR 的意义远超出一款高性能OCR模型本身,它代表了大模型在长上下文处理范式上的一次重要探索。

1. 重新定义长上下文管理 过去两年,行业解决长上下文问题的主流思路是不断扩容上下文窗口(如128K、1M、10M),试图让模型记住更多信息。Unlimited OCR 反其道而行之,证明了“学会遗忘”同样有效。R-SWA 修改的是注意力机制这一大模型共同的基础设施,为长程任务中的记忆管理提供了新的技术路线。

2. 抢占AI数据入口 OCR 正在从传统工具演变为AI时代最重要的数据入口之一。通过高效地将非结构化文档转化为Token,Unlimited OCR 帮助模型更好地理解和推理沉睡在企业数据中的高价值信息。百度、DeepSeek、智谱等头部公司重兵投入OCR,争夺的正是这一关键入口。

3. 视觉理解与长期记忆的呼应 Unlimited OCR 的技术路线与 DeepSeek OCR2 形成了有趣的呼应:DeepSeek 侧重于“怎么看”(视觉信息的高效理解,如DeepEncoder),而百度 Unlimited OCR 侧重于“怎么记”(超长任务中的信息保留、传递与遗忘)。这标志着AI研究正从单纯的视觉理解向更广义的长期推理和记忆管理延伸。

4. 技术外溢潜力 团队计划将 R-SWA 机制扩展到语音识别、机器翻译等任务,表明这一基于滑动窗口和参考保留的注意力机制具有广泛的适用性,可能成为解决各类长序列生成任务的基础设施。

查看原文 →qbitai.com