AI 资讯量子位·2 小时前

百度开源新OCR模型，作者疑似前DeepSeek研究员

原标题：一次吃下一本书！百度开源新OCR，作者疑似前DeepSeek研究员

速览

百度近日开源了一款全新的OCR（光学字符识别）模型，旨在提升文档解析与文本提取的效率与精度。该项目的作者背景引发热议，疑似为前DeepSeek研究员，显示出人才流动对开源社区的影响。此举将进一步推动OCR技术在AI应用中的落地与优化。

AI 深度解读

背景

在当前的AI技术演进中，光学字符识别（OCR）正从单纯的工具性应用转变为AI时代至关重要的数据入口。随着互联网公开数据的快速消耗，企业真正具有高价值的数据大量沉睡在PDF、合同、报告、票据和扫描件等非结构化文档中。对于大模型而言，这些文档最初只是像素，而OCR的核心意义在于将这些像素转化为模型能够理解和推理的Token。

然而，传统OCR在处理超长文档时面临显著瓶颈。主流的处理方式通常采用“逐页处理+结果拼接”的for-loop方案，即每读完一页就重置上下文，最后由外部程序拼接结果。这种方案虽然工程上可行，但本质上是一种权宜之计。其根本原因在于，传统解码器在生成新Token时需要回溯查看之前生成的所有历史Token，导致KV Cache随文档长度持续膨胀，进而引发显存占用激增、推理速度下降以及延迟飙升等问题。这使得现有系统难以实现类似人类“一口气读完一本书”的连续阅读体验。

在此背景下，百度近期开源了全新的OCR模型——Unlimited OCR。该模型不仅在OmniDocBench基准测试上刷新了SOTA（State of the Art），更因其独特的架构设计和疑似前DeepSeek研究员魏浩然的参与而引发业界广泛关注。

核心内容

Unlimited OCR 的核心突破在于解决长文档连续解析中的记忆管理与计算效率问题，其核心创新点为参考滑动窗口注意力（Reference Sliding Window Attention, R-SWA）。

1. 传统方案的局限性 传统OCR流程中，图片进入编码器被压缩为视觉Token，解码器再逐字生成文本。由于自回归生成的特性，每生成一个新Token，模型都需要关注所有之前的历史Token。随着文档变长，KV Cache无限膨胀，导致计算开销和显存占用线性增长。因此，现有系统被迫采用重置上下文的策略，破坏了阅读的连续性。

2. R-SWA 机制：模仿人类的“软遗忘” Unlimited OCR 提出了一种模仿人类抄录员工作方式的机制。人类在阅读长文档时，并不会每写一个字就重新翻阅前几十页，而是保留当前的阅读状态和最近写下的一小段内容，更久远的信息则逐渐淡出工作记忆。论文将这种机制称为软遗忘（Soft Forgetting）。

R-SWA 的具体设计如下：

参考Token固定保留：模型始终关注全部的参考Token（Reference Tokens），包括视觉Token和提示词。这就像原书始终摊开在桌面上，模型可以随时查看完整的图像信息，确保对原图的感知不会随解码过程模糊。
输出Token滑动窗口：在输出端，模型仅保留最近 $n$ 个历史Token（默认128个）参与注意力计算。这就像手边只保留最近写下的几行字，用于追踪当前进度和确认没有跳行。
KV Cache 恒定大小：KV Cache 被设计为一个固定长度的队列。每生成一个新Token，最旧的一部分状态自动移出，新状态补入。无论最终生成几千还是几万个Token，KV Cache 的规模始终保持恒定，从而避免了显存和计算开销随文档长度增长。

3. 与其他注意力机制的区别

对比全注意力（Full Attention）：全注意力的KV Cache随解码不断膨胀，而R-SWA保持固定大小。
对比传统滑动窗口注意力（SWA）：传统SWA会将视觉Token和文本Token一起放入窗口，随着窗口滑动，早期的视觉信息会被挤出，导致解码越长，对原图的感知越模糊。R-SWA将视觉Token单独保留，不参与滑动窗口更新，仅文本Token发生滑动，从而保证了图像信息的完整性和清晰度。

4. 性能表现 在OmniDocBench v1.5和v1.6基准测试中，Unlimited OCR 分别取得了93.23%和93.92%的综合得分，刷新了当前SOTA，相比DeepSeek OCR有显著提升。在长文本解析方面，即使一次性输入40页以上文档，模型依然保持稳定，Distinct-35指标达到96.90%，编辑距离维持在0.1069以下，未出现明显的内容混淆。此外，由于恒定KV Cache设计，其推理速度（TPS）在生成6000个Token时相比DeepSeek OCR提升约35%，且调用延迟基本保持稳定。

关键要点

架构创新：引入参考滑动窗口注意力（R-SWA），实现视觉Token固定保留、文本Token滑动窗口的分离式记忆管理。
显存优化：KV Cache 规模恒定，无论文档多长，显存占用和计算开销不随Token数量增长，解决了长程任务中的资源瓶颈。
性能突破：在OmniDocBench v1.6上以93.92%的成绩刷新SOTA，长文档（40页+）解析质量稳定，推理速度提升约35%。
研究思路转变：从“扩容上下文窗口”转向“学会遗忘”，通过软遗忘机制优化长上下文管理，而非单纯增加模型记忆容量。
作者背景争议：技术报告署名中有一位代号“YY”的技术总监，结合行文风格、技术路线（沿用DeepEncoder）及GitHub致谢，网友推测其为前DeepSeek研究员、GOT-OCR2.0核心开发者魏浩然，但官方尚未确认。
未来路线图：短期计划训练128K上下文版本；长期计划构建“预填池（Prefill Pool）”机制，实现按需调取历史KV状态，并将R-SWA扩展至语音识别、机器翻译等任务。

意义与影响

Unlimited OCR 的意义远超出一款高性能OCR模型本身，它代表了大模型在长上下文处理范式上的一次重要探索。

1. 重新定义长上下文管理 过去两年，行业解决长上下文问题的主流思路是不断扩容上下文窗口（如128K、1M、10M），试图让模型记住更多信息。Unlimited OCR 反其道而行之，证明了“学会遗忘”同样有效。R-SWA 修改的是注意力机制这一大模型共同的基础设施，为长程任务中的记忆管理提供了新的技术路线。

2. 抢占AI数据入口 OCR 正在从传统工具演变为AI时代最重要的数据入口之一。通过高效地将非结构化文档转化为Token，Unlimited OCR 帮助模型更好地理解和推理沉睡在企业数据中的高价值信息。百度、DeepSeek、智谱等头部公司重兵投入OCR，争夺的正是这一关键入口。

3. 视觉理解与长期记忆的呼应 Unlimited OCR 的技术路线与 DeepSeek OCR2 形成了有趣的呼应：DeepSeek 侧重于“怎么看”（视觉信息的高效理解，如DeepEncoder），而百度 Unlimited OCR 侧重于“怎么记”（超长任务中的信息保留、传递与遗忘）。这标志着AI研究正从单纯的视觉理解向更广义的长期推理和记忆管理延伸。

4. 技术外溢潜力 团队计划将 R-SWA 机制扩展到语音识别、机器翻译等任务，表明这一基于滑动窗口和参考保留的注意力机制具有广泛的适用性，可能成为解决各类长序列生成任务的基础设施。

查看原文 →qbitai.com

百度开源新OCR模型，作者疑似前DeepSeek研究员

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐