技术博客arXiv cs.CL·7 天前

阅读还是猜测？视觉语言模型在古希腊版本OCR中的视觉定位失败

原标题：Reading or Guessing? Visual Grounding Failures of Vision-Language Models for OCR in Ancient Greek Editions

速览

该研究对比了开放权重视觉语言模型与传统OCR基线在低资源古希腊文献中的表现。发现VLM常生成流畅但缺乏视觉支持的文本，且在字符扰动下偏离真实值，而传统OCR更忠实于图像。结果表明流畅输出未必具有视觉定位能力，需超越准确率进行可解释性评估。

AI 深度解读

Reading or Guessing? Visual Grounding Failures of Vision-Language Models for OCR in Ancient Greek Editions

背景

近年来，视觉-语言模型（Vision-Language Models, VLMs）在光学字符识别（OCR）领域的应用日益广泛。然而，最新的研究指出，这些模型在生成文本时，往往会产生看似合理但缺乏视觉依据的内容。这种现象表明，VLMs 可能过度依赖语言先验（Language Priors），即利用训练数据中的语言统计规律来“猜测”文本，而非真正“阅读”图像中的视觉信息。

为了深入探究这一问题，研究人员选取了低资源语言——古希腊语（Ancient Greek）的批判性版本（critical editions）作为测试对象。这类历史文档通常具有复杂的排版、特殊的字符集以及较低的数字化资源支持，是检验 OCR 系统鲁棒性的理想场景。研究旨在对比开源权重的 VLMs 与传统 OCR 基线模型在识别此类文档时的表现差异，并分析模型在解码过程中对视觉证据的依赖程度。

核心内容

本研究通过系统的实验分析，揭示了 VLMs 在低资源历史文档 OCR 任务中的视觉接地（Visual Grounding）失败机制。以下是研究的核心发现与逻辑推导：

1. 错误性质的差异：流畅的幻觉 vs. 局部噪声 在对比开源 VLMs 与传统 OCR 基线模型时，研究发现两者在出错模式上存在显著差异。当 VLMs 产生错误时，其输出的文本往往保持语法和词汇上的流畅性（fluent），甚至生成看似合理的古希腊语替代词。相比之下，传统 OCR 引擎在识别失败时，通常产生的是局部的识别噪声（local recognition noise），如乱码或无意义的字符组合。这种“流畅的错误”使得 VLMs 的错误更难被肉眼或简单的后处理规则发现，从而更具误导性。

2. 解码过程中的视觉证据分析 为了量化模型在解码时对视觉信息的依赖，研究者引入了两种关键技术手段：

受控图像扰动（Controlled Image Perturbations）： 对输入图像进行字符级别的扰动，观察模型输出的变化。
基于解码分布的接地测量（Token-level Grounding Measures）： 通过比较条件解码分布（基于图像）和无图像解码分布（仅基于语言模型）的差异，来衡量每个 token 对视觉输入的依赖程度。

3. 模型类型的特异性表现 实验结果显示，对语言先验的依赖程度因模型类型而异：

OCR 专用模型（OCR-specialist model）： 这类模型在产生流畅的词汇错误时，几乎不依赖图像输入。这意味着它们主要依靠语言模型内部的知识来填补视觉信息的缺失或错误，表现出极强的“幻觉”倾向。
通用 VLMs（General-purpose VLMs）： 尽管也会犯错，但通用 VLMs 在解码过程中仍然受到视觉输入的强烈约束（conditioned on the visual input）。即使最终输出错误，其生成过程仍试图匹配图像特征，而非完全脱离视觉线索。

4. 干预措施的有效性评估 研究还测试了两种旨在提高准确性的干预措施：

解码时干预（Decode-time interventions）： 试图在生成过程中强制模型关注视觉证据。结果显示，这种方法无法可靠地恢复视觉接地（grounding），未能有效减少幻觉。
后处理语言模型修正（Post-OCR language-model correction）： 在 OCR 生成文本后，使用语言模型进行修正。这种方法仅对少数系统有改善作用，且主要是在生成后修复文本，而非从根本上解决视觉接地失败的问题。

5. 低资源场景下的普遍性 研究将此前关于 OCR 语言先验依赖的证据扩展到了低资源历史文档和更广泛的模型集合中。核心结论是：流畅的输出并不必然意味着视觉接地（visually grounded）。模型可能仅仅是在“猜测”最可能的文本序列，而非真正“阅读”图像。

关键要点

VLMs 的“流畅幻觉”风险： VLMs 在 OCR 任务中倾向于生成语法正确但视觉依据不足的文本，这种错误比传统 OCR 的乱码更具欺骗性。
视觉接地失败机制： 通过图像扰动和分布分析发现，VLMs 在解码时可能严重偏离扰动后的真实地面真值（ground truth），而传统 OCR 相对忠实于图像。
模型依赖性差异： OCR 专用模型更依赖语言先验，几乎忽略图像；通用 VLMs 虽也出错，但仍保留一定的视觉条件约束。
干预手段局限性： 解码时的干预措施无法可靠恢复视觉接地；后处理语言模型修正效果有限，仅能事后修复。
评估范式转变： 研究呼吁超越单纯的准确率（aggregate accuracy）指标，推动基于可解释性（interpretability-driven）的评估方法，以检测视觉接地失败。

意义与影响

这项研究对数字人文、历史文献数字化以及 VLM 的安全性和可靠性评估具有深远影响：

数字人文领域的警示： 对于古希腊语等低资源历史文献的数字化，研究者必须警惕 VLMs 生成的“看似合理”的错误文本。这些错误可能污染语料库，导致后续的历史语言学分析出现偏差。传统 OCR 虽然粗糙，但在视觉忠实度上可能更值得信任，或者需要结合两者优势。
VLM 安全与对齐： 研究揭示了 VLMs 在特定任务中“幻觉”的深层机制——即语言先验对视觉证据的覆盖。这为改进模型对齐（alignment）提供了方向，即需要设计更强的机制来确保模型在生成时严格遵循视觉输入，特别是在高风险或高精度要求的场景中。
评估方法论的革新： 传统的准确率指标无法捕捉“流畅但错误”的幻觉问题。本研究提出的基于扰动和分布分析的接地测量方法，为评估多模态模型的真实性提供了新的工具。未来，OCR 和多模态模型的评估应从“是否准确”转向“是否基于视觉证据”。
模型选择指南： 对于需要高视觉忠实度的应用，通用 VLMs 可能比专门的 OCR 模型更可靠，因为前者仍受视觉约束。然而，通用 VLMs 的计算成本和错误模式也需要权衡。研究结果提示开发者应根据具体任务需求（是追求流畅性还是视觉忠实度）选择合适的模型架构。

总之，该研究不仅揭示了当前 VLMs 在 OCR 任务中的局限性，更为构建更可靠、可解释的多模态系统指明了方向。

查看原文 →arxiv.org