技术博客arXiv cs.CL·14 小时前

视觉语言模型是看图还是靠猜？新基准测试揭示文本先验依赖

原标题：Do Vision-Language Models See or Guess? Measuring and Reducing Textual-Prior Reliance with a Phrasing-Controlled Benchmark

速览

视觉语言模型在推理时常依赖问题措辞和记忆知识而非图像本身，导致分数虚高。研究构建了包含540张图像和四种变体问题的基准，发现所有模型在难变体上表现下降。通过上下文示例和GRPO后训练，可有效降低模型对文本先验的依赖。

随着视觉-语言模型（Vision-Language Models, VLMs）在需要严格依据图像内容作答的场景中日益普及，一个隐蔽但严重的问题浮出水面：许多模型并非真正“理解”图像，而是依赖“文本先验”（Textual Priors）进行回答。

所谓文本先验，是指模型利用问题中的措辞以及记忆中的世界知识（World Knowledge）来生成答案，而非真正从图像中提取信息。这种行为导致基准测试分数虚高，并产生看似自信但缺乏事实依据（Ungrounded）的答案。

现有的评估基准通常存在一个设计缺陷：每张图像通常只配对一个固定的问题。这种单一维度的评估难以将“模型对图像的依赖”与“模型对文本线索的依赖”隔离开来。因此，业界缺乏一种有效的方法来量化 VLMs 对文本先验的依赖程度，也难以区分模型是真正“看见”了图像，还是仅仅在“猜测”基于文本线索的最可能答案。

为了解决上述评估盲区，研究人员构建了一个名为 Phrasing-Controlled Benchmark（短语控制基准） 的新评估框架，旨在精确测量并减少 VLMs 对文本先验的依赖。

该基准测试包含 540 张图像，涵盖 6 个推理类别。其核心创新在于对每张图像生成了 4 种不同变体的问题（Question Variants）。

控制变量：在这些变体中，图像内容保持不变，唯一变化的变量是问题的措辞（Phrasing）。
最难变体（Hardest Variant）：其中一种变体的问题直接根据图像内容编写，旨在最小化文本泄露（Text Leakage），迫使模型必须依赖视觉信息而非文本线索来作答。

研究对 11 个 VLMs 进行了基准测试，涵盖了从小型的开源权重模型到大型闭源系统。结果揭示了一个普遍现象：

为了验证模型是否真的依赖图像，研究引入了“无图像消融”作为核心诊断手段。

结果：当移除图像输入时，开源权重模型的性能急剧下降至仅基于文本的基准水平（准确率仅为 1% 到 9%）。
佐证分析：
- LLM 评级难度：由大型语言模型评估的问题难度与模型表现负相关。
- 低基础-最终文本相似度：证明模型并未简单复用问题中的文本模式。
- 人工重新标注：人工验证确认了模型对图像真实内容的依赖性。

研究进一步探索了减少文本先验依赖的方法：

上下文示例（In-context Exemplars）：如果上下文示例的构建方式与测试变体的构建方式相匹配，可以恢复最多的准确率。这表明通过提示工程（Prompt Engineering）引导模型关注特定类型的视觉推理是有效的。
后训练优化（Post-training）：对一个小规模 VLM 使用 GRPO（Group Relative Policy Optimization，一种强化学习算法）进行后训练，在所有四个变体上均获得了 consistent gains（一致的收益），并且这种提升能够迁移到未见的分布外（Out-of-Distribution, OOD）数据集上。

文本先验依赖是普遍现象：VLMs 经常利用问题措辞和记忆知识而非图像内容来作答，导致基准分数虚高和答案缺乏 grounding（事实依据）。
现有基准的局限性：传统基准因图像与固定问题的一一对应关系，无法隔离文本线索对模型决策的影响。
短语控制基准（Phrasing-Controlled Benchmark）：通过在同一图像上生成四种不同措辞的问题，将“措辞”作为控制变量，有效量化了模型对文本先验的依赖。
开源模型更脆弱：在去除了文本线索优势的最难变体测试中，开源模型的性能衰减最为严重，其无图像输入时的表现仅相当于纯文本模型（1%-9% 准确率）。
可测量且可训练：文本先验依赖不仅是可测量的，而且可以通过特定的训练策略（如 GRPO 后训练）和推理策略（如匹配的上下文示例）部分消除。
泛化能力：针对文本先验依赖优化的模型，其性能提升能够泛化到分布外的新数据集中。

这项研究对 VLM 的开发和评估具有深远影响：

重塑评估标准：它揭示了当前 VLM 基准测试中存在的“虚假繁荣”，呼吁业界采用更严格的评估方法（如短语控制基准），以区分模型是真正具备视觉推理能力，还是仅仅擅长利用文本线索进行概率猜测。
指导模型训练：研究证明，通过强化学习（如 GRPO）和精心设计的上下文提示，可以显著降低模型对文本先验的依赖。这为未来 VLM 的训练提供了明确的方向：不仅要增加数据量，更要优化模型对视觉信号的注意力机制。
提升可信度与安全性：在医疗、自动驾驶等高风险领域，模型“自信但错误”的回答可能带来严重后果。通过减少文本先验依赖，可以提高模型输出的可靠性和事实准确性，使其更适合作为关键决策的支持工具。
开源与闭源模型的差距分析：研究指出开源模型在视觉 grounding 方面可能存在更大短板，这提示开源社区需要投入更多资源在视觉-语言对齐训练上，以缩小与闭源领先模型的差距。

总之，该研究不仅提供了一个新的评估工具，更指出了 VLM 从“感知”走向“真正理解”的关键路径：即摆脱对文本线索的过度依赖，建立坚实的视觉事实基础。