← 返回信息流
技术博客arXiv cs.CL·1 天前

审计修正知识库视觉问答基准 揭示模型性能评估误区

原标题:Identifying and Resolving Pitfalls of Knowledge-Based VQA Benchmarks: Auditing, Repairing, and Augmenting

速览

知识库视觉问答(KB-VQA)旨在测试视觉语言模型能否检索、 grounding 和推理外部结构化知识。本文指出现有基准中答案必须来自知识库、问题需有足够约束、视觉场景需有接地消歧等核心假设被系统性违反。审计发现大量缺失或矛盾答案及欠缺约束的问题,使准确率成为误导性指标。作者设计审计-修复协议和多实体增强协议,重新评估显示性能趋势大幅改变。研究呼吁重新思考评价协议,开发更注重可验证推理的交互式基准,推动VLMs在真实场景中的可靠应用。

AI 深度解读

背景

知识基础视觉问答(Knowledge-Based Visual Question Answering,简称 KB-VQA)旨在评估视觉语言模型(Visual Language Models,VLMs)是否能够超越视觉证据之外,检索、接地并推理外部结构化知识。在实际应用中,答案准确率长期被作为首要评价指标,隐含地将正确性视为知识基础推理能力的代理。但现有 KB-VQA 基准测试依赖的关键假设——标注答案必须可从关联知识库衍生、问题必须措辞明确且提供足够约束、视觉场景必须真实要求接地消歧——常常被忽略并因基准自身缺陷而失效。当前代表性基准如 InfoSeek 和 E-VQA 普遍存在答案-证据错位、问题表述不清晰、视觉场景过于简化的问题,导致准确率难以可靠反映模型的真实知识 grounding 能力。

核心内容

Knowledge-Based Visual Question Answering (KB-VQA) 的目标是检验 VLMs 是否能从外部结构化知识库中检索、接地并推理答案,而非仅依赖图像视觉证据。实践中,答案准确率常作为核心指标,但这一代理依赖三个关键假设:(A)答案可衍生性(annotated answer must be derivable from the associated knowledge base);(B)问题清晰性(question must be well-posed with sufficient constraints);(C)接地消歧需求(visual setting must meaningfully require grounded disambiguation)。这些假设在现有基准中系统性失效。

审计发现:答案-证据错位普遍存在(unsupported answers 或 contradictory answers),例如 InfoSeek QID 23994 标注的“10 foot”海拔高度在提供知识库中缺失;InfoSeek QID 5411 标注的汽车质量“1,302 kilogram”与知识库中“1,301 kg”冲突。使用 Qwen3-30B-A3B 等模型辅助验证,InfoSeek 中约 22% 答案不可衍生,E-VQA 中约 1%。这导致即使完美检索和推理也可能被错误评分。问题不明确的情况也多见:59% E-VQA 和 47% InfoSeek 问题缺失属性约束、时空范围或空间参照,例如“这个鸟的交配期是何时?”可能对应“春天”或“3-4月”,准确率对单一标注答案敏感。视觉场景过于简化:现有数据集图像通常只含单一显著实体,模型可通过全局图像相似度绕过实体定位、文本-图像接地和消歧,直接命中目标知识库,无需真实 grounding。

这些缺陷会扭曲评价。作者提出 principled audit-and-repair 协议,强制恢复答案可衍生性和问题清晰度:四阶段流程包括证据验证(用两个独立模型扫描目标实体页面)、答案衍生性审计与校准(修正矛盾答案或移除不可衍生实例)、问题约束修复(添加缺失限定词,如属性/时空/空间参照)及泄露检查。应用后,InfoSeek 保留 81.7%(58,285/71,335)实例,E-VQA 保留完整固定分割(4,750 题)。人类评价显示修复后准确率仍高(92.9% E-VQA、91.5% InfoSeek),但 QA 准确率显著提升,方法排名可能反转(例如在 InfoSeek unfixed 中 ReflectiVA 优于 IBA,fixed 后 IBA 42.4% vs ReflectiVA 38.1%)。

同时,作者引入 controlled multi-entity augmentation 协议,在原图中添加一个 distractor(同类 intra-category 或异类 inter-category),保留原答案和知识库,引入视觉歧义以挑战 grounding。intra 方案通过空间拼接并微调问题“the fish on the left”;inter 方案保持问题不变。生成变体后,初始检索 Recall@1 从固定基准的 43.5%(InfoSeek)/13.4%(E-VQA)降至 14.7%/3.5%(intra),QA 准确率大幅下降(例如 IBA InfoSeek 40.1% -> 21.4%/21.6%)。这验证了单实体 shortcut 被消除,真实 grounding 需求得以体现。重新评估显示,修复后性能趋势变化,增强后检索和 QA 准确率均显著下降,凸显当前评价过于乐观。

关键要点

  • KB-VQA 基准的答案准确率常作为“知识 grounded 推理”代理,但三个核心假设(答案可衍生性、问题清晰性、接地消歧需求)系统性被违反,导致评价失效。
  • 常见缺陷包括答案-证据错位(InfoSeek 22% 实例不可衍生)、问题不明确(47-59% 样本缺失约束)、视觉单实体简化(全局检索即可绕过 grounding)。
  • Audit-and-repair 协议四阶段修复后,QA 准确率提升,方法排名可能反转;human eval 显示修复实例仍易于人工解答。
  • Multi-entity augmentation 通过添加 distractor 强制 grounding,检索 Recall@1 和 QA 准确率均大幅下降,揭示现有基准对 grounding 能力低估。
  • 修复与增强后评价趋势显著不同,当前协议易导致 distorted rankings 和 overestimation of reasoning。
  • 未来需设计更 interaction-aware 基准,优先 verifiable reasoning 而非简单匹配,并报告额外 grounding 指标。

意义与影响

本工作揭示现有 KB-VQA 基准的系统性缺陷,指出答案准确率常成为 misleading metric,导致模型排行 distorted、推理能力被 overestimate。修复协议与增强框架为社区提供可复现的诊断工具(数据集与代码已开源),有助于构建更可靠的基准,推动 MM-RAG 方法向真正 grounded retrieval 与 reasoning 发展。研究呼吁放弃“简单 matching”,转向 interaction-aware 设计,未来 KB-VQA 评价应同时关注答案正确性、证据支持度和 grounding 鲁棒性,以真实反映 VLMs 的知识基础能力,促进更稳健、安全的视觉-语言系统落地。

查看原文 →arxiv.org