技术博客arXiv cs.CL·1 天前

审计修正知识库视觉问答基准揭示模型性能评估误区

原标题：Identifying and Resolving Pitfalls of Knowledge-Based VQA Benchmarks: Auditing, Repairing, and Augmenting

速览

知识库视觉问答（KB-VQA）旨在测试视觉语言模型能否检索、 grounding 和推理外部结构化知识。本文指出现有基准中答案必须来自知识库、问题需有足够约束、视觉场景需有接地消歧等核心假设被系统性违反。审计发现大量缺失或矛盾答案及欠缺约束的问题，使准确率成为误导性指标。作者设计审计-修复协议和多实体增强协议，重新评估显示性能趋势大幅改变。研究呼吁重新思考评价协议，开发更注重可验证推理的交互式基准，推动VLMs在真实场景中的可靠应用。

AI 深度解读

背景

知识基础视觉问答（Knowledge-Based Visual Question Answering，简称 KB-VQA）旨在评估视觉语言模型（Visual Language Models，VLMs）是否能够超越视觉证据之外，检索、接地并推理外部结构化知识。在实际应用中，答案准确率长期被作为首要评价指标，隐含地将正确性视为知识基础推理能力的代理。但现有 KB-VQA 基准测试依赖的关键假设——标注答案必须可从关联知识库衍生、问题必须措辞明确且提供足够约束、视觉场景必须真实要求接地消歧——常常被忽略并因基准自身缺陷而失效。当前代表性基准如 InfoSeek 和 E-VQA 普遍存在答案-证据错位、问题表述不清晰、视觉场景过于简化的问题，导致准确率难以可靠反映模型的真实知识 grounding 能力。

核心内容

Knowledge-Based Visual Question Answering (KB-VQA) 的目标是检验 VLMs 是否能从外部结构化知识库中检索、接地并推理答案，而非仅依赖图像视觉证据。实践中，答案准确率常作为核心指标，但这一代理依赖三个关键假设：（A）答案可衍生性（annotated answer must be derivable from the associated knowledge base）；（B）问题清晰性（question must be well-posed with sufficient constraints）；（C）接地消歧需求（visual setting must meaningfully require grounded disambiguation）。这些假设在现有基准中系统性失效。

审计发现：答案-证据错位普遍存在（unsupported answers 或 contradictory answers），例如 InfoSeek QID 23994 标注的“10 foot”海拔高度在提供知识库中缺失；InfoSeek QID 5411 标注的汽车质量“1,302 kilogram”与知识库中“1,301 kg”冲突。使用 Qwen3-30B-A3B 等模型辅助验证，InfoSeek 中约 22% 答案不可衍生，E-VQA 中约 1%。这导致即使完美检索和推理也可能被错误评分。问题不明确的情况也多见：59% E-VQA 和 47% InfoSeek 问题缺失属性约束、时空范围或空间参照，例如“这个鸟的交配期是何时？”可能对应“春天”或“3-4月”，准确率对单一标注答案敏感。视觉场景过于简化：现有数据集图像通常只含单一显著实体，模型可通过全局图像相似度绕过实体定位、文本-图像接地和消歧，直接命中目标知识库，无需真实 grounding。

这些缺陷会扭曲评价。作者提出 principled audit-and-repair 协议，强制恢复答案可衍生性和问题清晰度：四阶段流程包括证据验证（用两个独立模型扫描目标实体页面）、答案衍生性审计与校准（修正矛盾答案或移除不可衍生实例）、问题约束修复（添加缺失限定词，如属性/时空/空间参照）及泄露检查。应用后，InfoSeek 保留 81.7%（58,285/71,335）实例，E-VQA 保留完整固定分割（4,750 题）。人类评价显示修复后准确率仍高（92.9% E-VQA、91.5% InfoSeek），但 QA 准确率显著提升，方法排名可能反转（例如在 InfoSeek unfixed 中 ReflectiVA 优于 IBA，fixed 后 IBA 42.4% vs ReflectiVA 38.1%）。

同时，作者引入 controlled multi-entity augmentation 协议，在原图中添加一个 distractor（同类 intra-category 或异类 inter-category），保留原答案和知识库，引入视觉歧义以挑战 grounding。intra 方案通过空间拼接并微调问题“the fish on the left”；inter 方案保持问题不变。生成变体后，初始检索 Recall@1 从固定基准的 43.5%（InfoSeek）/13.4%（E-VQA）降至 14.7%/3.5%（intra），QA 准确率大幅下降（例如 IBA InfoSeek 40.1% -> 21.4%/21.6%）。这验证了单实体 shortcut 被消除，真实 grounding 需求得以体现。重新评估显示，修复后性能趋势变化，增强后检索和 QA 准确率均显著下降，凸显当前评价过于乐观。

关键要点

KB-VQA 基准的答案准确率常作为“知识 grounded 推理”代理，但三个核心假设（答案可衍生性、问题清晰性、接地消歧需求）系统性被违反，导致评价失效。
常见缺陷包括答案-证据错位（InfoSeek 22% 实例不可衍生）、问题不明确（47-59% 样本缺失约束）、视觉单实体简化（全局检索即可绕过 grounding）。
Audit-and-repair 协议四阶段修复后，QA 准确率提升，方法排名可能反转；human eval 显示修复实例仍易于人工解答。
Multi-entity augmentation 通过添加 distractor 强制 grounding，检索 Recall@1 和 QA 准确率均大幅下降，揭示现有基准对 grounding 能力低估。
修复与增强后评价趋势显著不同，当前协议易导致 distorted rankings 和 overestimation of reasoning。
未来需设计更 interaction-aware 基准，优先 verifiable reasoning 而非简单匹配，并报告额外 grounding 指标。

意义与影响

本工作揭示现有 KB-VQA 基准的系统性缺陷，指出答案准确率常成为 misleading metric，导致模型排行 distorted、推理能力被 overestimate。修复协议与增强框架为社区提供可复现的诊断工具（数据集与代码已开源），有助于构建更可靠的基准，推动 MM-RAG 方法向真正 grounded retrieval 与 reasoning 发展。研究呼吁放弃“简单 matching”，转向 interaction-aware 设计，未来 KB-VQA 评价应同时关注答案正确性、证据支持度和 grounding 鲁棒性，以真实反映 VLMs 的知识基础能力，促进更稳健、安全的视觉-语言系统落地。

查看原文 →arxiv.org

审计修正知识库视觉问答基准 揭示模型性能评估误区

速览

AI 深度解读

相关推荐

审计修正知识库视觉问答基准揭示模型性能评估误区