技术博客arXiv cs.CL·1 小时前

MedBench v5发布：面向临床多模态模型的动态幻觉评估基准

原标题：MedBench v5: A Dynamic, Process-Oriented, and Hallucination-Aware Benchmark for Clinical Multimodal Models

速览

现有医疗AI基准缺乏过程可见性和原子技能评估，MedBench v5通过动态、过程导向的评估框架解决这一痛点。该基准结合临床认知响应与医学原子技能，提供可切换的信息流压力源及动态过程审计协议，以捕捉模型特有的失败指纹。实验表明，整体任务表现优异并不保证过程稳定性，该基准为临床AI的能力画像、可控压力测试及幻觉轨迹分析提供了统一基础设施。

AI 深度解读

MedBench v5：面向临床多模态模型的动态、过程导向与幻觉感知基准测试

背景

当前，医疗人工智能（AI）领域的基准测试（Benchmarks）存在显著的局限性。现有的评估体系往往缺乏对模型推理过程的可见性（process visibility），难以对原子级的医疗技能进行独立评估，且未能将幻觉检测（hallucination detection）整合到核心评估流程中。这种静态的、仅关注最终答案正确性的评估方式，无法全面反映模型在复杂临床环境中的真实能力，特别是在处理多模态数据（如文本、图像、代理系统）时，容易掩盖模型在逻辑推理、证据整合及自我纠错方面的潜在缺陷。

为了弥补这一空白，研究团队推出了 MedBench v5。这是一个重新设计的基准测试框架，专门针对临床多模态模型（包括语言模型、视觉-语言模型以及智能体系统）。MedBench v5 标志着评估范式从静态问答（static QA）向动态、过程导向评估的转变，旨在提供更全面、更细致的模型能力画像。

核心内容

MedBench v5 的核心创新在于其构建了一个多维度的评估基础设施，具体包含以下四个关键组成部分：

1. 双维度评估框架

MedBench v5 建立了一个结合“临床认知响应性”与“医疗原子技能”的双维度框架：

临床认知响应性（Clinical Cognitive Responsiveness）：细分为 14 个子维度，用于评估模型在临床场景下的认知处理能力。
医疗原子技能（Medical Atomic Skills）：通过 4 个智能体环境（agent environments）来量化模型的基础操作技能。
任务覆盖：该框架共涵盖 63 项具体任务，确保评估的全面性。

2. 可切换的信息流压力测试（Stressors）

为了深入分析模型在信息不完整或冲突情况下的表现，MedBench v5 引入了三种可切换的信息流压力测试机制，用于分解式退化分析（factorized degradation analysis）：

遗漏（Omission）：故意缺失关键信息。
矛盾（Contradiction）：提供相互冲突的信息。
证据延迟（Evidence Delay）：延迟提供关键证据。这种设计允许研究人员单独或组合测试这些压力因素对模型性能的影响。

3. 动态过程审计协议

不同于仅检查最终答案，MedBench v5 实施了一个动态过程审计协议。该协议包含五个推理节点（reasoning nodes），能够生成“模型特定的失败指纹”（model-specific failure fingerprints）。这意味着评估不仅关注模型是否答对，更关注模型在推理链条的哪个环节出错，从而为模型优化提供具体方向。

4. 幻觉传播监控

MedBench v5 特别关注幻觉的动态传播过程，监控四个阶段：

发起（Initiation）
传播（Propagation）
锚定（Anchoring）
矛盾交互（Contradiction Interaction） 这一机制能够捕捉到“静默幻觉”（silent hallucination），即那些未被立即发现但可能影响后续推理的错误信息。

实验发现

在对前沿模型（frontier models）的实验中发现，整体任务表现强劲并不保证过程稳定性。具体而言：

压力测试主要破坏了模型的矛盾检测、诊断更新、幻觉传播控制以及基于矛盾的自我纠错能力。
然而，最终的证据落地（final evidence grounding）在表面上可能保持相对稳定。这表明，模型可能在最终输出上看似正确，但其内部的推理过程可能充满了不稳定性或未被察觉的幻觉。

关键要点

范式转移：MedBench v5 将医疗 AI 评估从静态的“结果导向”转变为动态的“过程导向”，强调对推理路径的可见性。
结构化评估：通过 14 个临床认知子维度和 4 个原子技能环境，覆盖了 63 项任务，实现了细粒度的能力拆解。
压力测试机制：引入遗漏、矛盾、证据延迟三种可切换的压力源，用于分析模型在极端或冲突信息下的退化行为。
失败指纹生成：通过五个推理节点的动态审计，生成模型特定的失败模式，有助于针对性地改进模型架构或训练数据。
幻觉全链路监控：不仅检测幻觉的存在，还监控其从产生到传播、锚定及与矛盾交互的全过程，特别是针对难以察觉的“静默幻觉”。
性能与稳定性的解耦：实验证明，高准确率并不等同于高过程稳定性，模型可能在表面答案上正确，但在逻辑推理和自我纠错上存在严重缺陷。

意义与影响

MedBench v5 的发布为临床 AI 评估提供了一个统一的基础设施，具有深远的影响：

提升评估的透明度与可信度：通过过程可见性和原子技能评估，研究人员和开发者可以更清楚地了解模型“为什么”做出某个决策，以及“在哪里”出错，从而增强对医疗 AI 系统的信任。
促进模型鲁棒性优化：通过引入可切换的压力测试和幻觉传播监控，开发者可以针对性地训练模型以应对信息缺失、冲突和幻觉问题，提高模型在真实临床环境中的鲁棒性。
支持精细化模型 profiling：模型特定的失败指纹使得不同模型之间的比较更加公平和深入，有助于识别不同架构或训练策略在特定认知任务上的优劣。
推动医疗 AI 安全标准：对静默幻觉和过程稳定性的关注，有助于建立更严格的医疗 AI 安全标准，减少因模型内部推理错误导致的临床风险。

总之，MedBench v5 不仅是一个基准测试工具，更是一套用于诊断、分析和改进临床多模态 AI 模型的综合性方法论，对于推动医疗 AI 从实验室走向临床实际应用具有重要意义。

查看原文 →arxiv.org