IMCBench: A benchmark for multimodal LLMs in Image-grounded Medical Conversations
AI 深度解读
背景
随着大语言模型(LLM)和视觉语言模型的飞速发展,多模态推理能力在临床决策支持、分诊等医学场景中展现出巨大潜力。然而,现有的医学AI基准测试存在明显的割裂现象:部分基准支持多轮对话但缺乏图像输入,另一部分虽提供多模态输入却仅停留在单轮问答任务上。这种局限性导致无法全面评估模型在真实医患交互中的表现,也阻碍了多模态大模型在临床场景中的安全落地。
核心内容
为填补上述空白,研究团队提出了 IMCBench——一个基于图像锚定的
查看原文 →arxiv.org
