← 返回信息流
技术博客arXiv cs.AI·1 天前

IMCBench: A benchmark for multimodal LLMs in Image-grounded Medical Conversations

AI 深度解读

背景

随着大语言模型(LLM)和视觉语言模型的飞速发展,多模态推理能力在临床决策支持、分诊等医学场景中展现出巨大潜力。然而,现有的医学AI基准测试存在明显的割裂现象:部分基准支持多轮对话但缺乏图像输入,另一部分虽提供多模态输入却仅停留在单轮问答任务上。这种局限性导致无法全面评估模型在真实医患交互中的表现,也阻碍了多模态大模型在临床场景中的安全落地。

核心内容

为填补上述空白,研究团队提出了 IMCBench——一个基于图像锚定的

查看原文 →arxiv.org