技术博客arXiv cs.AI·1 天前

IMCBench: A benchmark for multimodal LLMs in Image-grounded Medical Conversations

AI 深度解读

背景

随着大语言模型（LLM）和视觉语言模型的飞速发展，多模态推理能力在临床决策支持、分诊等医学场景中展现出巨大潜力。然而，现有的医学AI基准测试存在明显的割裂现象：部分基准支持多轮对话但缺乏图像输入，另一部分虽提供多模态输入却仅停留在单轮问答任务上。这种局限性导致无法全面评估模型在真实医患交互中的表现，也阻碍了多模态大模型在临床场景中的安全落地。

核心内容

为填补上述空白，研究团队提出了 IMCBench——一个基于图像锚定的

查看原文 →arxiv.org

IMCBench: A benchmark for multimodal LLMs in Image-grounded Medical Conversations

AI 深度解读

背景

核心内容

相关推荐