技术博客arXiv cs.AI·1 天前

ClinicalMC：面向大模型多病程临床决策评估基准

原标题：ClinicalMC: A Benchmark for Multi-Course Clinical Decision-Making with Large Language Models

速览

针对现有基准缺乏多病程评估的不足，研究提出ClinicalMC基准，涵盖1275个中文和5804个英文样本，覆盖从入院到出院的四个临床阶段。研究构建了包含患者、检查者和医生智能体的多智能体评估框架，并在单轮静态和多轮动态两种设置下，对闭源、开源及医疗专用大模型进行了广泛评估。该工作旨在深入理解大模型在医疗领域的性能，支持其在临床场景中的有效部署。

AI 深度解读

ClinicalMC：面向大语言模型的多阶段临床决策基准测试深度解读

背景

尽管大型语言模型（LLMs）在医疗健康领域的应用日益广泛，但在处理复杂的临床决策场景时，它们仍面临显著挑战。现有的评估基准主要集中在“单阶段”（single-course）设置中，即假设患者的病情是静态或一次性呈现的。然而，真实的医疗过程是一个动态演进的过程，患者的状况会随着时间推移、检查结果的反馈以及治疗方案的实施而不断变化。

目前，缺乏针对这种“多阶段”（multi-course）场景的系统性评估，导致难以准确衡量 LLM 在模拟真实医患交互、长期病情追踪及动态诊疗决策方面的能力。为了填补这一空白，研究团队提出了 ClinicalMC，这是一个专为评估大语言模型在多阶段临床决策中表现而设计的基准测试。

核心内容

ClinicalMC 基准测试旨在通过模拟患者从入院到出院的完整生命周期，全面评估 LLM 在动态医疗环境中的表现。其核心架构和数据集构建如下：

1. 数据集规模与结构

该基准测试包含两个主要语言版本的数据集：

中文数据集：包含 1,275 个样本。
英文数据集：包含 5,804 个样本。

这些数据覆盖了患者诊疗的四个关键阶段，形成了一条完整的临床决策链条：

分诊（Triage）：初步评估患者紧急程度。
首诊检查/诊断/治疗（First-course examination/diagnosis/treatment）：初始的医疗干预。
后续多阶段检查/评估/治疗（Subsequent multi-course examination/assessment/treatment）：根据首诊结果进行的反复检查和调整治疗方案。
最终诊断（Final diagnosis）：基于全过程信息得出的结论。

2. 动态复杂性指标

为了体现“多阶段”的特性，研究团队引入了“临床阶段数”（clinical courses）作为关键指标：

在英文数据集中，患者平均经历 5.11 个临床阶段。
在中文数据集中，患者平均经历 3.42 个临床阶段。这表明该基准测试不仅关注单次问答，更关注模型在多次交互、信息累积和病情演变下的持续推理能力。

3. 多智能体评估框架

为了模拟真实的医疗互动，研究构建了一个包含三种角色的多智能体（Multi-agent）评估框架：

患者智能体（Patient Agent）：模拟患者的症状描述、病史回答及病情变化。
检查者智能体（Examiner Agent）：模拟医生进行的检查、问询及判断。
医生智能体（Doctor Agent）：即被测试的大语言模型，负责做出诊断和治疗决策。

4. 实验设置与模型评估

基于上述基准和框架，研究设计了两种实验场景，并对三类主流 LLM 进行了广泛评估：

实验场景：

单轮静态设置（Single-turn static setting）：一次性提供所有信息，评估模型的静态推理能力。
多轮动态设置（Multi-turn dynamic setting）：模拟真实的逐步诊疗过程，评估模型的动态交互和长期记忆能力。

被评估的模型类别：

闭源 LLM：如 GPT5-mini。
开源 LLM：如 DeepSeek-V3.2。
医疗垂直领域 LLM：如 HuatuoGPT-o1。

通过这种多维度的评估，研究旨在深入理解不同类别 LLM 在医疗领域的实际表现，为模型在临床环境中的有效部署提供数据支持。

关键要点

填补评估空白：现有基准多侧重于静态、单阶段的医疗问答，ClinicalMC 首次系统性地引入了“多阶段”动态诊疗场景，更贴近真实医疗流程。
双语支持：数据集涵盖中文（1,275 样本）和英文（5,804 样本），兼顾了全球视野与本地化医疗场景的评估需求。
动态复杂度量化：通过平均临床阶段数（英文 5.11 阶段，中文 3.42 阶段）量化了诊疗过程的复杂性，强调了模型处理长期依赖和状态更新的能力。
多智能体仿真：采用“患者-检查者-医生”的多智能体框架，避免了传统基准中模型自我评估或静态文本匹配的局限性，实现了更真实的交互式评估。
全面模型对比：评估范围覆盖了闭源巨头（如 GPT5-mini）、开源主流（如 DeepSeek-V3.2）以及医疗专用模型（如 HuatuoGPT-o1），为不同技术路线的模型提供了横向对比基准。
双实验范式：区分“单轮静态”与“多轮动态”设置，有助于区分模型的瞬时推理能力与长期交互决策能力。

意义与影响

ClinicalMC 的提出对医疗人工智能领域具有重要的理论和实践意义：

推动 LLM 从“问答”向“决策”进化：传统医疗 AI 评估多集中在知识检索或简单问答，而 ClinicalMC 迫使模型具备类似医生的动态诊疗思维，即在信息不全时做出假设，在获得新证据后修正决策，这是迈向自主医疗助手的关键一步。
提升模型的安全性与可靠性：通过多阶段评估，可以更早地发现模型在长期交互中可能出现的逻辑断裂、记忆丢失或决策偏差，从而为医疗级 AI 的安全部署提供更严格的筛选标准。
促进开源与闭源模型的公平竞争：通过统一的基准和框架，研究揭示了不同架构（闭源 vs 开源 vs 垂直微调）在复杂临床任务中的优劣，为开发者选择基座模型或优化方向提供了实证依据。
助力中文医疗 AI 发展：中文数据集的构建不仅丰富了全球医疗 AI 资源，也为针对中国医疗体系、语言习惯和疾病谱的模型优化提供了专用测试床，有助于缩小国内外医疗 AI 在本地化应用上的差距。

总之，ClinicalMC 不仅是一个测试集，更是衡量大语言模型是否真正具备“临床思维”的重要标尺，为未来 AI 在复杂医疗场景中的落地应用奠定了评估基础。

查看原文 →arxiv.org