技术博客arXiv cs.CL·1 小时前

PhysAssistBench：评估大模型辅助医生诊疗的交互能力

原标题：Are LLMs Ready to Assist Physicians? PhysAssistBench for Interactive Doctor-Patient-EHR Assistance

速览

研究提出PhysAssistBench基准，旨在评估大语言模型在真实医疗场景中辅助医生的能力。该基准基于MIMIC-IV真实病例构建，模拟医生、患者与电子病历系统间的多轮交互。实验显示，当前主流大模型在协调知识、沟通与系统操作方面仍不可靠，暴露出临床AI落地的关键瓶颈。

AI 深度解读

Are LLMs Ready to Assist Physicians? PhysAssistBench for Interactive Doctor-Patient-EHR Assistance

背景

尽管大型语言模型（LLMs）在医疗领域的应用前景广阔，但业界对于其角色的定位正逐渐从“替代医生”转向“辅助医生”。这种转变基于一个更务实的判断：在可预见的未来，医疗 LLM 最可行的角色是作为医生的助手，而非独立的诊疗主体。

然而，当前的评估体系存在明显的局限性。现有的基准测试往往孤立地测试模型的单一能力，例如仅测试临床知识储备、仅测试电子健康记录（EHR）系统的交互能力，或仅测试患者沟通能力。这种“单点突破”式的评估无法反映真实的临床工作流。在真实的医疗场景中，医生需要在一个连续的交互过程中协调多种能力：处理患者模糊不清的症状描述、向 EHR 系统发出精确的工具调用请求，以及整合这些信息以做出临床决策。

为了填补这一评估空白，研究人员引入了 PhysAssistBench，这是一个专为交互式“医生-患者-EHR”辅助场景设计的基准测试框架。

核心内容

PhysAssistBench 旨在解决当前医疗 LLM 评估中缺乏真实交互性和多模态协调能力的痛点。该基准测试的核心构建逻辑和数据基础如下：

1. 数据源与真实性 PhysAssistBench 构建于真实的 MIMIC-IV 病例数据之上。MIMIC-IV 是一个广泛使用的重症监护数据库，包含大量脱敏的电子健康记录。通过利用这些真实数据，基准测试确保了临床场景的事实准确性和复杂性。

2. 智能体患者（Agentic Patients）的构建 该基准测试采用了一种可扩展的流水线，将静态的 EHR 记录转化为动态的多轮临床场景。其核心创新在于构建了“智能体患者”：

交互式：这些患者智能体能够与医生进行多轮对话，模拟真实就诊过程中的问答互动。
记录 grounded（基于记录）：患者的回答和行为严格受限于其背后的 EHR 记录，确保对话内容符合患者的病史和生理状态。
事实一致性：在将静态数据转化为动态交互时，系统严格保留了临床事实，避免了幻觉或事实错误。

3. 评估数据集 PhysAssistBench 提供了一个精心策划的双语评估集，包含 1,296 个经过人工审查和医生验证的对话轮次（turns）。这些对话轮次涵盖了医生、患者和 EHR 系统之间的复杂互动，要求模型不仅要具备医学知识，还要具备系统操作能力和沟通技巧。

4. 实验结果与瓶颈分析 研究人员使用当前领先的大型语言模型进行了实验。结果显示，尽管这些模型在单一任务上表现优异，但在 PhysAssistBench 设定的复杂交互场景中，它们的可靠性依然不足。

这一结果揭示了一个关键瓶颈：可靠的医疗辅助不仅仅依赖于某一项能力的提升（如单纯的知识检索或工具使用），而是需要模型在知识、沟通和系统操作之间实现可靠的协调。 当前的 LLM 尚未准备好在真实的、多角色的交互环境中稳定地辅助医生。

关键要点

角色定位转变：医疗 LLM 的近中期核心角色是“辅助”而非“替代”医生，这要求模型具备多任务协调能力。
现有评估的缺陷：当前基准测试过于孤立地评估临床知识、EHR 交互或患者沟通，无法反映真实临床工作中多能力协同的需求。
PhysAssistBench 的创新：
- 基于真实的 MIMIC-IV 数据构建。
- 引入“智能体患者”，将静态 EHR 记录转化为动态、多轮、事实一致的临床交互场景。
- 提供包含 1,296 个经过医生验证的双语对话轮次的评估集。
核心瓶颈：实验表明，当前主流 LLM 在复杂的“医生-患者-EHR”三方交互中表现不可靠。主要障碍在于缺乏对知识、沟通和系统工具使用的综合协调能力，而非单一能力的缺失。
未来方向：医疗 LLM 的研发重点应从提升单一模块性能，转向增强模型在复杂交互流程中的整体协调性和可靠性。

意义与影响

PhysAssistBench 的提出标志着医疗 AI 评估从“静态知识测试”向“动态交互评估”的重要转变。

首先，它为衡量 LLM 在真实临床工作流中的表现提供了更贴近现实的标准。通过模拟医生、患者和 EHR 系统之间的三方互动，该基准测试能够更准确地反映模型在实际部署中可能遇到的挑战，如患者描述的模糊性、医生指令的不确定性以及 EHR 系统的操作复杂性。

其次，该研究指出了当前技术发展的关键瓶颈。它提醒开发者，单纯增加模型的知识量或优化单一工具调用能力，不足以解决临床辅助中的核心问题。未来的研究需要关注如何提升模型在复杂、多角色交互中的鲁棒性和协调性。

最后，PhysAssistBench 为医疗 AI 的安全性和可靠性评估提供了新的工具。通过引入经过医生验证的数据和智能体患者，该基准测试有助于识别模型在临床场景中的潜在风险，为医疗 LLM 的安全部署和监管提供科学依据。

查看原文 →arxiv.org