技术博客arXiv cs.AI·1 天前

MedEvoEval: Evaluating Continual Evolution of Doctor Agents through Simulated Clinical Episodes

AI 深度解读

背景

当前，医疗 AI 领域正经历一个重要的范式转变：Doctor Agents（医生智能体）不再局限于"给定完整病历，输出最终诊断"的单轮问答模式，而是逐步演变为能够在临床场景中主动收集证据、调用检查资源、发起会诊，并自主决定何时终止信息收集、给出最终诊疗方案的决策系统。这类系统不仅在一次门诊过程中需要多轮交互，还应当能够跨多次就诊积累经验——通过记忆、检索、反思或其他机制实现自我进化。

然而，现有的评估体系无法充分刻画这一复杂场景。一方面，传统的固定输入医学问答 benchmark（如 USMLE、MedQA 等）只基于完整输入对最终答案打分，完全忽略了"如何获取信息"这一过程；另一方面，现有的交互式评估基准虽然支持多轮对话，但大多局限于单次就诊或固定流程，无法评估跨就诊的经验积累与能力迁移。换言之，业界缺少一个能够同时刻画"单次就诊内的决策过程"与"跨多次就诊的持续进化"的评估框架。

核心内容

本文提出了 MedEvoEval，一个基于动作门控模拟门诊就诊（action-gated simulated outpatient episodes）的可执行纵向评估框架。该框架的核心设计思想如下：

就诊模拟与角色视图：每个源病例被转换为三个角色专属视图——患者视图（patient view）、检查视图（examination view）和管理者视图（manager view）。证据不会一次性全部暴露，而只能通过智能体执行有效动作（如问诊、开具检查、申请会诊）逐步揭示。

结构化轨迹记录：每次就诊生成一条结构化轨迹（structured trace），将观察（observations）、动作（actions）、最终输出（final outputs）、管理者评分（manager scores）以及可选的经验回写（experience write-back）关联在一起。这种细粒度的记录方式使得评估不仅关注"答对没有"，还关注"如何答对的"。

可执行评估工件：作者发布了一个可运行的评估工件（artifact），包含 700 条经过处理的就诊记录、来源注释（provenance notes）、数据模式（schemas）、就诊运行器（episode runner）、评分脚本（scoring scripts）、配置文件、示例日志、分析代码，以及轨迹级和步骤级的衍生数据。

实验发现：基于该框架的实验揭示了若干仅靠最终答案评分无法观测到的现象：

就诊轨迹能够暴露被最终答案评分隐藏的过程成本（如不必要的检查、冗余的问诊轮次）；
多学科团队式（MDT-style）的会诊行为会显著重新分配资源——将部分诊断任务从医生智能体转移到会诊资源上；
框架支持对记忆成熟度（memory maturation）、留出迁移（held-out transfer）、更新阶段响应（update-stage response）和后向保留（backward retention）进行纵向分析，即评估智能体是否随着经验积累而进步、能否将学到的行为迁移到新场景、以及是否会遗忘先前掌握的能力。

关键要点

问题定位：现有医学 AI 评估要么只看最终答案（固定输入 benchmark），要么只看单次交互（交互式 benchmark），无法同时评估"就诊内决策过程"与"跨就诊持续进化"。
框架设计：MedEvoEval 将每个病例转化为多角色、动作门控的模拟就诊，证据仅通过有效动作逐步揭示，而非一次性给出。
轨迹记录：每次就诊生成结构化 trace，关联观察、动作、输出、评分和经验回写，实现过程级评估。
工件完整性：发布包含 700 条就诊记录、运行器、评分脚本、分析代码的完整可执行 artifact，支持复现与扩展。
过程成本可见化：轨迹分析揭示了最终答案评分无法反映的过程成本（如冗余检查、低效问诊）。
资源重分配效应：MDT 式会诊行为会改变资源使用模式，将部分诊断负担转移给会诊资源。
纵向评估能力：框架支持记忆成熟度、迁移能力、更新响应和知识保留等跨时间维度的分析。
评估目标：MedEvoEval 为回答三个核心问题提供了具体基础——医生智能体能否通过经验改善？能否迁移有用行为？能否长期保留已习得能力？

意义与影响

MedEvoEval 代表了医疗 AI 评估方法论的一次重要推进。它将评估从"静态、单轮、结果导向"扩展为"动态、纵向、过程敏感"，填补了业界在评估医生智能体持续进化能力方面的空白。

对于研究者而言，该框架不仅提供了一个可用的 benchmark，更重要的是建立了一套评估范式：通过动作门控的信息揭示机制模拟真实临床中的不确定性，通过结构化轨迹记录实现过程级归因，通过跨就诊设计支持进化分析。这为未来研究"医疗 AI 如何从经验中学习"提供了基础设施。

对于医疗 AI 产品的实际部署而言，仅看最终诊断准确率可能掩盖了系统在过程中的低效或资源浪费。MedEvoEval 揭示的过程成本和资源分配效应，有助于开发者在真实部署前优化智能体的交互策略，避免不必要的检查和冗余操作，从而降低医疗成本并提升患者体验。

此外，该框架对"记忆成熟度""后向保留"等维度的关注，触及了持续学习领域的核心挑战——灾难性遗忘与正向迁移。在医疗这一高风险场景中，确保智能体在习得新能力的同时不遗忘已有能力，是走向可信部署的关键一步。

查看原文 →arxiv.org

MedEvoEval: Evaluating Continual Evolution of Doctor Agents through Simulated Clinical Episodes

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐