← 返回信息流
技术博客arXiv cs.AI·1 天前

MedCUA-Bench:首个仅凭截图的临床计算机使用智能体基准

原标题:MedCUA-Bench: A Screenshot-Only Benchmark for Clinical Computer-Use Agents

速览

现有基准难以验证AI在医疗图形界面中的可靠性,MedCUA-Bench通过18个临床场景重构真实界面,解决隐私与授权难题。该基准通过意图与步骤级目标分离,从完成度及五个安全维度评估23个智能体。结果显示当前模型在真实医疗系统中成功率极低,暴露了临床AI应用的巨大差距。

AI 深度解读

MedCUA-Bench:面向临床计算机使用代理的纯截图基准测试

背景

随着人工智能技术的演进,基于计算机使用的代理(Computer-Use Agents)展现出自动化重复性屏幕操作任务的巨大潜力。在医疗领域,这类技术有望解放医护人员,使其从繁琐的电子病历录入、系统查询等工作中解脱出来。然而,目前这些代理在医疗图形用户界面(GUI)中的可靠性尚未得到充分验证。

现有的基准测试(Benchmarks)主要聚焦于通用的网页浏览或桌面办公任务,严重缺乏对医疗专用软件的覆盖。医疗软件具有鲜明的领域特殊性:它不仅要求代理具备深厚的医学领域知识,其界面设计也与主流消费级应用截然不同。此外,医疗系统通常缺乏公开的测试环境,且对安全性的要求远超普通任务完成度,任何操作失误都可能带来严重的临床风险。这种“数据孤岛”和“验证缺失”的现状,阻碍了临床计算机使用代理的实质性进步。

核心内容

为了解决上述痛点,研究团队提出了 MedCUA-Bench,这是一个专为临床计算机使用代理设计的交互式基准测试平台。该基准测试旨在填补通用基准与专业医疗场景之间的空白,其核心构建逻辑与评估体系如下:

1. 数据来源与场景构建 MedCUA-Bench 覆盖了 10 个医学领域内的 18 个临床场景。为了确保测试环境的真实性并规避版权与隐私合规风险,研究团队并未直接抓取真实患者数据,而是通过重构真实的产品手册和开源医疗系统(如 OpenEMR)来模拟真实的临床界面。这种方法既保留了医疗软件特有的交互逻辑,又满足了数据使用的法律与伦理要求。

2. 任务目标的双重解耦 每个测试任务都配备了成对的“意图级目标”(intent-level goals)和“步骤级目标”(step-level goals)。这种设计旨在将“临床推理能力”与“UI 执行能力”解耦。也就是说,评估不仅关注代理是否完成了最终操作,还关注其是否遵循了正确的临床逻辑路径,从而更精准地诊断代理在医疗场景下的短板。

3. 多维度的确定性评估 MedCUA-Bench 采用确定性检查器(deterministic checker)对代理的表现进行评估,评估维度包括:

  • 任务完成度:是否成功执行了操作。
  • 五大临床安全维度:除了任务本身,还严格审查操作是否符合医疗安全规范(如数据隐私、操作合规性等)。

4. 广泛的模型评测结果 研究团队在 23 个不同的代理模型上进行了测试,结果揭示了当前 AI 在临床计算机使用方面的巨大差距:

  • 闭源模型表现最佳:表现最好的闭源模型在严格成功标准下仅达到 54.2% 的成功率。
  • 开源模型差距显著:开源代理的平均成功率仅为 2.5%,其中表现最好的开源模型也仅达到 16.2%
  • 真实环境挑战巨大:在所有模型中,面对真实的开源医疗系统 OpenEMR 时,成功率均低于 9%。这一数据表明,在复杂的真实医疗界面中,现有 AI 代理的鲁棒性极低。

关键要点

  • 填补领域空白:MedCUA-Bench 是首个专注于医疗 GUI 的计算机使用代理基准测试,解决了现有基准缺乏医疗领域特异性数据的问题。
  • 真实与合规的平衡:通过重构产品手册和开源系统,成功在保留真实界面交互逻辑的同时,规避了 HIPAA 等隐私法规及软件许可限制。
  • 推理与执行的分离:通过意图级和步骤级双重目标,能够更细致地评估代理是“懂医学”还是仅仅“会点击”,有助于定位模型缺陷。
  • 安全性为核心:评估体系不仅关注任务是否完成,更引入了五个临床安全维度,强调医疗 AI 操作的安全底线。
  • 现状严峻:评测结果显示,即使是顶尖的闭源模型,在严格标准下的成功率也未过半;开源模型表现更弱,且在真实系统(OpenEMR)中几乎无法可靠运行。
  • 可复现的研究基石:该基准测试提供了一个可复现的测试床,为未来开发更可靠、更安全的临床 AI 代理奠定了基础。

意义与影响

MedCUA-Bench 的发布标志着医疗 AI 从“对话式助手”向“行动式代理”转型过程中的关键一步。它揭示了一个核心事实:当前的通用大模型虽然具备强大的语言理解能力,但在面对具有严格规范、复杂交互和高风险后果的医疗软件界面时,其操作可靠性远远未达到临床可用的标准。

这一基准测试的意义在于:

  1. 设定新标准:它确立了评估临床 AI 代理不仅要看“说了什么”,更要看“做了什么”以及“做得是否安全”的新标准。
  2. 驱动技术迭代:通过量化当前模型在医疗 UI 交互中的具体短板(如步骤级执行的准确性、安全维度的合规性),研究人员可以针对性地优化模型架构和训练策略。
  3. 促进落地应用:只有当代理能够在类似 OpenEMR 这样的真实系统中稳定、安全地运行时,计算机使用代理才能真正进入医院工作流,实现真正的自动化减负。

MedCUA-Bench 不仅是一个测试工具,更是连接当前 AI 能力与未来临床自动化需求之间的桥梁,为构建真正可信的临床计算机使用代理指明了方向。

查看原文 →arxiv.org