技术博客arXiv cs.AI·1 天前

MedCUA-Bench：首个仅凭截图的临床计算机使用智能体基准

原标题：MedCUA-Bench: A Screenshot-Only Benchmark for Clinical Computer-Use Agents

速览

现有基准难以验证AI在医疗图形界面中的可靠性，MedCUA-Bench通过18个临床场景重构真实界面，解决隐私与授权难题。该基准通过意图与步骤级目标分离，从完成度及五个安全维度评估23个智能体。结果显示当前模型在真实医疗系统中成功率极低，暴露了临床AI应用的巨大差距。

AI 深度解读

MedCUA-Bench：面向临床计算机使用代理的纯截图基准测试

背景

随着人工智能技术的演进，基于计算机使用的代理（Computer-Use Agents）展现出自动化重复性屏幕操作任务的巨大潜力。在医疗领域，这类技术有望解放医护人员，使其从繁琐的电子病历录入、系统查询等工作中解脱出来。然而，目前这些代理在医疗图形用户界面（GUI）中的可靠性尚未得到充分验证。

现有的基准测试（Benchmarks）主要聚焦于通用的网页浏览或桌面办公任务，严重缺乏对医疗专用软件的覆盖。医疗软件具有鲜明的领域特殊性：它不仅要求代理具备深厚的医学领域知识，其界面设计也与主流消费级应用截然不同。此外，医疗系统通常缺乏公开的测试环境，且对安全性的要求远超普通任务完成度，任何操作失误都可能带来严重的临床风险。这种“数据孤岛”和“验证缺失”的现状，阻碍了临床计算机使用代理的实质性进步。

核心内容

为了解决上述痛点，研究团队提出了 MedCUA-Bench，这是一个专为临床计算机使用代理设计的交互式基准测试平台。该基准测试旨在填补通用基准与专业医疗场景之间的空白，其核心构建逻辑与评估体系如下：

1. 数据来源与场景构建 MedCUA-Bench 覆盖了 10 个医学领域内的 18 个临床场景。为了确保测试环境的真实性并规避版权与隐私合规风险，研究团队并未直接抓取真实患者数据，而是通过重构真实的产品手册和开源医疗系统（如 OpenEMR）来模拟真实的临床界面。这种方法既保留了医疗软件特有的交互逻辑，又满足了数据使用的法律与伦理要求。

2. 任务目标的双重解耦 每个测试任务都配备了成对的“意图级目标”（intent-level goals）和“步骤级目标”（step-level goals）。这种设计旨在将“临床推理能力”与“UI 执行能力”解耦。也就是说，评估不仅关注代理是否完成了最终操作，还关注其是否遵循了正确的临床逻辑路径，从而更精准地诊断代理在医疗场景下的短板。

3. 多维度的确定性评估 MedCUA-Bench 采用确定性检查器（deterministic checker）对代理的表现进行评估，评估维度包括：

任务完成度：是否成功执行了操作。
五大临床安全维度：除了任务本身，还严格审查操作是否符合医疗安全规范（如数据隐私、操作合规性等）。

4. 广泛的模型评测结果 研究团队在 23 个不同的代理模型上进行了测试，结果揭示了当前 AI 在临床计算机使用方面的巨大差距：

闭源模型表现最佳：表现最好的闭源模型在严格成功标准下仅达到 54.2% 的成功率。
开源模型差距显著：开源代理的平均成功率仅为 2.5%，其中表现最好的开源模型也仅达到 16.2%。
真实环境挑战巨大：在所有模型中，面对真实的开源医疗系统 OpenEMR 时，成功率均低于 9%。这一数据表明，在复杂的真实医疗界面中，现有 AI 代理的鲁棒性极低。

关键要点

填补领域空白：MedCUA-Bench 是首个专注于医疗 GUI 的计算机使用代理基准测试，解决了现有基准缺乏医疗领域特异性数据的问题。
真实与合规的平衡：通过重构产品手册和开源系统，成功在保留真实界面交互逻辑的同时，规避了 HIPAA 等隐私法规及软件许可限制。
推理与执行的分离：通过意图级和步骤级双重目标，能够更细致地评估代理是“懂医学”还是仅仅“会点击”，有助于定位模型缺陷。
安全性为核心：评估体系不仅关注任务是否完成，更引入了五个临床安全维度，强调医疗 AI 操作的安全底线。
现状严峻：评测结果显示，即使是顶尖的闭源模型，在严格标准下的成功率也未过半；开源模型表现更弱，且在真实系统（OpenEMR）中几乎无法可靠运行。
可复现的研究基石：该基准测试提供了一个可复现的测试床，为未来开发更可靠、更安全的临床 AI 代理奠定了基础。

意义与影响

MedCUA-Bench 的发布标志着医疗 AI 从“对话式助手”向“行动式代理”转型过程中的关键一步。它揭示了一个核心事实：当前的通用大模型虽然具备强大的语言理解能力，但在面对具有严格规范、复杂交互和高风险后果的医疗软件界面时，其操作可靠性远远未达到临床可用的标准。

这一基准测试的意义在于：

设定新标准：它确立了评估临床 AI 代理不仅要看“说了什么”，更要看“做了什么”以及“做得是否安全”的新标准。
驱动技术迭代：通过量化当前模型在医疗 UI 交互中的具体短板（如步骤级执行的准确性、安全维度的合规性），研究人员可以针对性地优化模型架构和训练策略。
促进落地应用：只有当代理能够在类似 OpenEMR 这样的真实系统中稳定、安全地运行时，计算机使用代理才能真正进入医院工作流，实现真正的自动化减负。

MedCUA-Bench 不仅是一个测试工具，更是连接当前 AI 能力与未来临床自动化需求之间的桥梁，为构建真正可信的临床计算机使用代理指明了方向。

查看原文 →arxiv.org