← 返回信息流
技术博客arXiv cs.AI·3 小时前

HealthAgentBench: A Unified Benchmark Suite of Realistic Agentic Healthcare Environments for Challenging Frontier AI Agents

AI 深度解读

背景

随着 AI Agent(智能体)在复杂、长程推理任务上展现出越来越强的能力,如何对其进行严格且全面的评估,成为衡量其迈向真实世界应用进展的关键问题。在医疗健康领域,这一需求尤为迫切——医疗场景天然具有高复杂度、多模态、多步骤的特点,简单的 prompt 式问答远远无法覆盖真实临床工作流中的挑战。然而,现有的评估基准大多聚焦于单一任务或简化的问答形式,缺乏能够模拟端到端临床工作流、涵盖患者全流程就诊旅程的统一评测体系。HealthAgentBench 正是在这一背景下提出的,旨在为前沿 AI Agent 提供一个兼具真实性与挑战性的医疗智能体评测套件。

核心内容

HealthAgentBench 是一个包含 54 个医疗智能体任务的评测套件,这些任务分布在 7 个不同类别中,每个类别拥有其独特的运行环境。该基准套件的设计覆盖了患者就诊旅程中的多样化工作流,并广泛涉及多种数据模态。

每个任务的设计都旨在复现端到端的临床工作流:给定最小化的指令,智能体需要自主探索原始医疗数据、在复杂环境中运作,并执行多步骤的解决方案——这些远远超出了简单 prompt 的能力范围。最终,HealthAgentBench 以**任务成功率(task success rate)**作为每个智能体在该基准上的整体表现指标,提供一个单一且可解释的评测分数。

研究团队在前沿 Agent 上进行了评测,结果发现整体任务成功率仍然较低,凸显了该套件的难度。其中表现最强且最具成本效益的智能体——Codex GPT-5.5——也仅达到了约 42% 的任务成功率。

除了总体表现之外,HealthAgentBench 还揭示了不同任务类别中智能体各自的细微优势与短板:

  • 研究建模管线开发:前沿 Agent 在基于 EHR(电子健康记录)数据自动开发研究建模管线方面展现出潜力。
  • 医学影像:医学影像相关任务对所有智能体而言尤其具有挑战性,Claude Code 系列模型在此类任务上表现尤为困难,而 Codex GPT-5.5 则显示出初步的应对能力。
  • 组合推理任务:将大搜索空间与组合推理要求相结合的任务,对当前所有智能体来说仍然是难点。

综合这些结果,HealthAgentBench 作为一个兼具挑战性与真实性的评测基准,为未来的技术进步留下了充足的空间。研究团队已公开该基准,供社区使用。

关键要点

  • 规模与覆盖:HealthAgentBench 包含 54 个任务,分布在 7 个类别中,每个类别拥有独立环境,覆盖患者就诊全流程与多种数据模态。
  • 端到端工作流设计:每个任务模拟真实临床工作流,要求智能体在最小指令下自主探索原始数据、操作复杂环境并完成多步解决方案。
  • 统一评测指标:以任务成功率作为单一、可解释的整体性能指标。
  • 前沿 Agent 表现有限:最强智能体 Codex GPT-5.5 成功率仅约 42%,整体成功率偏低,说明基准具有显著挑战性。
  • 差异化能力画像:EHR 研究建模管线自动化展现潜力;医学影像任务普遍困难(Claude Code 尤其薄弱,Codex GPT-5.5 初现能力);大搜索空间 + 组合推理任务对所有智能体均构成难点。
  • 开源发布:基准已公开,供研究社区使用。

意义与影响

HealthAgentBench 的提出填补了医疗 AI Agent 评测领域的一个重要空白。它不再将评估局限于孤立的问答或单一模态任务,而是将评测推向了更接近真实临床场景的端到端工作流层面。这一转变意味着,未来医疗 AI 能力的衡量标准将从"能否回答医学问题"升级为"能否在复杂环境中自主完成临床任务"。

从研究结果来看,即便是当前最先进的前沿 Agent,在 HealthAgentBench 上的表现也远未达标——42% 的成功率意味着超过一半的任务无法完成。这一方面说明现有智能体距离真实医疗应用还有相当大的差距,另一方面也为研究者指明了改进方向:医学影像理解、组合推理与大搜索空间导航是亟需突破的核心能力。

此外,该基准揭示的不同模型之间的差异化表现(如 Codex GPT-5.5 在医学影像上的初步能力 vs. Claude Code 的明显短板),为模型选型和针对性优化提供了有价值的参考。随着该基准的公开发布,预计将成为推动医疗 AI Agent 从实验室走向真实临床环境的重要评测基础设施。

查看原文 →arxiv.org