技术博客arXiv cs.AI·3 小时前

HealthAgentBench: A Unified Benchmark Suite of Realistic Agentic Healthcare Environments for Challenging Frontier AI Agents

AI 深度解读

背景

随着 AI Agent（智能体）在复杂、长程推理任务上展现出越来越强的能力，如何对其进行严格且全面的评估，成为衡量其迈向真实世界应用进展的关键问题。在医疗健康领域，这一需求尤为迫切——医疗场景天然具有高复杂度、多模态、多步骤的特点，简单的 prompt 式问答远远无法覆盖真实临床工作流中的挑战。然而，现有的评估基准大多聚焦于单一任务或简化的问答形式，缺乏能够模拟端到端临床工作流、涵盖患者全流程就诊旅程的统一评测体系。HealthAgentBench 正是在这一背景下提出的，旨在为前沿 AI Agent 提供一个兼具真实性与挑战性的医疗智能体评测套件。

核心内容

HealthAgentBench 是一个包含 54 个医疗智能体任务的评测套件，这些任务分布在 7 个不同类别中，每个类别拥有其独特的运行环境。该基准套件的设计覆盖了患者就诊旅程中的多样化工作流，并广泛涉及多种数据模态。

每个任务的设计都旨在复现端到端的临床工作流：给定最小化的指令，智能体需要自主探索原始医疗数据、在复杂环境中运作，并执行多步骤的解决方案——这些远远超出了简单 prompt 的能力范围。最终，HealthAgentBench 以**任务成功率（task success rate）**作为每个智能体在该基准上的整体表现指标，提供一个单一且可解释的评测分数。

研究团队在前沿 Agent 上进行了评测，结果发现整体任务成功率仍然较低，凸显了该套件的难度。其中表现最强且最具成本效益的智能体——Codex GPT-5.5——也仅达到了约 42% 的任务成功率。

除了总体表现之外，HealthAgentBench 还揭示了不同任务类别中智能体各自的细微优势与短板：

研究建模管线开发：前沿 Agent 在基于 EHR（电子健康记录）数据自动开发研究建模管线方面展现出潜力。
医学影像：医学影像相关任务对所有智能体而言尤其具有挑战性，Claude Code 系列模型在此类任务上表现尤为困难，而 Codex GPT-5.5 则显示出初步的应对能力。
组合推理任务：将大搜索空间与组合推理要求相结合的任务，对当前所有智能体来说仍然是难点。

综合这些结果，HealthAgentBench 作为一个兼具挑战性与真实性的评测基准，为未来的技术进步留下了充足的空间。研究团队已公开该基准，供社区使用。

关键要点

规模与覆盖：HealthAgentBench 包含 54 个任务，分布在 7 个类别中，每个类别拥有独立环境，覆盖患者就诊全流程与多种数据模态。
端到端工作流设计：每个任务模拟真实临床工作流，要求智能体在最小指令下自主探索原始数据、操作复杂环境并完成多步解决方案。
统一评测指标：以任务成功率作为单一、可解释的整体性能指标。
前沿 Agent 表现有限：最强智能体 Codex GPT-5.5 成功率仅约 42%，整体成功率偏低，说明基准具有显著挑战性。
差异化能力画像：EHR 研究建模管线自动化展现潜力；医学影像任务普遍困难（Claude Code 尤其薄弱，Codex GPT-5.5 初现能力）；大搜索空间 + 组合推理任务对所有智能体均构成难点。
开源发布：基准已公开，供研究社区使用。

意义与影响

HealthAgentBench 的提出填补了医疗 AI Agent 评测领域的一个重要空白。它不再将评估局限于孤立的问答或单一模态任务，而是将评测推向了更接近真实临床场景的端到端工作流层面。这一转变意味着，未来医疗 AI 能力的衡量标准将从"能否回答医学问题"升级为"能否在复杂环境中自主完成临床任务"。

从研究结果来看，即便是当前最先进的前沿 Agent，在 HealthAgentBench 上的表现也远未达标——42% 的成功率意味着超过一半的任务无法完成。这一方面说明现有智能体距离真实医疗应用还有相当大的差距，另一方面也为研究者指明了改进方向：医学影像理解、组合推理与大搜索空间导航是亟需突破的核心能力。

此外，该基准揭示的不同模型之间的差异化表现（如 Codex GPT-5.5 在医学影像上的初步能力 vs. Claude Code 的明显短板），为模型选型和针对性优化提供了有价值的参考。随着该基准的公开发布，预计将成为推动医疗 AI Agent 从实验室走向真实临床环境的重要评测基础设施。

查看原文 →arxiv.org

HealthAgentBench: A Unified Benchmark Suite of Realistic Agentic Healthcare Environments for Challenging Frontier AI Agents

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐