技术博客arXiv cs.AI·3 小时前

PSEBench：可验证的医疗安全事件大模型评估基准

原标题：PSEBench: A Controllable and Verifiable Benchmark for Evaluating LLMs in Patient Safety Event Triage

速览

研究团队提出PSEBench，这是一个包含5074个案例的可控且可验证的基准，旨在评估大模型在医疗安全事件分诊中的表现。该基准基于结构化政策条款构建，支持证据驱动的推理、缺失信息主动询问及不确定情况下的合理回避。对15款主流大模型的测试揭示了其在医疗合规推理方面的能力趋势与差距。

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）