技术博客arXiv cs.AI·4 小时前

DrugBench：评估AI控制协议以减轻药物伤害

原标题：DrugBench: Evaluating AI Control Protocols for Medication Harm Mitigation

速览

大型语言模型在医疗问答中面临安全风险，AI控制协议可作为外部保障。研究提出DrugBench基准，结合HealthBench对话与FDA标签，覆盖药物相互作用等四类伤害。研究指出需基于输出严重性而非仅概率评估安全，并提出了基于严重性的监控方法。

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）