← 返回信息流
技术博客arXiv cs.CL·11 小时前

评估大模型在OTC用药剂量决策中的时间不确定性处理能力

原标题:Can I Take Another Dose? Evaluating LLM Decision-Making Under Temporal Uncertainty in OTC Dosing QA

速览

研究提出DOSEBENCH,这是一个包含81个成人对乙酰氨基酚和布洛芬非处方药剂量场景的基准测试,旨在评估大模型在时间不确定性下的决策能力。实验发现,模型在处理滚动窗口推理和模糊案例时表现不佳,且看似自信的回复仍可能违反剂量限制。该研究为医疗问答中时间推理、约束遵循及安全不确定性处理提供了实用的测试平台。

AI 深度解读

我能再吃一片药吗?——评估大语言模型在非处方药剂量问答中的时间不确定性决策能力

背景

随着大型语言模型(LLMs)日益深入地融入日常生活,其在健康咨询领域的应用也愈发广泛。用户开始频繁向 AI 询问诸如“我是否可以安全地再次服用非处方药(OTC)”等涉及个人健康与安全的关键问题。然而,现有的医疗问答(Medical QA)评估体系往往侧重于知识检索或诊断逻辑,却严重忽视了这一常见且高风险的场景。

在非处方药剂量咨询中,正确的回答并非简单的知识匹配,而是需要模型具备复杂的推理能力:它必须追踪服药时间、计算过去 24 小时内的累计摄入量、严格遵循药品标签上的剂量限制,并在患者提供的用药历史不完整时做出合理判断。这种涉及“时间窗口”、“约束条件”以及“不确定性”的综合决策过程,目前在大模型评估中仍处于探索空白期。

核心内容

为填补这一空白,研究团队引入了 DOSEBENCH,这是一个专注于非处方药剂量场景的基准测试集。该基准集包含 81 个精心策划的 OTC 剂量场景,主要聚焦于成人对 acetaminophen(对乙酰氨基酚,常见于泰诺等药物)和 ibuprofen(布洛芬,常见于芬必得等药物)的使用情况。所有场景均配有经过人工标注的“黄金参考”答案(gold references),以确保评估的准确性。

研究团队对四种不同的 LLM 进行了评估,通过多次重复运行,共收集了 1,620 个模型响应。评估指标涵盖了决策正确性、一致性、解释的可验证性、失败类型以及置信度相关信号。

研究结果揭示了当前大模型在处理此类问题时的显著局限性:

  1. 滚动窗口推理困难:模型难以准确计算“过去 24 小时内的累计摄入量”这一动态时间窗口内的剂量总和。
  2. 对模糊性敏感:在用药历史不完整或描述模糊的情况下,模型的表现大幅下降。
  3. 幻觉与自信并存:即使模型给出的回答看起来稳定且充满自信,仍可能违反基本的剂量安全约束。

这表明,尽管 LLM 在通用语言任务上表现优异,但在需要严格遵循时间约束和安全规则的特定医疗场景中,其可靠性仍存疑。

关键要点

  • DOSEBENCH 基准集发布:研究提出了首个专注于 OTC 剂量问答的基准测试,包含 81 个针对成人使用对乙酰氨基酚和布洛芬的场景,并配有高质量的人工标注答案。
  • 评估维度全面:不仅评估答案的正确性,还深入分析了模型的一致性、解释的可验证性以及失败模式,共分析了 1,620 次模型响应。
  • 时间推理是主要瓶颈:模型在处理“滚动时间窗口”(如 24 小时累计剂量)时表现不佳,这是导致剂量计算错误的核心原因。
  • 置信度与正确性脱节:模型的高置信度并不等同于高安全性。看似确定的回答可能包含致命的剂量违规,这对医疗应用构成了严峻挑战。
  • 数据缺失处理难题:当用户提供的用药历史不完整时,模型难以做出鲁棒的决策,容易陷入错误推断。

意义与影响

这项研究为非处方药问答提供了一个“狭窄但实用”的测试床,用于评估大模型在医疗问答中的时间推理、约束遵循以及安全相关的不确定性处理能力。

其核心影响在于警示开发者与用户:虽然 LLM 可以辅助日常健康咨询,但在涉及药物剂量等高风险决策时,模型尚不具备足够的可靠性。当前的模型容易在时间计算和安全约束上出错,且这种错误往往被其“自信”的表达所掩盖。

对于医疗 AI 领域而言,这一发现强调了在构建医疗助手时,必须引入专门针对时间逻辑和硬性约束的评估机制,而不能仅依赖通用的语言理解能力。未来的研究方向应致力于提升模型在部分信息下的鲁棒性,并开发能够明确标识不确定性的安全护栏机制,以防止因模型幻觉导致的健康风险。

查看原文 →arxiv.org