技术博客arXiv cs.CL·11 小时前

评估大模型在OTC用药剂量决策中的时间不确定性处理能力

原标题：Can I Take Another Dose? Evaluating LLM Decision-Making Under Temporal Uncertainty in OTC Dosing QA

速览

研究提出DOSEBENCH，这是一个包含81个成人对乙酰氨基酚和布洛芬非处方药剂量场景的基准测试，旨在评估大模型在时间不确定性下的决策能力。实验发现，模型在处理滚动窗口推理和模糊案例时表现不佳，且看似自信的回复仍可能违反剂量限制。该研究为医疗问答中时间推理、约束遵循及安全不确定性处理提供了实用的测试平台。

AI 深度解读

我能再吃一片药吗？——评估大语言模型在非处方药剂量问答中的时间不确定性决策能力

背景

随着大型语言模型（LLMs）日益深入地融入日常生活，其在健康咨询领域的应用也愈发广泛。用户开始频繁向 AI 询问诸如“我是否可以安全地再次服用非处方药（OTC）”等涉及个人健康与安全的关键问题。然而，现有的医疗问答（Medical QA）评估体系往往侧重于知识检索或诊断逻辑，却严重忽视了这一常见且高风险的场景。

在非处方药剂量咨询中，正确的回答并非简单的知识匹配，而是需要模型具备复杂的推理能力：它必须追踪服药时间、计算过去 24 小时内的累计摄入量、严格遵循药品标签上的剂量限制，并在患者提供的用药历史不完整时做出合理判断。这种涉及“时间窗口”、“约束条件”以及“不确定性”的综合决策过程，目前在大模型评估中仍处于探索空白期。

核心内容

为填补这一空白，研究团队引入了 DOSEBENCH，这是一个专注于非处方药剂量场景的基准测试集。该基准集包含 81 个精心策划的 OTC 剂量场景，主要聚焦于成人对 acetaminophen（对乙酰氨基酚，常见于泰诺等药物）和 ibuprofen（布洛芬，常见于芬必得等药物）的使用情况。所有场景均配有经过人工标注的“黄金参考”答案（gold references），以确保评估的准确性。

研究团队对四种不同的 LLM 进行了评估，通过多次重复运行，共收集了 1,620 个模型响应。评估指标涵盖了决策正确性、一致性、解释的可验证性、失败类型以及置信度相关信号。

研究结果揭示了当前大模型在处理此类问题时的显著局限性：

滚动窗口推理困难：模型难以准确计算“过去 24 小时内的累计摄入量”这一动态时间窗口内的剂量总和。
对模糊性敏感：在用药历史不完整或描述模糊的情况下，模型的表现大幅下降。
幻觉与自信并存：即使模型给出的回答看起来稳定且充满自信，仍可能违反基本的剂量安全约束。

这表明，尽管 LLM 在通用语言任务上表现优异，但在需要严格遵循时间约束和安全规则的特定医疗场景中，其可靠性仍存疑。

关键要点

DOSEBENCH 基准集发布：研究提出了首个专注于 OTC 剂量问答的基准测试，包含 81 个针对成人使用对乙酰氨基酚和布洛芬的场景，并配有高质量的人工标注答案。
评估维度全面：不仅评估答案的正确性，还深入分析了模型的一致性、解释的可验证性以及失败模式，共分析了 1,620 次模型响应。
时间推理是主要瓶颈：模型在处理“滚动时间窗口”（如 24 小时累计剂量）时表现不佳，这是导致剂量计算错误的核心原因。
置信度与正确性脱节：模型的高置信度并不等同于高安全性。看似确定的回答可能包含致命的剂量违规，这对医疗应用构成了严峻挑战。
数据缺失处理难题：当用户提供的用药历史不完整时，模型难以做出鲁棒的决策，容易陷入错误推断。

意义与影响

这项研究为非处方药问答提供了一个“狭窄但实用”的测试床，用于评估大模型在医疗问答中的时间推理、约束遵循以及安全相关的不确定性处理能力。

其核心影响在于警示开发者与用户：虽然 LLM 可以辅助日常健康咨询，但在涉及药物剂量等高风险决策时，模型尚不具备足够的可靠性。当前的模型容易在时间计算和安全约束上出错，且这种错误往往被其“自信”的表达所掩盖。

对于医疗 AI 领域而言，这一发现强调了在构建医疗助手时，必须引入专门针对时间逻辑和硬性约束的评估机制，而不能仅依赖通用的语言理解能力。未来的研究方向应致力于提升模型在部分信息下的鲁棒性，并开发能够明确标识不确定性的安全护栏机制，以防止因模型幻觉导致的健康风险。

查看原文 →arxiv.org