技术博客arXiv cs.AI·1 小时前

提取药物-疾病疗效适用条件，提升临床决策支持

原标题：Applicability Condition Extraction for Therapeutic Drug-Disease Relations

速览

针对现有生物医学信息抽取方法忽视上下文适用条件的问题，研究提出药物-疾病疗效适用条件抽取任务。团队构建了首个包含1119个药物-疾病对的手动标注数据集，并系统评估了现有方法性能。此外，提出一种增强LoRA以考虑药物与疾病关系的新方法，在多种评估设置下均优于强基线。

在临床决策支持系统中，识别特定药物对目标疾病产生治疗效果的条件至关重要。然而，现有的生物医学信息提取方法大多仅关注药物与疾病之间的二元关系（即“药物A治疗疾病B”），而忽略了这些关系生效的具体上下文条件（例如：仅适用于特定分期、特定基因突变类型或特定患者群体）。

这种对“适用条件”（Applicability Conditions）的忽视，导致提取出的知识往往过于笼统，难以直接转化为可执行的临床指南。为了填补这一空白，研究人员引入了“治疗性药物-疾病关系的适用条件提取”这一新任务，旨在从生物医学研究文献中精准抽取药物、疾病及其适用条件构成的三元组。

本研究主要围绕以下三个核心部分展开：任务定义、数据集构建以及模型方法创新。

传统的信息提取任务通常输出二元组 $(Drug, Disease)$。本研究将其扩展为三元组 $(Drug, Disease, Condition)$。

为了支持该任务的研究，作者创建了首个包含人工标注三元组的数据集。

作者提出了一种新的方法，旨在提升现有模型在提取此类复杂三元组时的性能。

基础架构：基于大语言模型（LLM）的参数高效微调技术。
改进点：对 LoRA (Low-Rank Adaptation) 进行增强。传统的 LoRA 主要关注参数更新，而新方法特别增强了模型对“药物”与“疾病”之间语义关系的建模能力，使其能更好地理解两者在特定条件下的交互逻辑。
实验结果：在不同评估设置下，该方法均显著优于现有的强基线模型（Strong Baselines），证明了其在捕捉上下文特定条件方面的有效性。

通过引入“适用条件”，提取出的知识不再是简单的“药-病”对应，而是包含具体适用场景的结构化知识。这有助于临床医生更准确地判断特定药物是否适合特定患者，减少误用风险，推动个性化医疗的发展。

该研究标志着生物医学自然语言处理（NLP）从粗粒度的关系抽取向细粒度的语境感知抽取转变。它强调了上下文信息在理解生物医学事实中的核心作用，为后续研究提供了新的方向。

通过公开数据集和代码，本研究降低了该领域的研究门槛，鼓励更多学者参与优化算法、扩展数据集规模，从而加速整个生物医学信息提取领域的进步。

增强型 LoRA 的设计思路表明，在参数高效微调中，针对特定任务逻辑（如关系建模）进行针对性改进，比单纯增加模型规模或数据量更具性价比，为其他领域的 NLP 任务提供了参考范式。