技术博客arXiv cs.CL·1 小时前

RASC+：检索约束大模型裁决助力临床值集构建

原标题：RASC+: Retrieval-Constrained LLM Adjudication for Clinical Value Set Authoring

速览

临床值集构建面临代码系统庞大且模型记忆不可靠的挑战。RASC+方法通过优化候选池构建和引入检索约束的大模型裁决，有效解决了这一问题。实验显示，该方法在保持代码来源可审计的前提下，大幅提升了值集完成的宏观F1分数。

AI 深度解读

RASC+：检索约束下的 LLM 裁决机制在临床值集构建中的应用

背景

临床值集（Clinical Value Sets）是医疗信息化中的核心组件，用于定义在质量测量、表型分析、队列构建以及临床决策支持系统中使用的标准化术语代码。这些值集通常基于庞大的临床代码系统（如 ICD、SNOMED CT 等），具有版本控制严格、规模巨大且更新频繁的特点。

近期发布的 RASC（Retrieval-Augmented Set Completion，检索增强值集补全）基准测试揭示了一个关键问题：直接利用零样本（Zero-shot）大型语言模型（LLM）生成临床值集的效果极差。主要原因在于，语言模型无法可靠地记忆这些庞大且不断变化的代码系统，导致直接生成的代码往往存在幻觉或错误。

为了解决这一难题，研究人员提出了一种分阶段（Stage-wise）的替代方案，即“RASC+”方法。该方法将任务拆解为两个步骤：首先优化候选池的构建以最大化召回率（Recall），其次利用受约束的 LLM 裁决器在候选池中进行精确选择。这种方法旨在平衡生成的准确性与代码来源的可审计性。

核心内容

RASC+ 方法的核心在于通过“检索增强”与“LLM 裁决”相结合，解决临床值集构建中代码准确性的问题。以下是该研究的主要实验设计与结果解读：

1. 方法架构：两阶段流程

第一阶段：候选池构建（Candidate-Pool Construction） 目标是最小化漏检，确保所有正确的代码都包含在候选池中。研究对原有的 RASC 检索基线进行了优化，引入了基于词汇表感知的扩展（vocabulary-aware expansion）和代码显示救援检索（code-display rescue retrieval）。
第二阶段：受限 LLM 裁决（Constrained LLM Adjudication） 目标是从候选池中筛选出最终正确的代码。模型被限制只能从第一阶段生成的候选池中选择，从而确保所有输出的代码都是可审计的，避免了 LLM 凭空捏造代码的风险。

2. 实验结果：召回率的显著提升

在完整的 3,744 个值集的 RASC 测试集上，使用基于 Qwen3 的检索模型配合上述优化策略，候选池的召回率从原始 RASC 检索基线的 0.553 大幅提升至 0.730。

在保留的出版商分层（held-out-publisher stratum）测试中，池召回率达到 0.655。
这表明优化后的检索策略能够更有效地捕捉到所需的临床代码。

3. 实验结果：裁决器的关键作用

仅仅拥有高召回率的候选池并不足以保证最终结果的准确性。研究对比了不同裁决器的表现：

传统模型局限：将原始 RASC 中的 SAPBert 交叉编码器应用于这个扩大后的候选池，全测试集的宏观 F1 分数仅为 0.287，保留出版商分层的宏观 F1 分数仅为 0.233。这说明传统的深度学习模型在处理这种复杂的选择任务时存在瓶颈。
LLM 裁决优势：当用盲测的 GPT-5 作为第二阶段的选择器时，性能发生质的飞跃。全测试集的宏观 F1 分数提升至 0.549，保留出版商分层的宏观 F1 分数提升至 0.533。

4. 核心结论

检索约束下的 LLM 裁决机制（Retrieval-Constrained LLM Adjudication）能够显著提高值集补全的准确性。更重要的是，它保留了一个关键的安全约束：所有返回的代码必须来自经过审计的候选池。这种机制既利用了 LLM 强大的推理和选择能力，又通过检索步骤限制了 LLM 的幻觉风险，实现了准确性与安全性的平衡。

关键要点

问题痛点：直接让 LLM 生成临床值集效果差，因为临床代码系统庞大、版本多且 LLM 记忆不可靠。
解决方案：采用“检索增强 + LLM 裁决”的两阶段架构。先通过高精度检索构建候选池，再由 LLM 在池内做选择。
检索优化：使用基于 Qwen3 的检索模型，结合词汇表感知扩展和代码显示救援检索，将候选池召回率从 0.553 提升至 0.730。
裁决器对比：传统的 SAPBert 模型在扩大候选池后表现依然不佳（F1 ~0.28），而 GPT-5 作为裁决器能将 F1 提升至 0.549 左右，显示出 LLM 在复杂选择任务上的优势。
安全约束：该方法确保所有输出的代码均来自可审计的候选池，避免了 LLM 生成不存在或错误代码的风险，符合医疗领域对安全性和可追溯性的严格要求。

意义与影响

RASC+ 的研究成果对医疗人工智能和临床信息学领域具有重要的实践意义：

解决 LLM 在垂直领域的落地难题：证明了在处理高度专业化、强约束的知识密集型任务（如临床编码）时，纯生成式方法行不通，而“检索增强 + 约束生成”的混合架构是更优解。
提升临床数据标准化效率：临床值集的构建通常耗时且依赖专家知识。RASC+ 方法通过自动化流程显著提高了构建效率和准确性，有助于加速电子健康记录（EHR）数据的标准化进程。
平衡创新与安全：在医疗场景中，AI 系统的“幻觉”可能是致命的。RASC+ 通过强制 LLM 从可信候选池中选择，既利用了大模型的智能，又守住了数据准确性的底线，为其他高风险领域的 AI 应用提供了可借鉴的安全范式。
推动基准测试发展：该研究基于 RASC 基准，进一步验证了该基准的有效性，并为未来评估 LLM 在结构化知识任务中的表现提供了新的评估维度和基线。

查看原文 →arxiv.org