技术博客arXiv cs.AI·7 天前

C-MIG：基于多视图信息增益的临床诊断检索增强生成

原标题：C-MIG: Multi-view Information Gain-based Retrieval-Augmented Generation for Clinical Diagnosis Reasoning

速览

针对现有方法依赖精确匹配奖励导致信号丢失的问题，研究提出C-MIG框架。该方法从检索文档和文档优化两个互补视图估计信息增益，联合指导检索与优化过程。实验表明，C-MIG在多个医疗基准测试中性能最优，超越了最先进的通用大模型。

AI 深度解读

C-MIG：基于多视图信息增益的检索增强生成，用于临床诊断推理

背景

在医疗领域，将大型语言模型（LLM）与可信赖的医学证据相结合，一直是提升其临床诊断能力的关键方向。检索增强生成（Retrieval-Augmented Generation, RAG）结合强化学习（Reinforcement Learning, RL）的方法，已被证明能够显著改善 LLM 在医疗场景下的表现，使其回答更加 grounded（基于事实/证据）。

然而，现有的 RAG-RL 方法主要依赖“精确匹配的二元奖励”（exact-match binary rewards）。这种机制在临床诊断推理中存在两个显著缺陷：

有价值学习信号的丢失：如果推理步骤在语义上与正确答案相关，但不是逐字匹配（verbatim），模型会收到零奖励信号。这导致模型无法从这些部分正确的、但语义相关的步骤中学习，浪费了宝贵的反馈信息。
信用分配困难：单一的维度奖励无法有效监督异构的推理能力。临床诊断涉及复杂的逻辑链条，简单的二元反馈难以区分不同推理环节的贡献度，导致模型难以优化具体的推理策略。

为了解决上述问题，研究团队提出了 C-MIG（Clinical Diagnosis Multi-view Information Gain-based Retrieval-Augmented Generation），一种基于多视图信息增益的检索增强生成框架。

核心内容

C-MIG 的核心创新在于引入“信息增益”（Information Gain）作为奖励信号，并通过两个互补的视图来估计这一增益，从而更精细地指导模型的检索和生成过程。

1. 基于多视图的信息增益估计

C-MIG 在一个冻结的参考模型（frozen reference model）下，从两个互补的视角估算信息增益：

检索文档视图（Retrieved-document view）：评估检索到的文档对最终诊断结果的贡献。这有助于指导模型“检索什么”，即选择哪些外部知识最能提升诊断的准确性。
文档精炼视图（Document-refinement view）：评估模型对检索到的文档进行理解和精炼的过程。这有助于指导模型“如何精炼”，即如何更好地利用检索到的信息来构建推理链条。

通过联合优化这两个视图，C-MIG 旨在缓解传统方法中奖励信号丢失和信用分配（credit assignment）不准确的问题。它不再仅仅关注最终答案是否正确，而是关注推理过程中的每一步是否增加了关于正确答案的信息量。

2. 多子查询检索增强策略

为了进一步提升临床诊断场景下的知识召回覆盖率，C-MIG 设计了一种多子查询检索增强策略（multi-subquery retrieval augmentation strategy）。

临床诊断往往涉及多个维度的症状、病史和检查结果。单一查询可能无法覆盖所有相关信息。C-MIG 通过将复杂的诊断问题分解为多个子查询，分别检索相关文档，然后综合这些信息生成最终诊断。这种方法显著提高了模型获取全面、多角度医学知识的能力。

3. 实验验证

研究团队在四个医学基准数据集上对 C-MIG 进行了全面评估，包括域内（in-domain）和域外（out-of-domain）测试集。实验结果表明：

C-MIG 在所有 RAG-RL 方法中取得了最佳性能。
C-MIG 在临床诊断任务上超越了最先进的通用大型语言模型（SOTA general-purpose LLMs）。

这些结果证明了基于多视图信息增益的奖励机制和多子查询检索策略在提升医疗 LLM 推理能力方面的有效性。

关键要点

问题痛点：现有 RAG-RL 方法依赖精确匹配的二元奖励，导致语义相关但非逐字匹配的推理步骤被忽略，且单一奖励无法有效监督复杂的异构推理过程。
核心方法：提出 C-MIG 框架，基于冻结参考模型估算信息增益，而非简单的二元奖励。
双视图机制：
- 检索文档视图：指导“检索什么”，优化外部知识的选择。
- 文档精炼视图：指导“如何精炼”，优化内部推理和知识整合。
策略创新：引入多子查询检索增强策略，提高临床诊断场景下的知识召回覆盖率，确保多角度信息的获取。
性能表现：在四个医学基准上，C-MIG 在域内和域外测试中均优于其他 RAG-RL 方法，并超越了当前最先进的通用 LLM。

意义与影响

C-MIG 的提出为医疗领域的大语言模型应用提供了新的思路。它解决了传统 RAG-RL 方法在医疗推理中奖励信号稀疏和信用分配困难的问题，使得模型能够更细致地学习和优化其推理过程。

通过引入信息增益和多视图机制，C-MIG 不仅提高了诊断的准确性，还增强了模型的可解释性和可靠性。这对于临床诊断辅助系统至关重要，因为医生需要理解模型做出诊断的依据，而不仅仅是得到一个结果。

此外，多子查询检索策略的应用，展示了如何处理复杂、多维度的医疗信息，为未来更复杂的医疗 AI 系统奠定了基础。C-MIG 的成功表明，结合强化学习与精细化的奖励设计，可以显著提升 LLM 在专业领域（如医疗）的表现，使其更接近临床实际需求。

查看原文 →arxiv.org