← 返回信息流
技术博客arXiv cs.AI·2 小时前

MMIR-TCM:记忆增强多模态中医临床决策支持框架

原标题:MMIR-TCM: Memory-Integrated Multimodal Inference and Retrieval for TCM Clinical Decision Support

速览

中医诊断尤其是舌诊长期面临主观性与可重复性难题。MMIR-TCM 创新框架模拟专家诊断流程,整合 MLLM 记忆增强分割、Qwen3-VL 结构化诊断生成与基于 Qwen3 的 RAG 证据生成。 该框架采用三阶段架构,训练无记忆 SAM 模块实现稳健舌像提取,并结合新 MedTCM 大规模数据集及 TDEU 专用评价指标。 实验结果表明,MMIR-TCM 在临床准确性上超越领先模型,为中医智能化决策提供可靠技术支撑。

AI 深度解读

背景

传统中医(TCM)诊断,特别是通过舌诊,长期面临主观性和可重复性不足的问题。这使得中医临床任务(如证型辨识和处方生成)难以大规模应用人工智能技术。现有多模态人工智能方法存在严重的语义鸿沟:舌部视觉特征与文本推理之间难以有效映射,同时缺乏大规模、标准化的数据集,进一步阻碍了该领域的发展。

为了解决这些关键障碍,研究人员提出了MMIR-TCM框架。该框架模拟中医专家的诊断过程,通过将多模态大语言模型(MLLM)与记忆增强的分割和检索增强生成(RAG)技术结合,实现对TCM临床决策支持的创新赋能。

核心内容

MMIR-TCM采用三阶段架构,全面整合了记忆增强的多模态推理与检索机制。

第一阶段为训练-free的Memory-SAM模块,用于实现舌象的鲁棒提取。该模块无需额外训练参数即可从原始图像中精准分割出舌部区域。

第二阶段使用微调后的Qwen3-VL模型,对分割后的舌部图像进行结构化诊断生成。该模型能够将视觉特征转化为可解释的舌诊报告。

第三阶段通过基于Qwen3的RAG组件,实现基于证据的临床决策支持生成。RAG机制从记忆库中检索相关知识,生成与中医文献和专家经验高度一致的决策输出。

整个框架由研究人员新构建的MedTCM数据集进行训练和验证。MedTCM是专为先进TCM研究设计的大型多模态数据集,包含丰富的舌象图像与临床标注。

为准确评估MMIR-TCM的临床准确性,研究者开发了TDEU领域特定评估指标。该指标同时纳入语义理解能力与诊断重要性考量,弥补了现有通用指标的不足。

通过全面实验验证,MMIR-TCM显著优于领先的多模态模型,包括GPT-4o和Gemini 2.5 Flash,在TCM临床任务上展现出更强的诊断准确性和实用性。

关键要点

  • MMIR-TCM模拟中医专家诊断流程,结合MLLM、记忆增强分割与RAG生成,实现从舌诊到临床决策的闭环推理。
  • 采用三阶段架构:训练-free Memory-SAM(舌部鲁棒提取)+ 微调Qwen3-VL(结构化舌诊生成)+ Qwen3-based RAG(证据驱动决策生成)。
  • 首个专为TCM设计的MedTCM数据集提供训练基础,解决传统数据集匮乏问题。
  • 提出TDEU评估指标,融合语义理解与诊断重要性,精准捕捉临床准确性(现有指标无法有效评估)。
  • 实验证明MMIR-TCM在TCM临床任务中优于GPT-4o和Gemini 2.5 Flash,显著提升诊断可复现性与决策可靠性。

意义与影响

MMIR-TCM为TCM临床决策支持提供了一种系统化、可规模化的智能工具,有效降低了舌诊的主观性障碍,增强了诊断的可重复性和客观性。该框架为TCM与其他传统医学的数字转化奠定了技术基础,推动多模态人工智能在中医药领域的深度应用与临床落地。未来,该方法有望与其他中医诊断方式(如脉诊、八纲辨证)进一步融合,加速实现“中医现代化”的目标。

查看原文 →arxiv.org