MMIR-TCM:记忆增强多模态中医临床决策支持框架
速览
中医诊断尤其是舌诊长期面临主观性与可重复性难题。MMIR-TCM 创新框架模拟专家诊断流程,整合 MLLM 记忆增强分割、Qwen3-VL 结构化诊断生成与基于 Qwen3 的 RAG 证据生成。 该框架采用三阶段架构,训练无记忆 SAM 模块实现稳健舌像提取,并结合新 MedTCM 大规模数据集及 TDEU 专用评价指标。 实验结果表明,MMIR-TCM 在临床准确性上超越领先模型,为中医智能化决策提供可靠技术支撑。
AI 深度解读
背景
传统中医(TCM)诊断,特别是通过舌诊,长期面临主观性和可重复性不足的问题。这使得中医临床任务(如证型辨识和处方生成)难以大规模应用人工智能技术。现有多模态人工智能方法存在严重的语义鸿沟:舌部视觉特征与文本推理之间难以有效映射,同时缺乏大规模、标准化的数据集,进一步阻碍了该领域的发展。
为了解决这些关键障碍,研究人员提出了MMIR-TCM框架。该框架模拟中医专家的诊断过程,通过将多模态大语言模型(MLLM)与记忆增强的分割和检索增强生成(RAG)技术结合,实现对TCM临床决策支持的创新赋能。
核心内容
MMIR-TCM采用三阶段架构,全面整合了记忆增强的多模态推理与检索机制。
第一阶段为训练-free的Memory-SAM模块,用于实现舌象的鲁棒提取。该模块无需额外训练参数即可从原始图像中精准分割出舌部区域。
第二阶段使用微调后的Qwen3-VL模型,对分割后的舌部图像进行结构化诊断生成。该模型能够将视觉特征转化为可解释的舌诊报告。
第三阶段通过基于Qwen3的RAG组件,实现基于证据的临床决策支持生成。RAG机制从记忆库中检索相关知识,生成与中医文献和专家经验高度一致的决策输出。
整个框架由研究人员新构建的MedTCM数据集进行训练和验证。MedTCM是专为先进TCM研究设计的大型多模态数据集,包含丰富的舌象图像与临床标注。
为准确评估MMIR-TCM的临床准确性,研究者开发了TDEU领域特定评估指标。该指标同时纳入语义理解能力与诊断重要性考量,弥补了现有通用指标的不足。
通过全面实验验证,MMIR-TCM显著优于领先的多模态模型,包括GPT-4o和Gemini 2.5 Flash,在TCM临床任务上展现出更强的诊断准确性和实用性。
关键要点
- MMIR-TCM模拟中医专家诊断流程,结合MLLM、记忆增强分割与RAG生成,实现从舌诊到临床决策的闭环推理。
- 采用三阶段架构:训练-free Memory-SAM(舌部鲁棒提取)+ 微调Qwen3-VL(结构化舌诊生成)+ Qwen3-based RAG(证据驱动决策生成)。
- 首个专为TCM设计的MedTCM数据集提供训练基础,解决传统数据集匮乏问题。
- 提出TDEU评估指标,融合语义理解与诊断重要性,精准捕捉临床准确性(现有指标无法有效评估)。
- 实验证明MMIR-TCM在TCM临床任务中优于GPT-4o和Gemini 2.5 Flash,显著提升诊断可复现性与决策可靠性。
意义与影响
MMIR-TCM为TCM临床决策支持提供了一种系统化、可规模化的智能工具,有效降低了舌诊的主观性障碍,增强了诊断的可重复性和客观性。该框架为TCM与其他传统医学的数字转化奠定了技术基础,推动多模态人工智能在中医药领域的深度应用与临床落地。未来,该方法有望与其他中医诊断方式(如脉诊、八纲辨证)进一步融合,加速实现“中医现代化”的目标。
