技术博客arXiv cs.AI·2 小时前

MMIR-TCM：记忆增强多模态中医临床决策支持框架

原标题：MMIR-TCM: Memory-Integrated Multimodal Inference and Retrieval for TCM Clinical Decision Support

速览

中医诊断尤其是舌诊长期面临主观性与可重复性难题。MMIR-TCM 创新框架模拟专家诊断流程，整合 MLLM 记忆增强分割、Qwen3-VL 结构化诊断生成与基于 Qwen3 的 RAG 证据生成。该框架采用三阶段架构，训练无记忆 SAM 模块实现稳健舌像提取，并结合新 MedTCM 大规模数据集及 TDEU 专用评价指标。实验结果表明，MMIR-TCM 在临床准确性上超越领先模型，为中医智能化决策提供可靠技术支撑。

AI 深度解读

背景

传统中医(TCM)诊断，特别是通过舌诊，长期面临主观性和可重复性不足的问题。这使得中医临床任务(如证型辨识和处方生成)难以大规模应用人工智能技术。现有多模态人工智能方法存在严重的语义鸿沟：舌部视觉特征与文本推理之间难以有效映射，同时缺乏大规模、标准化的数据集，进一步阻碍了该领域的发展。

为了解决这些关键障碍，研究人员提出了MMIR-TCM框架。该框架模拟中医专家的诊断过程，通过将多模态大语言模型(MLLM)与记忆增强的分割和检索增强生成(RAG)技术结合，实现对TCM临床决策支持的创新赋能。

核心内容

MMIR-TCM采用三阶段架构，全面整合了记忆增强的多模态推理与检索机制。

第一阶段为训练-free的Memory-SAM模块，用于实现舌象的鲁棒提取。该模块无需额外训练参数即可从原始图像中精准分割出舌部区域。

第二阶段使用微调后的Qwen3-VL模型，对分割后的舌部图像进行结构化诊断生成。该模型能够将视觉特征转化为可解释的舌诊报告。

第三阶段通过基于Qwen3的RAG组件，实现基于证据的临床决策支持生成。RAG机制从记忆库中检索相关知识，生成与中医文献和专家经验高度一致的决策输出。

整个框架由研究人员新构建的MedTCM数据集进行训练和验证。MedTCM是专为先进TCM研究设计的大型多模态数据集，包含丰富的舌象图像与临床标注。

为准确评估MMIR-TCM的临床准确性，研究者开发了TDEU领域特定评估指标。该指标同时纳入语义理解能力与诊断重要性考量，弥补了现有通用指标的不足。

通过全面实验验证，MMIR-TCM显著优于领先的多模态模型，包括GPT-4o和Gemini 2.5 Flash，在TCM临床任务上展现出更强的诊断准确性和实用性。

关键要点

MMIR-TCM模拟中医专家诊断流程，结合MLLM、记忆增强分割与RAG生成，实现从舌诊到临床决策的闭环推理。
采用三阶段架构：训练-free Memory-SAM（舌部鲁棒提取）+ 微调Qwen3-VL（结构化舌诊生成）+ Qwen3-based RAG（证据驱动决策生成）。
首个专为TCM设计的MedTCM数据集提供训练基础，解决传统数据集匮乏问题。
提出TDEU评估指标，融合语义理解与诊断重要性，精准捕捉临床准确性（现有指标无法有效评估）。
实验证明MMIR-TCM在TCM临床任务中优于GPT-4o和Gemini 2.5 Flash，显著提升诊断可复现性与决策可靠性。

意义与影响

MMIR-TCM为TCM临床决策支持提供了一种系统化、可规模化的智能工具，有效降低了舌诊的主观性障碍，增强了诊断的可重复性和客观性。该框架为TCM与其他传统医学的数字转化奠定了技术基础，推动多模态人工智能在中医药领域的深度应用与临床落地。未来，该方法有望与其他中医诊断方式（如脉诊、八纲辨证）进一步融合，加速实现“中医现代化”的目标。

查看原文 →arxiv.org

MMIR-TCM：记忆增强多模态中医临床决策支持框架

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐