技术博客arXiv cs.CL·3 小时前

MedLatentDx：基于潜在多智能体通信的跨院罕见病诊断

原标题：MedLatentDx: Latent Multi-Agent Communication for Cross-Hospital Rare-Disease Diagnosis

速览

针对罕见病数据分散且隐私受限的难题，研究提出MedLatentDx框架。该框架允许医院在保留本地病历隐私的前提下，通过发送压缩的潜在KV块与主机智能体通信。实验表明，该方法在提升跨院诊断性能的同时，有效降低了临床内容被重构的风险。

AI 深度解读

MedLatentDx：基于潜在多智能体通信的跨医院罕见病诊断

背景

罕见病（Rare Diseases）是全球医疗体系面临的巨大挑战。据统计，全球有超过 3 亿患者受困于 7,000 多种不同的罕见病。由于每种罕见病的发病率极低，没有任何一家单一医院能够积累足够多的特定病例，从而难以依靠内部数据建立可靠的诊断模型。

为了解决数据孤岛问题，跨医院协作（Cross-hospital collaboration）成为一种潜在的解决方案。通过允许诊断机构利用分布式的、针对特定病例的诊断证据，可以显著提升诊断能力。然而，这种协作面临着严峻的隐私合规挑战：严格的隐私法规（如 HIPAA 或 GDPR）限制了可识别的临床文本数据在机构边界之间的传输。

现有的医疗智能体（Medical Agent）系统大多依赖于文本证据的交换，但这在隐私保护方面存在漏洞。更关键的是，即使不直接传输文本，原始的潜在状态（如隐藏状态 hidden states 和 KV 缓存 KV caches）仍可能通过逆向工程泄露提示词（prompt）中衍生的临床内容。这一矛盾催生了新的技术需求：如何在保护患者隐私的前提下，实现高效的跨机构医疗智能体协作。

核心内容

针对上述挑战，研究团队提出了 MedLatentDx，这是一种基于潜在多智能体通信（Latent Multi-Agent Communication）的框架，旨在实现跨医院的罕见病诊断。

1. 核心机制：潜在 KV 块通信

MedLatentDx 的核心创新在于改变了智能体之间的通信内容。在该框架中：

本地保留隐私数据：各医院的智能体（Hospital Agents）将私有的临床记录和检索到的病例保留在本地，绝不外传。
传输潜在表示：医院智能体仅向主机智能体（Host Agent）发送紧凑的潜在 KV 块（Latent KV blocks）。
集中诊断：主机智能体利用接收到的这些潜在块进行罕见病诊断。

这种设计旨在通过压缩和转换数据形式，在保留诊断所需信息的同时，最大程度地减少可重构的临床内容。

2. 两种部署场景与适配技术

MedLatentDx 支持两种不同的部署设置，以应对不同医院间大语言模型（LLM）基础架构差异的问题：

同基座模型场景（Same-Backbone）：当参与协作的医院使用相同的 LLM 基座模型时，系统采用**潜在 KV 蒸馏（Latent KV Distillation）**技术。这使得医院智能体能够生成与主机智能体兼容的潜在表示，从而实现高效的特征对齐和知识传递。
跨基座模型场景（Different LLM Backbones）：当医院使用不同家族或架构的 LLM 时，系统采用**跨家族潜在对齐（Cross-Family Latent Alignment）**技术。这项技术解决了异构模型间潜在空间不兼容的问题，使得即使底层模型不同，也能实现有效的潜在通信。

3. 评估基准：CrossRare-Bench

为了验证该方法的有效性，研究团队构建了 CrossRare-Bench，这是一个自建的、大规模的罕见病基准测试集。该基准测试的一个关键特征是拥有医院级别的分区（Hospital-level partitions），能够更真实地模拟跨机构协作中的数据分布和隐私边界。

实验结果表明，与基于原始潜在通信的基线方法相比，MedLatentDx 在提升跨医院诊断性能的同时，显著降低了可重构的临床内容风险，证明了其在隐私保护与诊断效能之间的良好平衡。

关键要点

隐私与协作的平衡：MedLatentDx 解决了跨医院罕见病诊断中“数据可用不可见”的难题，通过不传输原始临床文本，符合严格的隐私法规。
通信内容的革新：摒弃了传统的文本交换或原始隐藏状态传输，转而使用紧凑的“潜在 KV 块”作为通信媒介，既保留了诊断所需的语义信息，又增加了数据重构的难度。
异构模型兼容性：通过引入“潜在 KV 蒸馏”和“跨家族潜在对齐”两种机制，MedLatentDx 能够适应医院间使用相同或不同 LLM 基座的复杂现实场景。
基准测试的真实性：自建基准 CrossRare-Bench 采用了医院级分区，更准确地反映了真实世界中跨机构数据分布不均和隐私隔离的情况。
性能与安全的提升：实验数据显示，该方法在提高诊断准确率的同时，有效降低了从潜在状态中逆向推导临床信息的可能性，优于现有的原始潜在通信基线。

意义与影响

MedLatentDx 的提出标志着医疗人工智能在隐私计算和多智能体协作领域的重要进展。

首先，它为打破医疗数据孤岛提供了新的技术路径。在罕见病诊疗中，数据量的稀缺是主要瓶颈，而隐私法规往往是数据共享的最大障碍。MedLatentDx 证明，通过潜在空间的通信而非原始数据的传输，可以在合规的前提下实现多中心协作，这对于提升罕见病的确诊率具有直接的临床价值。

其次，该技术拓展了大语言模型在垂直领域的应用边界。通过解决异构 LLM 间的潜在对齐问题，MedLatentDx 展示了如何将不同厂商、不同架构的医疗 AI 系统整合到一个协作网络中，促进了医疗 AI 生态系统的互操作性。

最后，这项工作强调了“隐私增强技术”（Privacy-Enhancing Technologies, PETs）在 AI 落地中的关键作用。随着 AI 在医疗领域的深入应用，如何在利用数据价值的同时保护患者隐私，将是行业发展的核心议题。MedLatentDx 提供的潜在通信范式，为未来构建更安全、更可信的分布式医疗智能体网络奠定了理论基础和技术原型。

查看原文 →arxiv.org