Cross-Domain Feature Expansion for Tabular Medical Data via Knowledge Graphs Injection
AI 深度解读
MedKGTab:通过知识图谱注入实现表格医学数据的跨领域特征扩展
背景
在医学研究领域,获取全面且跨领域的生物医学特征往往成本极高且耗时漫长,这直接导致了严重的数据稀缺问题。现有的医疗数据不仅存在大量缺失值,而且在跨不同医学队列(cohorts)进行泛化时也面临巨大挑战。虽然大语言模型(LLM)和生成式AI在数据生成方面展现出潜力,但传统的基于Tokenization(分词)的处理方式会破坏表格数据中精确的数值分布,造成结构性损失。如何在保持数据高保真度的前提下,利用已有特征推断未采集的跨领域生物医学特征,成为当前医学AI亟待突破的瓶颈。
核心内容
针对上述挑战,本文提出了 MedKGTab,一个专为表格医学数据跨领域特征扩展而设计的知识注入框架。MedKGTab的核心目标是从现有的生物医学特征中推断出未采集的特征,这一过程深度依赖于特征内在的统计依赖性和既定的医学相关性。
MedKGTab的技术实现包含以下三个核心模块:
- 行-列双注意力机制(Row-Column Dual-Attention Mechanism):该机制直接在原始的结构化表格数据上运行,无需将数值转换为Token,从而天然地捕获了精确的数值分布,彻底避免了传统方法因分词而带来的结构性损失。
- 数据与知识的最优协同(Optimal Synergy of Data and Knowledge):MedKGTab并非单纯依赖数据驱动,而是将数据驱动的统计先验与 SPOKE 生物医学知识图谱进行了深度融合。在这个协同框架中,数据通道生成的表示会由注入的医学知识进行调制(Modulated),确保最终生成数据的每一个特征都建立在经验医学研究的基础之上,而非纯粹的数学拟合。
- 跨领域特征扩展能力:该框架不仅适用于同一数据集内的缺失特征推断,还能在不同医学队列之间进行有效的特征泛化。
实验结果表明,MedKGTab在跨领域特征扩展任务中实现了极高的数据保真度和真实的数据表示。与当前的SOTA(State-of-the-Art)模型相比
查看原文 →arxiv.org
