技术博客arXiv cs.CL·2 天前

大模型结合结构化数据预测心血管疾病风险

原标题：LLMs for Cardiovascular Risk Prediction from Structured Clinical Data

速览

针对冠心病这一全球主要死因，研究提出一种结合结构化临床数据与自然语言表示的混合预测框架。该框架利用大模型将1190条患者记录的结构化变量转化为可解释的临床叙事，并通过反向提取验证了94.61%的一致性。实验对比了随机森林等传统机器学习模型与基于GPT和Gemini的大模型分类效果，结果显示随机森林准确率最高，但大模型因能直接处理自然语言描述，在保护患者敏感数值隐私方面具有独特优势。

AI 深度解读

LLMs for Cardiovascular Risk Prediction from Structured Clinical Data

背景

冠状动脉疾病（Coronary Artery Disease, CAD）依然是全球主要的死亡原因之一，这凸显了开发可靠的预测系统以支持早期诊断和风险分层的迫切需求。在当前的医疗数据分析领域，传统机器学习模型在处理结构化临床数据方面表现优异，但在处理非结构化或半结构化信息时存在局限。与此同时，大型语言模型（LLMs）的出现为解读以自然语言表达的医疗信息提供了新的可能性。

然而，直接将结构化数据（如实验室数值、血压读数）转化为自然语言描述，并用于风险预测，面临着数据保真度（Fidelity）和隐私保护之间的平衡挑战。本研究旨在探索一种混合框架， bridging（连接）结构化临床数据与自然语言表示，以优化 CAD 的预测性能。

核心内容

本研究提出并评估了一种混合框架，该框架利用大型语言模型将结构化临床数据转化为可解释的特征表示和合成临床叙事（Synthetic Clinical Narratives），进而用于冠状动脉疾病的风险预测。

1. 数据集与预处理 研究使用了一个公开可用的数据集，包含 1,190 条患者记录，每条记录包含 11 个临床属性。研究的核心步骤是利用 LLMs 将这些结构化的变量转化为两种形式：

可解释的特征表示：用于模型理解的结构化文本特征。
合成临床叙事：模拟医生口吻的自然语言病历描述。

2. 保真度验证管道 为了确保 LLM 生成的文本准确反映了原始数据，研究构建了一个验证管道。该管道执行临床变量的反向提取（Reverse Extraction），即从生成的文本中重新提取关键临床指标，并计算其与原始记录的一致性得分（Consistency Score）。实验结果显示，该框架的平均保真度达到了 94.61%，证明了生成文本在保留关键临床信息方面的可靠性。

3. 模型对比实验 研究对比了两类预测方法：

传统机器学习模型：评估了四种常规机器学习算法。
基于 LLM 的分类模型：在零样本（Zero-shot）和少样本（Few-shot）提示设置下，使用 GPT 和 Gemini 两个大型语言模型进行分类任务。

4. 实验结果

性能表现：实验结果表明，随机森林（Random Forest） 在准确率上取得了最高分，优于基于 LLM 的分类方法。
LLM 的优势场景：尽管在纯数值预测精度上略逊一筹，但基于 LLM 的分类在现实世界的临床设置中仍具有显著优势。这是因为 LLMs 可以直接处理自然语言形式的患者描述，从而允许敏感的患者数值数据（如确切的实验室值、血压读数、诊断代码）保持私密状态，无需直接暴露给预测模型。

关键要点

混合框架创新：研究开发了一种将结构化临床数据转化为自然语言叙事的混合框架，实现了结构化数据与非结构化文本表示的桥梁作用。
高保真度生成：通过反向提取验证，LLM 生成的合成临床叙事与原始结构化数据的一致性平均达到 94.61%，确保了数据转换的准确性。
传统模型精度更高：在冠状动脉疾病预测任务中，传统机器学习模型（特别是随机森林）在准确率指标上优于基于 LLM 的分类模型。
隐私保护优势：LLM 方法的核心价值在于隐私保护。它允许模型直接在自然语言描述上操作，使得敏感的数值型患者数据（如具体化验值、血压）无需以明文形式输入模型，从而在数据利用与隐私保护之间取得平衡。
提示工程策略：研究在零样本（Zero-shot）和少样本（Few-shot）两种提示设置下评估了 GPT 和 Gemini 的性能，验证了 LLM 在无需大量微调情况下的泛化能力。

意义与影响

这项研究为临床预测系统开辟了新方向。虽然传统机器学习模型在结构化数据的数值预测上仍占据精度优势，但本研究证明了将结构化数据转化为自然语言叙事并辅以 LLM 处理的可行性与价值。

其核心意义在于隐私增强与数据利用的平衡。在现实医疗场景中，患者敏感数据的隐私保护至关重要。基于 LLM 的方法提供了一种途径，使得医疗机构可以在不直接暴露原始敏感数值数据的前提下，利用自然语言处理技术进行风险预测。这种混合方法结合了传统机器学习的精度潜力与 LLM 的语义理解及隐私保护能力，为未来构建更智能、更安全的临床决策支持系统提供了重要的理论依据和实践参考。

查看原文 →arxiv.org