技术博客OpenAI Blog·1 天前

AI辅助诊断儿童罕见遗传病，18例疑难病例获新确诊

原标题：Using AI to help physicians diagnose rare genetic diseases affecting children

速览

研究人员利用OpenAI的推理模型协助医生诊断影响儿童的罕见遗传疾病。该技术应用在既往无法确诊的病例中取得了突破，成功识别出18例新的诊断结果。这一成果展示了AI在复杂医疗诊断领域，特别是罕见病领域的巨大潜力和应用价值。

AI 深度解读

用 AI 辅助医生诊断儿童罕见遗传病

来源：OpenAI Blog 研究发表：NEJM AI (2026年6月18日)

背景

尽管基因组测序技术日益普及，但许多罕见病患者仍无法获得明确的遗传学诊断。在广泛测试和专家审查后，约有半数患者依然处于“未确诊”状态。这些患者的医疗数据中可能隐藏着关键线索，但发现这些线索的过程极其艰难：研究人员需要从成千上万甚至数百万种可能的基因变异中筛选，梳理碎片化的临床记录，并追踪 rapidly changing（快速变化）的科学文献。

随着新的基因-疾病关系、病例报告和分类证据的不断积累，曾经无法解读的病例可能变得可解释。然而，罕见病的重新分析不仅是一个科学问题，更是一个维护问题。患者的基因组保持不变，但围绕它的证据在不断变化：研究人员将新基因和变异与疾病联系起来，实验室重新分类旧变异，病例数据库和论文也不断积累新观察。每一次更新都可能让一个旧的“无结论”病例值得重新审视，导致许多机构面临着不断增长的基因组积压问题，需要使其与不断演进的数据库保持同步。

核心内容

波士顿儿童医院孤儿病研究中心（Manton Center for Orphan Disease Research）、哈佛大学与 OpenAI 的研究人员合作，利用 OpenAI o3 Deep Research 推理模型，对 376 例此前未解决的病例进行了重新分析。该研究旨在展示 AI 辅助的研究工作流如何帮助专家在回顾最具挑战性的病例时生成线索。

工作流程与方法

研究人员设计的工作流让模型作为现有基因组管道之上的“解释优先”推理层。模型不仅仅返回一个排名靠前的基因，而是被要求将临床特征、遗传模式、变异证据和科学文献连接起来，形成一份人类审查者可以深入质询的论证报告。

数据准备：团队为每个病例组装了一个去标识化的数据包，包含标准化的人类表型本体（Human Phenotype Ontology, HPO）术语以描述患者的临床表现、偶尔的临床医生笔记、描述性临床诊断、元数据（如年龄和性别）以及过滤后的变异表。该表记录了每个变异的稀有度、对编码蛋白的预测影响、ClinVar 分类以及在可用家庭成员中的信号质量。大多数病例包含了患儿及其双亲的数据。
模型推理：模型提出最合理的分子解释并展示其推理过程。
专家审查：研究人员使用临床实验室用于分类遗传变异的 ACMG/AMP 框架审查输出结果。至少两名团队成员审查每个候选结果，分歧通过共识解决。模型输出从未被视为诊断结果。
临床确认：只有经过合格专家审查证据、变异被分类为致病性或可能致病性、CLIA 认证实验室确认、且临床团队将结果反馈给家庭后，才计为确诊。

验证与评估

在分析未解决病例之前，团队在已有明确诊断的病例上优化了工作流：

在包含多种罕见病的 51 个病例中，48 个病例在重复运行中恢复了正确的基因和变异。
在 57 个神经肌肉病例组中，45 个病例在重复运行中返回了正确诊断。
在 15 个长读长基因组病例集中，模型在所有病例中都指出了正确的基因，并在 12 个病例中指出了两个致病变等位基因。

模型报告的置信分数与正确诊断高度相关：一致正确的调用平均最低分为 85.6，而错误或不确定的调用平均最低分为 42.1。虽然这些分数并非校准后的概率，也不替代证据或临床裁决，但它们有助于引导专家审查者关注最有希望的候选诊断。

未解决病例的分析结果

团队随后将该工作流应用于四组此前未解决的病例：患有神经发育障碍的儿童、患有罕见神经肌肉疾病的人群、患有早期精神病的儿童和青少年，以及儿科突发性意外死亡病例。这些并非等待首次审查的新病例，许多已经过多个商业或机构管道的检查，并由多学科团队讨论过。

经过模型提出候选方案、专家完成审查和临床确认后，医生在 4.8% 的病例中确立了诊断。这一比率虽然 modest（适度），但对于这一人群而言意义重大，因为之前的专家审查未能解决这些病例。类似的重新分析研究在重度审查的病例中报告了个位数的增益；较高的检出率通常来自包含新病例或等待遗传确认的已知疾病的研究。

具体发现与案例

在 18 个确诊案例中：

7 个为“再发现”：这些诊断在本地研究工作流之外已确立，但未包含在团队审查的记录中。这突显了跨数据源综合信息的操作挑战，因为某些变异在公共数据库中已被列为致病性或可能致病性。
早期精神病案例中的结构事件推断：在一个早期精神病病例中，模型推断出输入数据中未列出的基因组结构事件。它将 22 号染色体上一系列低质量调用与患儿的心脏、免疫、神经发育和精神病特征联系起来，假设存在与迪乔治综合征（DiGeorge syndrome）相关的 22q11.2 缺失。这一假设变异随后通过后续基因组测序得到确认。
双基因解释：尽管提示词要求寻找单基因原因，模型有时会提出两个更能解释复杂表现的基因。例如，在一个病例中，LAMA2 和 FOXP1 的变异共同解释了肌肉和神经发育特征；另一个病例涉及 TTN 和 SRPK3 的先前未被认识的双基因解释。
新机制解释：除了诊断，模型还识别出一种称为白癜风（vitiligo）的疾病的潜在新机制解释。在一个神经发育病例中，模型指出一名白癜风患者体内 S1PR1 基因存在一个 11 个氨基酸的缺失。S1PR1 编码一种参与信号传导、免疫细胞移动和...（原文在此处截断，通常指免疫调节或炎症反应）。

关键要点

AI 的角色定位：OpenAI o3 Deep Research 模型并未诊断任何患者或做出任何临床决定。它生成的是与证据相关的假设，供专家审查，并在适当情况下通过额外测试进行调查，最终由临床实验室确认。
诊断增益：在 376 例此前未解决的病例中，通过 AI 辅助重新分析，医生在 18 例（4.8%）中确立了诊断。考虑到这些病例此前已接受过专家审查，这一增益具有临床意义。
知识动态性：罕见病诊断的难点在于科学知识的快速迭代。相同的基因组数据随着新基因-疾病关联的发现，可能从“无结论”变为“可解释”。
复杂病例处理能力：模型能够处理跨数据库、不同标识符和词汇表的碎片化数据，并能推断出输入数据中未直接列出的结构变异（如 22q11.2 缺失）。
多基因与复杂表型：模型能够识别单基因之外的复杂解释，包括双基因（digenic）效应，这有助于解释那些不符合典型孟德尔遗传模式的复杂临床表现。
人机协作必要性：模型的置信分数虽有助于筛选，但不能替代临床裁决。所有候选结果均需经过至少两名专家的共识审查，并由 CLIA 认证实验室确认，才能成为正式诊断。

意义与影响

这项发表在 NEJM AI 上的研究展示了 AI 辅助研究工作流程在解决医学难题中的潜力。它表明，随着知识的演进，专家主导的定期重新分析可以变得更加可扩展。

对于罕见病患者而言，这意味着那些长期被诊断为“未确诊”或“无意义结果”的患者，有可能通过利用最新的科学知识和 AI 工具重新审视其数据，获得明确的诊断。这不仅有助于解释疾病机制，还可能为治疗提供方向。

此外，该研究强调了数据整合的重要性。临床数据往往分散在不同的系统中，使用不同的格式和术语，导致即使是专家也可能漏诊。AI 模型作为“解释优先”的推理层，能够跨越这些数据孤岛，将临床表型、遗传变异和文献证据联系起来，为人类专家提供可审查的论证链条。

最后，该研究也明确了 AI 在医疗诊断中的边界：它是辅助工具，用于生成假设和线索，而非替代医生或

查看原文 →openai.com