AI 资讯Hacker News·1 小时前

我用Claude Code获取了MRI影像的第二诊疗意见

原标题：I used Claude Code to get a second opinion on my MRI

速览

本文作者分享了使用Claude Code这一AI编程工具来辅助解读个人MRI医学影像的经历。通过让AI分析影像数据，作者获得了关于健康状况的第二诊疗意见。这一案例展示了大型语言模型在医疗信息处理和辅助诊断方面的实际应用价值。

AI 深度解读

我用 Claude Code 让 Opus 4.8 为我的 MRI 报告提供“第二意见”

背景

作者近期因右肩疼痛数周，尽管症状看似有所缓解，仍决定咨询骨科专家。医生在建议后进行了一项 MRI（磁共振成像）检查。诊断结果显示，作者的肩胛下肌（subscapularis tendon）尖端附着处存在“III 级（>50% 宽度）部分厚度撕裂”。

基于这一诊断，诊所立即开始了一系列广泛的治疗方案，包括在作者离开前进行的三次重复治疗建议。然而，作者直觉认为医生可能“操之过急”（jumped the gun）。在离开诊所前，作者要求获取 MRI 结果副本及所有已执行和推荐治疗的详细列表。

出于对医疗建议的疑虑，作者首先将数据发送给了 GPT 5.5 Pro，随后决定利用 Claude Code 和 Opus 4.8 模型对原始 MRI 数据进行独立的技术分析，以获取真正的“第二意见”。

核心内容

初步筛查：GPT 5.5 Pro 的警示

作者首先将诊所的治疗记录和 MRI 结果发送给 GPT 5.5 Pro 进行初步审查。模型立即指出了两个令人担忧的问题：

冲击波疗法的不当使用：诊所对作者的肩膀进行了冲击波疗法。然而，最近的临床实践指南明确指出，对于没有钙化的肩袖肌腱病，临床医生不应使用或推荐冲击波疗法。作者在超声波检查中被告知没有钙化。
药物使用的争议：诊所向作者注射了 Traumeel。在德国，这是一种注册为“无治疗适应症”的顺势疗法药物。

这些发现并未增加作者对诊所专业性的信任，反而促使作者对 MRI 影像本身进行更深入的分析。

技术实施：使用 Claude Code 与 Opus 4.8

为了对 MRI 进行独立分析，作者采取了以下技术步骤：

数据格式：MRI 包为标准 DICOM 导出格式，包含数百个无扩展名的文件，总大小约 266 MB。
工具选择：作者选择了 Claude Code 环境下的 Opus 4.8 (xhigh) 模型。作者强调，使用 Claude Code 而非普通的 Claude.ai 聊天界面至关重要，因为它允许模型运行代码、安装必要的分析包并执行大量计算工作。即使底层模型相同，这种代码执行能力的差异也是巨大的。
指令设定：鉴于作者不懂 MRI 解读，他指示 Opus 4.8 先制定详细的分析计划，再执行操作。初始指令仅包含“右肩疼痛 2-3 周”，这比人类医生获得的临床背景信息要少得多。

第一轮分析结果：截然相反的结论

经过约一小时的处理，Opus 4.8 生成了第一份报告。其结论与人类医生的诊断存在根本性冲突：

人类医生诊断：III 级（>50%）部分厚度撕裂。
Opus 4.8 诊断：肌腱完整（intact tendon），未发现撕裂。

这一极端差异令作者感到不安。他原本预期 AI 给出的分级会较低，但“完全正常”的结论超出了预期。

仲裁与最终裁决

为了调和两个报告之间的巨大分歧，作者让 Claude 进行对比分析。这次，作者提供了更多上下文，包括人类医生的报告以及之前与 ChatGPT 5.5 Pro 的对话记录（其中包含用于自我诊断的动作和姿势建议）。

Opus 4.8 采用了谨慎且系统的方法，使用多个子代理（subagents）生成不受现有上下文偏见影响的新分析。经过又一小时的计算，仲裁报告得出以下结论：

仲裁者裁决：证据倾向于读者 A（中等至高置信度）。轻度插入性肌腱病；未发现离散的部分或全厚度撕裂，包括尖端附着处。

作者注意到，Opus 4.8 不仅敢于指出两份报告中的争议点，还能在无法解决某些争议时保持诚实，但在关键问题上却给出了非常果断的结论。

作者的困境与反思

尽管 AI 的分析表明诊所的诊断和治疗计划可能过于激进且缺乏充分依据，但作者并未因此获得完全的安心。

信任危机：人类专家带来的“被托付感”被 AI 的介入打破。虽然 AI 揭示了潜在的问题，但作者并不完全信任 AI 的结论。
两难境地：作者处于一种悬而未决的状态（limbo），既不确定是否该尝试另一位医生，也不确定继续目前的康复训练是否足够。
未来展望：作者希望在未来几代模型的发展中，人们能像信任 AI 校对邮件一样信任 AI 对 MRI 的审查能力。

最后，作者强调不点名诊所或医生，因为重点在于分享利用 AI 获取医疗第二意见的技术好奇心。他明确表示，自己、AI 或医生都可能出错，本文内容不应被视为医疗建议。

关键要点

AI 可作为医疗数据的初步筛查工具：GPT 5.5 Pro 成功识别出诊所可能违反临床指南的治疗行为（无钙化使用冲击波疗法）及争议性药物使用（Traumeel），提示用户关注潜在的不当医疗行为。
代码执行能力是关键：使用 Claude Code 而非普通聊天界面，使得 Opus 4.8 能够安装依赖包、运行代码并处理大型 DICOM 数据集，这是进行复杂技术分析的必要条件。
AI 诊断可能与人类专家存在巨大分歧：在本案中，AI 得出“肌腱完整”的结论，而人类医生诊断为“III 级撕裂”。这种极端差异凸显了当前 AI 在医学影像解读上的不确定性和潜在风险。
上下文信息的重要性：AI 的分析质量高度依赖于输入的背景信息。作者仅提供简单的症状描述，而人类医生拥有更全面的临床背景，这可能影响了 AI 的判断准确性。
技术乐观主义与信任悖论：虽然 AI 提供了有价值的第二意见，揭示了医疗决策中可能存在的过度干预，但用户并未因此获得安全感，反而陷入了对 AI 和人类专家双重不信任的困境。
非医疗建议声明：作者反复强调，AI 的分析结果、人类医生的诊断以及作者自身的解读都可能存在错误，本文仅作为技术探索分享，绝非医疗建议。

意义与影响

1. 医疗决策透明度的提升潜力

本文展示了利用大语言模型（LLM）和代码解释器审查医疗记录的可能性。AI 能够快速比对临床指南与实际操作，识别出潜在的不规范治疗（如不当使用冲击波疗法）。这为患者在面对复杂医疗建议时提供了一种低成本、高效率的“合规性检查”手段，有助于减少过度医疗。

2. AI 在医学影像领域的局限性与挑战

尽管 Opus 4.8 展示了处理 DICOM 数据和生成分析报告的能力，但其结论与人类专家存在根本性冲突。这表明，当前的 AI 模型在缺乏充分临床上下文（如病史、体格检查、动态影像观察）的情况下，仅凭静态影像数据进行诊断仍面临巨大挑战。AI 的“自信”结论可能与事实相去甚远，提醒开发者需更加谨慎地评估 AI 在高风险医疗场景中的可靠性。

3. “代码执行”在专业领域应用的价值

作者特别强调了 Claude Code 的重要性。这一案例表明，在需要数据处理、包管理和复杂逻辑推理的专业领域，具备代码执行能力的 AI 代理（Agent）比纯文本对话模型具有显著优势。这种模式为未来开发更复杂的医疗数据分析工具提供了参考范式。

4. 医患信任关系的重构

AI 的介入打破了传统的医患信任结构。患者不再单纯依赖医生的权威，而是引入了一个“数字仲裁者”。然而，当 AI 与医生意见相左时，患者往往陷入更深的焦虑。这提示我们，AI 在医疗中的应用不应仅仅是提供另一个答案，更需要具备解释其推理过程、量化置信度以及明确自身局限性的能力，以帮助患者做出更明智的决策。

5. 数据隐私与伦理考量

虽然作者未公开诊所信息，但将个人医疗数据（DICOM 文件）上传至公共 AI 平台仍存在隐私风险

查看原文 →antoine.fi