技术博客OpenAI Blog·1 天前

GPT-5.5 Instant 升级 ChatGPT 健康智能

原标题：Improving health intelligence in ChatGPT

速览

OpenAI 发布 GPT-5.5 Instant 模型，旨在显著改善 ChatGPT 在健康与保健领域的回答质量。该升级版本引入了更强的逻辑推理能力、更精准的上下文理解以及更清晰的表达方式。此外，回答内容还经过医生知情评估，以确保专业性和准确性。

AI 深度解读

深度解读：OpenAI 如何提升 ChatGPT 的健康智能

背景

健康是人类使用 ChatGPT 最具意义的应用场景之一。目前，每周有超过 2.3 亿用户向 ChatGPT 寻求健康与养生方面的帮助。这些需求涵盖了理解健康信息、解读实验室检查结果、准备就医咨询、处理保险事宜、建立更健康的习惯，以及确定下一步该询问什么内容。

随着 GPT‑5.5 Instant 的推出，OpenAI 在健康领域的智能水平迈出了实质性的一步。这一进展不仅得益于模型底层能力的提升，更离不开由医生主导的评估体系。GPT‑5.5 Instant 在识别紧急护理需求、询问相关背景、解释不确定性以及简化复杂信息方面表现显著。值得注意的是，在最具挑战性的健康评估中，GPT‑5.5 Instant 的表现已达到与 OpenAI 前沿 Thinking 模型相当的水平。由于该模型向所有 ChatGPT 免费用户开放，更多普通用户得以从中受益。

核心内容

OpenAI 在提升 ChatGPT 健康智能方面的进展，反映了模型能力的进步与医生主导的评估工作之间的紧密结合。其核心逻辑在于通过全球医生网络定义“良好”的健康回答标准，并以此衡量和改进模型表现。

1. 健康智能的定义与目标 在健康领域，进步意味着提供准确、易懂且基于良好判断力的回答。具体包括：

识别何时需要更多背景信息。
在不夸大自信的前提下解释不确定性。
帮助人们理解何时需要寻求医疗护理。

2. 评估体系：HealthBench 与医生同行评审 为了量化这一进步，OpenAI 使用了特定的健康评估工具，包括 HealthBench 和 HealthBench Professional。这些评估利用逼真的健康对话和由医生编写的评分标准，从准确性、安全性、沟通技巧、上下文意识、完整性以及适当的升级处理等多个维度对模型进行考核。

此外，OpenAI 还进行了一项对比实验：邀请医生在拥有无限时间和互联网访问权限（但不使用 AI）的情况下，为具有代表性的健康对话撰写回答。随后，由另一组医生组成的评审团将这些医生回答与模型回答进行对比，审查了 3,500 份回答，重点关注准确性、沟通、完整性、指令遵循以及对健康决策的帮助程度。

3. 性能对比：优于旧模型，甚至优于部分医生 评估结果显示，医生对 GPT‑5.5 Instant 的回答评价更高，其失败模式（failure modes）少于旧版模型，甚至在某些方面少于人类医生。具体而言，与旧模型和医生相比，GPT‑5.5 Instant 更少出现以下情况：

未针对当地医疗背景进行定制。
遗漏红旗警示（危险信号）或未建议转诊就医。
在需要时未能向用户寻求更多背景信息。

4. 生产环境数据验证 鉴于模型在健康领域的巨大使用规模，OpenAI 还通过监控生产流量来验证近期改进。通过隐私保护监控器追踪健康回答中可能的事实性问题，数据显示，在对比最近两周的生产流量（每周数十亿条消息）后，包含至少一个被标记事实性问题的回答率在过去两个月内下降了 71%。

5. 医生网络的深度参与 这一进步离不开 OpenAI 与全球 60 个国家、49 种语言、26 个医学专科的 260 多名医生组成的网络的合作。

规模与频率：截至目前，医生已审查了超过 700,000 个示例模型回答。每几分钟就有一位医生审查一个新的回答。
工作内容：医生审查回答的准确性、清晰度、完整性、谨慎程度和实用性，识别回答中可能遗漏的重要背景、过于自信的语气、下一步行动不明确或未能直接鼓励就医的情况。
反馈闭环：医生的反馈转化为评分标准和评估准则，帮助研究人员衡量模型在真实世界健康情境下的表现，明确模型进步之处及仍需改进的地方。

6. 更广泛的健康生态 这项工作也支持 OpenAI 更广泛的健康领域布局，包括为医疗保健专业人士设计的工具，如 ChatGPT for Clinicians 和 OpenAI for Healthcare，这些工具支持文档撰写、研究和护理交付等任务。

关键要点

用户规模巨大：每周超过 2.3 亿用户利用 ChatGPT 处理健康相关问题，涵盖从日常养生到复杂医疗咨询的广泛场景。
GPT‑5.5 Instant 的性能突破：
- 在健康评估中的表现达到与前沿 Thinking 模型相当的水平。
- 显著提升了识别紧急护理需求、解释不确定性和简化复杂信息的能力。
- 向所有免费用户开放，扩大了受益人群。
医生主导的评估体系：
- 建立由全球 260 多名医生组成的网络，覆盖 60 个国家、49 种语言和 26 个专科。
- 医生已审查超过 70 万条模型回答，每几分钟即有新增审查。
- 通过 HealthBench 等工具，结合医生编写的评分标准，从多维度（准确性、安全性、沟通等）量化模型表现。
优于旧模型及部分人类基准：
- 在对比实验中，GPT‑5.5 Instant 的失败模式少于旧版模型。
- 在避免遗漏关键背景、危险信号及未定制本地化建议方面，表现优于部分参与评估的医生。
事实性错误大幅减少：
- 基于每周数十亿条消息的生产流量监控显示，过去两个月内，包含事实性问题的回答率下降了 71%。
长期愿景：
- 提升人类健康将是通用人工智能（AGI）最具个人化和 tangible（可感知）的影响之一。
- OpenAI 致力于让 ChatGPT 在健康时刻更加准确、有用且具有影响力，并将这些进步带给更多人。

意义与影响

OpenAI 此次发布的健康智能改进报告，标志着 AI 在垂直专业领域（尤其是高风险的健康领域）从“可用”向“可靠”迈进的关键一步。

首先，引入医生主导的评估体系确立了行业新标准。通过让 260 多名专业医生参与定义“好”的回答，并审查超过 70 万条数据，OpenAI 证明了在健康领域，单纯依靠模型参数提升是不够的，必须结合人类专家的临床判断和伦理考量。这种“人机协作”的评估模式为其他高风险 AI 应用（如法律、金融）提供了可借鉴的范式。

其次，GPT‑5.5 Instant 的性能表现缓解了公众对 AI 健康建议准确性的担忧。数据显示，新版本在减少事实性错误（下降 71%）和避免关键医疗建议缺失方面表现优异，甚至在某些指标上优于人类医生。这不仅提升了用户体验，也为 AI 作为初级健康顾问或医疗辅助工具的角色提供了强有力的数据支持。

最后，免费开放前沿模型体现了普惠健康的愿景。通过将达到前沿 Thinking 模型水平的健康智能提供给所有免费用户，OpenAI 降低了获取高质量健康信息的门槛。结合 ChatGPT for Clinicians 等面向专业人士的工具，OpenAI 正在构建一个从普通用户到医疗从业者的完整健康 AI 生态，这可能对全球医疗资源的分配效率和可及性产生深远影响。

查看原文 →openai.com