← 返回信息流
AI 资讯量子位·21 小时前

通用AI补上多轮追问能力,方能跨越医疗应用门槛

原标题:AI看病成为医患新包袱?补上「多轮追问」,通用AI才迈得过医疗关

速览

文章指出通用AI在医疗领域面临挑战,核心在于缺乏类似医生的多轮追问能力。通过M4模型作为“大脑”与百小医系统作为“身体”的结合,旨在提升AI在复杂诊疗场景中的表现。这一突破有助于通用AI真正跨越医疗应用的关键门槛,成为医患的有效辅助工具。

AI 深度解读

背景

随着通用大模型技术的普及,公众对AI“看病”的依赖度显著上升。越来越多患者习惯将症状、化验单及病历输入AI,并带着AI生成的“自我判断结果”前往医院求证。这一现象导致医患沟通成本增加,部分一线医生反馈门诊中携带AI结论的患者比例极高(如某三甲医院医生提及上午30个号中有25人携带AI结论)。

尽管官方媒体多次提醒通用AI在医疗场景中的不可靠性,但AI已不可避免地进入医疗决策的前置环节。这引发了行业内的分化:一方面,通用大模型正成为健康信息的第一入口;另一方面,医疗行业强调通用模型不适合直接承担医疗判断。在此背景下,如何构建一种“能被病人托付”的医疗增强型大模型,成为行业关注的焦点。百川智能推出的Baichuan-M4及其C端产品“百小医”,正是在这一方向上的系统性回答。

核心内容

百川智能通过Baichuan-M4模型与“百小医”产品,试图解决通用大模型在医疗场景中缺乏连续性、证据支撑不足及交互浅层化的问题。M4并非简单的问答优化,而是从“单点问答”向“医疗过程能力重构”的转变,具体体现在以下四个维度的升级:

1. 多轮追问与深度诊疗能力 真实问诊是一个持续追问与信息补全的过程。M4基于SCAN-bench 2.0体系,将训练场景从单次标准化问诊扩展至多轮访视与复杂患者画像。

  • 评测表现:在动态问诊评测SCAN-bench中,M4初诊得分79.0,复诊74.7,均领先其他顶尖模型;长上下文临床记忆得分86.9,较上一代M3提升21.1分。
  • 实际应用:在“百小医”中,模型能通过连续追问(如针对急性脚痛患者追问饮食、发作频率、用药史等)逐步缩小风险范围,模拟真实门诊的复诊逻辑。

2. 证据驱动的循证医学能力 为解决通用模型“幻觉”及引用文献与结论不匹配的问题,M4构建了原子化临床路径体系,将复杂医学指南拆解为1000余个可复用临床决策单元,覆盖200余种常见疾病。

  • 证据锚定机制:确保每一句结论都能精确落到原文的具体段落,实现可追溯。
  • 评测表现:在Baichuan-EBM评测中,循证引用精度达到90.0,显著高于GPT-5.5的54.7。

3. Harness调度与全病程记忆 M4引入了Harness架构作为神经中枢,自主决定何时追问、检索证据或调取病史,无需人工逐步指令。

  • 全病程记忆:打通历史病历、多轮问诊、化验趋势与用药反馈,使模型在多次对话中始终掌握患者上下文。
  • 安全与迭代:系统实时约束违规工具调用及不合规范操作,并将线上疑难案例、用户追问及医生纠偏经脱敏后回流,用于模型持续迭代。
  • 案例:通过长期健康记录捕捉到老人“走一圈就喘”的细碎线索,提醒早期心功能不全风险,并成功说服患者就医,后续结果印证了决策的正确性。

4. 多模态与稳定性增强 针对复杂检验报告和影像,M4强化了多模态能力,在复杂检验报告结构化识别方面得分0.914,确保在复杂信息输入下的稳定判断。

整体而言,M4作为“大脑”,通过百小医这一“身体”,实现了从“回答问题”到“参与诊疗过程”,从“单次交互”到“连续托付”的转变,旨在构建医生负责诊断治疗、AI负责诊室外长期陪伴的“双医模式”。

关键要点

  • 模型定位:Baichuan-M4是百川智能推出的医疗增强大模型,旨在通过结构性重构与专项增强,使通用大模型具备承担医疗辅助判断的能力。
  • 核心指标
    • HealthBench综合得分68.6,Hard任务49.7,幻觉率降至3.3%。
    • HealthBench Professional基础推理得分55.1,高于GPT-5.5(51.8)。
    • 循证引用精度90.0,显著优于GPT-5.5(54.7)。
  • 技术突破
    • 多轮追问:具备在信息不完整情况下持续推进诊疗路径的能力,长上下文临床记忆得分86.9。
    • 原子化路径:拆解1000余个临床决策单元,覆盖200余种疾病。
    • Harness架构:实现任务并行处理与自主调度,确保诊疗过程的安全性与连续性。
  • 产品形态:“百小医”作为C端应用,填补了家庭场景下的医疗语境缺口,通过高频交互沉淀健康上下文,实现诊室外的长期健康管理。
  • 临床验证:在中国医学科学院肿瘤医院、北京儿童医院、上海瑞金医院等机构的测试中,百小医安全性达到99.6%,深度互动率60%-73%。
  • 生态愿景:构建围绕AI家庭医生的医疗健康新生态,连接药企、器械厂商及体检机构,更精准地触达用户需求。

意义与影响

百川智能选择医疗这一高风险、高复杂度场景作为通用大模型的“考场”,具有深远的行业意义:

  1. 重新定义医疗AI的价值:证明了通用大模型经过专项增强后,可以超越简单的问答工具,成为具备循证能力、长期记忆和主动关怀能力的医疗智能体。
  2. 填补家庭医疗空白:长期以来,家庭场景在医疗语境下被忽视。百小医通过记录细碎的健康线索和长期上下文,将专业级医疗能力带入普通家庭,缓解了异地子女对父母健康的焦虑,减少了因信息不对称导致的就医弯路。
  3. 推动“双医模式”落地:明确了AI与医生的分工边界——AI负责诊室外的陪伴、信息整理和风险提醒,医生负责核心诊断与治疗。这种模式有望降低医患沟通成本,提升整体医疗效率。
  4. 催生新医疗生态:AI家庭医生作为入口,有望打破药企、器械商与患者之间的信息壁垒,推动医疗服务从院内延伸至院外,形成更精准、更具针对性的健康管理新生态。

M4与百小医的结合,不仅是一次技术能力的展示,更是对“医疗从来都不是只属于医院的事情”这一理念的实践,旨在通过技术手段让大众在健康决策中少一点慌张,多一点安心。

查看原文 →qbitai.com