AI 资讯量子位·21 小时前

通用AI补上多轮追问能力，方能跨越医疗应用门槛

原标题：AI看病成为医患新包袱？补上「多轮追问」，通用AI才迈得过医疗关

速览

文章指出通用AI在医疗领域面临挑战，核心在于缺乏类似医生的多轮追问能力。通过M4模型作为“大脑”与百小医系统作为“身体”的结合，旨在提升AI在复杂诊疗场景中的表现。这一突破有助于通用AI真正跨越医疗应用的关键门槛，成为医患的有效辅助工具。

AI 深度解读

背景

随着通用大模型技术的普及，公众对AI“看病”的依赖度显著上升。越来越多患者习惯将症状、化验单及病历输入AI，并带着AI生成的“自我判断结果”前往医院求证。这一现象导致医患沟通成本增加，部分一线医生反馈门诊中携带AI结论的患者比例极高（如某三甲医院医生提及上午30个号中有25人携带AI结论）。

尽管官方媒体多次提醒通用AI在医疗场景中的不可靠性，但AI已不可避免地进入医疗决策的前置环节。这引发了行业内的分化：一方面，通用大模型正成为健康信息的第一入口；另一方面，医疗行业强调通用模型不适合直接承担医疗判断。在此背景下，如何构建一种“能被病人托付”的医疗增强型大模型，成为行业关注的焦点。百川智能推出的Baichuan-M4及其C端产品“百小医”，正是在这一方向上的系统性回答。

核心内容

百川智能通过Baichuan-M4模型与“百小医”产品，试图解决通用大模型在医疗场景中缺乏连续性、证据支撑不足及交互浅层化的问题。M4并非简单的问答优化，而是从“单点问答”向“医疗过程能力重构”的转变，具体体现在以下四个维度的升级：

1. 多轮追问与深度诊疗能力 真实问诊是一个持续追问与信息补全的过程。M4基于SCAN-bench 2.0体系，将训练场景从单次标准化问诊扩展至多轮访视与复杂患者画像。

评测表现：在动态问诊评测SCAN-bench中，M4初诊得分79.0，复诊74.7，均领先其他顶尖模型；长上下文临床记忆得分86.9，较上一代M3提升21.1分。
实际应用：在“百小医”中，模型能通过连续追问（如针对急性脚痛患者追问饮食、发作频率、用药史等）逐步缩小风险范围，模拟真实门诊的复诊逻辑。

2. 证据驱动的循证医学能力 为解决通用模型“幻觉”及引用文献与结论不匹配的问题，M4构建了原子化临床路径体系，将复杂医学指南拆解为1000余个可复用临床决策单元，覆盖200余种常见疾病。

证据锚定机制：确保每一句结论都能精确落到原文的具体段落，实现可追溯。
评测表现：在Baichuan-EBM评测中，循证引用精度达到90.0，显著高于GPT-5.5的54.7。

3. Harness调度与全病程记忆 M4引入了Harness架构作为神经中枢，自主决定何时追问、检索证据或调取病史，无需人工逐步指令。

全病程记忆：打通历史病历、多轮问诊、化验趋势与用药反馈，使模型在多次对话中始终掌握患者上下文。
安全与迭代：系统实时约束违规工具调用及不合规范操作，并将线上疑难案例、用户追问及医生纠偏经脱敏后回流，用于模型持续迭代。
案例：通过长期健康记录捕捉到老人“走一圈就喘”的细碎线索，提醒早期心功能不全风险，并成功说服患者就医，后续结果印证了决策的正确性。

4. 多模态与稳定性增强 针对复杂检验报告和影像，M4强化了多模态能力，在复杂检验报告结构化识别方面得分0.914，确保在复杂信息输入下的稳定判断。

整体而言，M4作为“大脑”，通过百小医这一“身体”，实现了从“回答问题”到“参与诊疗过程”，从“单次交互”到“连续托付”的转变，旨在构建医生负责诊断治疗、AI负责诊室外长期陪伴的“双医模式”。

关键要点

模型定位：Baichuan-M4是百川智能推出的医疗增强大模型，旨在通过结构性重构与专项增强，使通用大模型具备承担医疗辅助判断的能力。
核心指标：
- HealthBench综合得分68.6，Hard任务49.7，幻觉率降至3.3%。
- HealthBench Professional基础推理得分55.1，高于GPT-5.5（51.8）。
- 循证引用精度90.0，显著优于GPT-5.5（54.7）。
技术突破：
- 多轮追问：具备在信息不完整情况下持续推进诊疗路径的能力，长上下文临床记忆得分86.9。
- 原子化路径：拆解1000余个临床决策单元，覆盖200余种疾病。
- Harness架构：实现任务并行处理与自主调度，确保诊疗过程的安全性与连续性。
产品形态：“百小医”作为C端应用，填补了家庭场景下的医疗语境缺口，通过高频交互沉淀健康上下文，实现诊室外的长期健康管理。
临床验证：在中国医学科学院肿瘤医院、北京儿童医院、上海瑞金医院等机构的测试中，百小医安全性达到99.6%，深度互动率60%-73%。
生态愿景：构建围绕AI家庭医生的医疗健康新生态，连接药企、器械厂商及体检机构，更精准地触达用户需求。

意义与影响

百川智能选择医疗这一高风险、高复杂度场景作为通用大模型的“考场”，具有深远的行业意义：

重新定义医疗AI的价值：证明了通用大模型经过专项增强后，可以超越简单的问答工具，成为具备循证能力、长期记忆和主动关怀能力的医疗智能体。
填补家庭医疗空白：长期以来，家庭场景在医疗语境下被忽视。百小医通过记录细碎的健康线索和长期上下文，将专业级医疗能力带入普通家庭，缓解了异地子女对父母健康的焦虑，减少了因信息不对称导致的就医弯路。
推动“双医模式”落地：明确了AI与医生的分工边界——AI负责诊室外的陪伴、信息整理和风险提醒，医生负责核心诊断与治疗。这种模式有望降低医患沟通成本，提升整体医疗效率。
催生新医疗生态：AI家庭医生作为入口，有望打破药企、器械商与患者之间的信息壁垒，推动医疗服务从院内延伸至院外，形成更精准、更具针对性的健康管理新生态。

M4与百小医的结合，不仅是一次技术能力的展示，更是对“医疗从来都不是只属于医院的事情”这一理念的实践，旨在通过技术手段让大众在健康决策中少一点慌张，多一点安心。

查看原文 →qbitai.com

通用AI补上多轮追问能力，方能跨越医疗应用门槛

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐