AI 资讯量子位·7 天前

7B模型打败o3、GPT-5！医学AI智能体让模型学会“看哪里、怎么看”

原标题：7B打败o3、GPT-5！医学AI智能体让模型学会“看哪里、怎么看”

速览

最新研究显示，仅7B参数的医学AI智能体在性能上超越了o3和GPT-5等大模型。该突破关键在于让模型学会精准定位与解读医学影像，实现了“看哪里、怎么看”的能力跃升。这标志着医学AI智能体发展迎来了关键拐点，有望大幅降低算力门槛并推动临床落地。

AI 深度解读

背景

医学多模态大模型在临床应用中面临一个核心痛点：模型虽然能够生成看似完整的解释，但这并不代表它真正“看到”了关键的视觉证据。传统的医学AI工作流通常是将影像或视频编码为静态的视觉特征，随后由大语言模型生成答案。这种“被动接收”视觉上下文的方式，导致模型在面对微小病灶、边界细微变化或短暂的手术动作时，极易出现看错区域、漏看病灶或误判的情况。

为了解决这一“视觉交互机制不足”的问题，上海创智学院 LeapQuest 团队联合浙江大学、上海交通大学、复旦大学，在 ICML 2026 上发表了两项突破性研究。这两项工作首次将“Think with Images”（看图思考）和“Think with Videos”（看视频思考）范式引入医学 AI 领域，旨在让模型从被动接收信息转变为在推理过程中主动调用视觉工具、查证证据并修正判断。

核心内容

这两项研究分别针对医学图像和临床长视频场景，提出了名为 Ophiuchus 和 MedScope 的医学 AI 智能体框架，共同构建了医学多模态推理的新范式。

Ophiuchus：面向医学图像的 Tool-Augmented Think with Images

Ophiuchus 旨在解决医学图像诊断中细粒度视觉证据缺失的问题。其核心机制是将大模型改造为一个能与外部视觉工具协同工作的智能体，使视觉证据成为推理链的一部分。

主动视觉交互：模型不再一次性处理整张图像，而是根据当前的推理状态，主动决定是否需要调用外部工具。
工具协同机制：Ophiuchus 集成了多种视觉工具，包括使用 SAM2 进行精细分割、利用 BiomedParse 根据文本提示定位医学结构，以及通过 Zoom-in 放大关键区域。
闭环推理：工具返回的观察结果（Observation）并非孤立存在，而是直接反馈回推理链，驱动下一步的判断。模型需要学会何时调用工具、选择何种工具、如何解释工具输出，并在工具结果不可靠时修正策略。
性能表现：在同等外部工具配置下，Ophiuchus-7B 在 8 个视觉问答（VQA）基准测试中取得了 68.0 的平均分，显著高于 OpenAI-o3（62.2）、Gemini 2.5 Pro（61.8）和 GPT-5（59.9）。其工具调用准确率达到 97.9%。

MedScope：面向临床长视频的 Think with Videos

MedScope 将上述范式扩展至更具挑战性的临床长视频场景。长视频中的关键证据往往具有“细粒度”和“稀疏性”特征，且对时间同步性要求极高。

模拟临床观察方式：MedScope 不将整段视频压缩为单一上下文，而是模拟医生的观察逻辑：先建立全局理解，再针对可疑时间窗进行回溯。
动态证据检索：模型通过 crop_video 截取片段、get_frame 获取关键帧，将局部观察结果整合进最终答案。这种机制使得推理过程具备天然的可审查性——不仅看模型“说了什么”，还能追溯其“回看了哪一段视频、找到了哪些帧”。
数据与训练体系：
- ClinVideoSuite 数据集：包含 635K 时间戳密集标注、254K 证据关联问答、34K 视觉思维链（Visual CoT）轨迹，以及用于强化学习的交互式训练环境。
- 三阶段训练路线：
  - 第一阶段：临床推理 Warm-up，学习医学语义和长程视频理解。
  - 第二阶段：Visual-CoT Cold-start SFT，教会模型何时需要更多证据及如何调用工具。
  - 第三阶段：GA-GRPO 强化学习，通过 grounding-aware reward 和 evidence-modulated advantage，强化时序对齐的工具使用，使模型更倾向于检索真正支持结论的视觉片段。
性能表现：MedScope 在 SVU-31K、ClinVideo-Eval 等评测中取得开源模型 SOTA。研究指出，若移除证据奖励机制，定位质量显著下降（如 [email protected] 从 40.1 降至 33.2），证明仅靠答案级监督不足以教会模型可靠选择证据。

关键要点

范式转变：从“被动接收视觉特征”转向“主动调用视觉工具”，视觉证据从输入数据变为模型思考过程的一部分。
Ophiuchus 的核心能力：实现了图像诊断中的“重新看一眼”，通过 SAM2、BiomedParse 等工具实现细粒度病灶定位与验证，7B 参数模型在 VQA 任务上超越 o3 和 GPT-5。
MedScope 的核心能力：实现了视频诊断中的“回看关键时刻”，通过动态截取和帧提取解决长视频中的稀疏证据定位问题，具备高度的可解释性和可审查性。
训练创新：引入 Visual CoT（视觉思维链）和 GA-GRPO（接地感知强化学习），强调问题必须依赖局部时间窗或区域中的视觉证据，而非仅靠语言推理。
可解释性提升：推理过程不再是黑盒的语言生成，而是语言、工具、图像区域、视频片段和证据反馈之间的闭环交互，清晰展示了“假设-查证-修正-回答”的过程。
数据驱动：构建了专门针对医学视觉推理的数据集（ClinVideoSuite），强调时间戳密集标注和证据关联，填补了现有数据在时序证据对齐上的空白。

意义与影响

这两项工作标志着医学 AI Agent 发展到了一个关键拐点，其深远影响体现在以下几个方面：

重新定义医学 AI 的推理边界：传统的多模态模型往往止步于“生成答案”，而 Ophiuchus 和 MedScope 证明了模型可以“边看边想”。推理不再仅仅是语言 Token 的展开，而是围绕证据进行的动态视觉探索。这为构建真正具备临床视觉推理能力的 AI 奠定了技术基础。
提升临床可信度与安全性：医学任务对证据链的要求极高。通过让模型主动寻找、验证并引用视觉证据，新范式显著减少了幻觉（Hallucination），增强了模型的可解释性。医生不仅可以查看结论，还可以审查模型依据的视觉证据是否准确，这更符合放射科、病理科及外科医生的真实工作流。
推动通用视觉问答向垂直领域深化：研究表明，在依赖局部结构、病灶边界和细胞级证据的任务中，模型大小或通用语言推理能力并非唯一瓶颈。引入“Think with Images/Videos”机制，使得较小参数规模的模型（如 7B）在特定医学任务上能够超越更大规模的通用闭源模型（如 o3、GPT-5），证明了专用视觉交互机制在垂直领域的巨大潜力。
为下一代医学 AI Agent 提供标准化路径： LeapQuest 团队提出的这一范式，从方法论上确立了“基于证据的观察、验证与行动”的技术路线。这不仅适用于当前的图像和视频分析，也为未来更复杂的医疗交互场景（如手术机器人辅助、实时内镜监控）提供了可扩展的框架。

查看原文 →qbitai.com