临床代理使用世界反馈诊断强化学习问题
速览
arXiv 2607.01470论文分析临床代理协议执行任务,SME编码的验证器可提供无限无标注世界反馈。审计MedAgentBench发现41.7%沉默完成天花板,主导RL inaction策略。构建MAB-v3后,Qwen3-8B训练暴露两大结构障碍:能力天花板(10/20任务类型0%基线)和格式知识壁垒(需精确临床代码)。纯RL达18.2% pass@1,差距源于壁垒;提出决策/格式知识/查找分类预测RL可学性,并建议SFT注入代码后RL学习条件。
AI 深度解读
背景
临床协议执行任务,例如检查实验室值、应用阈值或放置正确结构化的 FHIR 订单,这些任务天然适合基于世界反馈的强化学习(RL)。一旦临床医学专家(SMEs)将决策逻辑编码为验证器,该验证器便能对无限量的 rollout 进行评分,而无需每次 episode 进行标注。然而,应用 RL 需要一个可靠的反馈渠道和足够的基座能力。
本文对 MedAgentBench v1/v2 进行了审计,发现存在 41.7% 的 silent-finish 天花板,这导致 inaction(不采取行动)成为 RL 的主导策略。
为了验证这一发现,研究构建了 MedAgentBench-v3(MAB-v3),包含 508 个任务,天花板为 8.9%。
核心内容
MedAgentBench v1/v2 的审计结果
对 MedAgentBench v1/v2 的审计揭示了显著的 silent-finish 问题:41.7% 的任务在验证器看来无需任何动作即可完成(silent-finish)。这使得 inaction 成为强化学习中的最优策略,因为任何形式的行动都会降低成功率。
MedAgentBench-v3 的构建
为克服这一缺陷,研究团队构建了 MedAgentBench-v3(MAB-v3),任务数量增加至 508 个,天花板降至 8.9%。这一新基准旨在更好地模拟真实临床协议执行场景,同时更严格地测试代理的决策能力。
训练与性能评估
使用 Qwen3-8B 模型进行训练,实验暴露了两个结构性障碍:
- 能力天花板(capability ceiling):在 20 个任务类型中,有 10 个任务类型的基座性能为 0%,因此无法获得梯度信号。
- 格式-知识障碍(format-knowledge barrier):其中 3 个任务类型需要精确的临床代码,而这些代码无法通过探索发现。
纯强化学习(Pure RL)在 MAB-v3 上的 pass@1 得分为 18.2%,而基于规则的监督微调(rule-based SFT)则达到 34.1%。两者之间的 15.9 个百分点的差距完全可归因于上述两个结构性障碍。
决策/格式-知识/查找分类法
研究团队提出了一种分类法,将任务划分为三类:决策任务、格式-知识任务和查找任务。该分类法可预测 RL 的可学习性,并给出针对性的修复方案:
- 对于格式-知识任务(3/20 类型),通过监督微调(SFT)注入缺失的临床代码即可解决。
- 对于需要学习条件性的决策任务,则适用强化学习。
关键要点
- 临床协议执行任务适合使用验证器作为世界反馈源,允许无限 rollout 评分,无需人工标注。
- MedAgentBench v1/v2 存在 41.7% silent-finish 天花板, inaction 成为 RL 最优策略。
- MedAgentBench-v3(MAB-v3)包含 508 个任务,天花板降至 8.9%,为更严格的临床代理基准。
- Qwen3-8B 训练暴露两个结构障碍:10/20 任务类型 0% 基座性能(零梯度),3/20 类型需要精确临床代码(无法通过探索发现)。
- Pure RL 仅达 18.2% pass@1,rule-based SFT 达 34.1%,15.9 pp 差距完全源于上述障碍。
- 决策/format-knowledge/lookup 分类法可预测 RL 学习性,并推荐 SFT 注入代码 + RL 学习条件性的混合策略。
意义与影响
该研究为临床代理的强化学习部署提供了关键诊断工具和实践指导。它揭示了现有基准的隐含缺陷,并通过 MAB-v3 构建了可行的新基准,明确区分了能力限制与知识限制。
提出的分类法不仅预测了哪些任务适合 RL,哪些需要 SFT 辅助,还为临床协议自动化提供了可操作的混合训练范式。这一工作有助于推动医疗 AI 从单纯模仿学习向可靠、自主的临床决策系统演进,尤其是在需要精确执行 FHIR 订单等高风险场景中。未来,混合 SFT+RL 方法有望显著提升代理在真实医疗环境中的安全性和可扩展性。
