技术博客arXiv cs.AI·2 小时前

临床代理使用世界反馈诊断强化学习问题

原标题：World Feedback for Clinical Agents: Diagnosing RL in FHIR Environments

速览

arXiv 2607.01470论文分析临床代理协议执行任务，SME编码的验证器可提供无限无标注世界反馈。审计MedAgentBench发现41.7%沉默完成天花板，主导RL inaction策略。构建MAB-v3后，Qwen3-8B训练暴露两大结构障碍：能力天花板（10/20任务类型0%基线）和格式知识壁垒（需精确临床代码）。纯RL达18.2% pass@1，差距源于壁垒；提出决策/格式知识/查找分类预测RL可学性，并建议SFT注入代码后RL学习条件。

AI 深度解读

背景

临床协议执行任务，例如检查实验室值、应用阈值或放置正确结构化的 FHIR 订单，这些任务天然适合基于世界反馈的强化学习（RL）。一旦临床医学专家（SMEs）将决策逻辑编码为验证器，该验证器便能对无限量的 rollout 进行评分，而无需每次 episode 进行标注。然而，应用 RL 需要一个可靠的反馈渠道和足够的基座能力。

本文对 MedAgentBench v1/v2 进行了审计，发现存在 41.7% 的 silent-finish 天花板，这导致 inaction（不采取行动）成为 RL 的主导策略。

为了验证这一发现，研究构建了 MedAgentBench-v3（MAB-v3），包含 508 个任务，天花板为 8.9%。

核心内容

MedAgentBench v1/v2 的审计结果

对 MedAgentBench v1/v2 的审计揭示了显著的 silent-finish 问题：41.7% 的任务在验证器看来无需任何动作即可完成（silent-finish）。这使得 inaction 成为强化学习中的最优策略，因为任何形式的行动都会降低成功率。

MedAgentBench-v3 的构建

为克服这一缺陷，研究团队构建了 MedAgentBench-v3（MAB-v3），任务数量增加至 508 个，天花板降至 8.9%。这一新基准旨在更好地模拟真实临床协议执行场景，同时更严格地测试代理的决策能力。

训练与性能评估

使用 Qwen3-8B 模型进行训练，实验暴露了两个结构性障碍：

能力天花板（capability ceiling）：在 20 个任务类型中，有 10 个任务类型的基座性能为 0%，因此无法获得梯度信号。
格式-知识障碍（format-knowledge barrier）：其中 3 个任务类型需要精确的临床代码，而这些代码无法通过探索发现。

纯强化学习（Pure RL）在 MAB-v3 上的 pass@1 得分为 18.2%，而基于规则的监督微调（rule-based SFT）则达到 34.1%。两者之间的 15.9 个百分点的差距完全可归因于上述两个结构性障碍。

决策/格式-知识/查找分类法

研究团队提出了一种分类法，将任务划分为三类：决策任务、格式-知识任务和查找任务。该分类法可预测 RL 的可学习性，并给出针对性的修复方案：

对于格式-知识任务（3/20 类型），通过监督微调（SFT）注入缺失的临床代码即可解决。
对于需要学习条件性的决策任务，则适用强化学习。

关键要点

临床协议执行任务适合使用验证器作为世界反馈源，允许无限 rollout 评分，无需人工标注。
MedAgentBench v1/v2 存在 41.7% silent-finish 天花板， inaction 成为 RL 最优策略。
MedAgentBench-v3（MAB-v3）包含 508 个任务，天花板降至 8.9%，为更严格的临床代理基准。
Qwen3-8B 训练暴露两个结构障碍：10/20 任务类型 0% 基座性能（零梯度），3/20 类型需要精确临床代码（无法通过探索发现）。
Pure RL 仅达 18.2% pass@1，rule-based SFT 达 34.1%，15.9 pp 差距完全源于上述障碍。
决策/format-knowledge/lookup 分类法可预测 RL 学习性，并推荐 SFT 注入代码 + RL 学习条件性的混合策略。

意义与影响

该研究为临床代理的强化学习部署提供了关键诊断工具和实践指导。它揭示了现有基准的隐含缺陷，并通过 MAB-v3 构建了可行的新基准，明确区分了能力限制与知识限制。

提出的分类法不仅预测了哪些任务适合 RL，哪些需要 SFT 辅助，还为临床协议自动化提供了可操作的混合训练范式。这一工作有助于推动医疗 AI 从单纯模仿学习向可靠、自主的临床决策系统演进，尤其是在需要精确执行 FHIR 订单等高风险场景中。未来，混合 SFT+RL 方法有望显著提升代理在真实医疗环境中的安全性和可扩展性。

查看原文 →arxiv.org