← 返回信息流
技术博客arXiv cs.CL·3 小时前

CLExEval: A Human-in-the-Loop Framework for Qualitative Evaluation of LLM Clinical Reasoning

AI 深度解读

背景

随着大语言模型(LLM)在各类医学基准测试中展现出优异的得分,其在临床推理中的应用潜力备受瞩目。然而,高分并不等同于高可靠性。当前医学AI评估面临的核心痛点在于“评估错觉”:LLM生成的解释往往流畅且结构严谨,即使在最终诊断错误的情况下,也极具临床说服力,从而让评估者误以为其推理过程是正确的。现有的自动化评估指标难以穿透这种表象,捕捉到深层的逻辑谬误或知识检索失败。因此,急需一种能够剥离语言伪装、直击临床推理本质的评估范式。

核心内容

本文提出了 CLExEval,一种基于人机协同的LLM临床推理定性评估框架。该框架的核心机制是“渐进式信息掩码”,即在信息逐渐受限的条件下评估模型的推理能力,以测试其是否真正掌握了临床知识而非仅仅依赖

查看原文 →arxiv.org