技术博客arXiv cs.CL·3 小时前

CLExEval: A Human-in-the-Loop Framework for Qualitative Evaluation of LLM Clinical Reasoning

AI 深度解读

背景

随着大语言模型（LLM）在各类医学基准测试中展现出优异的得分，其在临床推理中的应用潜力备受瞩目。然而，高分并不等同于高可靠性。当前医学AI评估面临的核心痛点在于“评估错觉”：LLM生成的解释往往流畅且结构严谨，即使在最终诊断错误的情况下，也极具临床说服力，从而让评估者误以为其推理过程是正确的。现有的自动化评估指标难以穿透这种表象，捕捉到深层的逻辑谬误或知识检索失败。因此，急需一种能够剥离语言伪装、直击临床推理本质的评估范式。

核心内容

本文提出了 CLExEval，一种基于人机协同的LLM临床推理定性评估框架。该框架的核心机制是“渐进式信息掩码”，即在信息逐渐受限的条件下评估模型的推理能力，以测试其是否真正掌握了临床知识而非仅仅依赖

查看原文 →arxiv.org

CLExEval: A Human-in-the-Loop Framework for Qualitative Evaluation of LLM Clinical Reasoning

AI 深度解读

背景

核心内容

相关推荐