技术博客arXiv cs.AI·8 天前

面向语音处理任务的机器人-患者与医生-患者医疗对话数据集

原标题：A Dataset of Robot-Patient and Doctor-Patient Medical Dialogues for Spoken Language Processing Tasks

速览

本文提出MeDial-Speech数据集，包含111小时真实医疗对话语音，涵盖四种病症。通过句子选择基准评估GPT-5 mini等LLM，发现Claude Sonnet 4表现最佳。研究揭示LLM在医疗预测中存在高置信度偏差。

AI 深度解读

MeDial-Speech：面向医疗对话的语音数据集与LLM基准测试深度解读

背景

尽管大型语言模型（LLMs）在通用人工智能任务中带来了巨大的性能提升，但在医疗领域的具体应用，尤其是针对文本或口语化的医疗咨询场景，仍然是一个未完全解决的开放研究问题。现有的医疗AI研究多集中于结构化数据或书面文本，缺乏针对真实世界口语交互的高质量数据支持。

此外，随着机器人技术在医疗护理中的潜在应用日益受到关注，如何评估机器人在面对患者时的语言处理能力，特别是区分“机器人-患者”与“医生-患者”对话模式的差异，成为亟待突破的技术瓶颈。为此，研究人员提出了 MeDial-Speech 数据集，旨在填补这一空白，为训练和评估能够与患者进行咨询的医疗AI（Med-AIs）提供基础。

核心内容

本文介绍了一个名为 MeDial-Speech 的新型语音数据集，该数据集专门用于训练和评估能够执行患者咨询任务的医疗AI系统。以下是该研究的核心要素：

1. 数据采集与环境

真实场景采集：数据并非来自实验室模拟，而是从真实环境中收集的“机器人-患者”和“医生-患者”对话录音。这种设计确保了数据的高保真度和现实相关性。
数据规模：数据集包含超过 111小时 的语音数据。
无数据增强：为了保持数据的原始性和真实性，研究明确指出未使用任何数据增强技术（如变声、加噪等），这对于评估模型在自然噪声环境下的鲁棒性至关重要。

2. 覆盖的健康状况

该数据集涵盖了四种具体的健康状况，以确保模型在不同病理背景下的泛化能力：

路易体痴呆症（Lewy body dementia）
心力衰竭（heart failure）
肩痛（shoulder pain）
心绞痛（angina）

3. 对话基准测试方法

为了评估LLMs在医疗对话中的表现，研究者提出了一种基于句子选择（Sentence Selection）的对话基准测试方法：

任务形式：模型需要从20个选项中选出最合适的回复句子。
评估对象：选取了三款最先进的LLMs进行测试：
- GPT-5 mini
- DeepSeek-V3
- Claude Sonnet 4

4. 实验结果

最佳表现者：Claude Sonnet 4 在句子选择任务中表现最佳。
- 使用人工转录文本时，准确率为 71.1%。
- 使用自动转录文本时，准确率为 74.7%。
过度自信现象：实验发现，无论模型在医疗对话中选择了正确还是错误的句子，所有被测试的LLMs在概率预测上都表现出高度的过度自信（Overconfidence）。这意味着模型往往对其输出的确定性估计过高，即使该输出可能是错误的，这在医疗安全领域是一个值得警惕的风险点。

5. 数据获取

该数据集对非商业用途免费开放，可通过 arXiv 页面提供的链接获取。

关键要点

填补口语医疗数据空白：MeDial-Speech 是首个包含大量真实世界“机器人-患者”和“医生-患者”对话的语音数据集，解决了医疗AI缺乏口语交互数据的问题。
多病种覆盖：数据集涵盖神经退行性疾病（路易体痴呆）、心血管疾病（心力衰竭、心绞痛）及骨科问题（肩痛），具有广泛的临床代表性。
LLM性能评估新基准：通过20选1的句子选择任务，量化评估了 GPT-5 mini、DeepSeek-V3 和 Claude Sonnet 4 在医疗对话中的表现。
Claude Sonnet 4 领先：在当前测试的模型中，Claude Sonnet 4 在医疗对话理解任务中准确率最高，且自动转录下的表现甚至略优于人工转录。
LLM的“过度自信”隐患：所有主流LLMs在医疗对话中均表现出概率预测的过度自信，提示在部署医疗AI时需引入额外的置信度校准或人工审核机制，以防范误诊风险。
非商业免费开放：数据集向非商业研究免费开放，促进了学术界的协作与创新。

意义与影响

MeDial-Speech 的发布对医疗人工智能领域具有深远的影响：

推动医疗对话AI的落地：通过提供真实、无增强的语音数据，该数据集使得训练能够处理自然口语、背景噪音及情感细微差别的医疗AI成为可能，加速了智能问诊机器人和远程医疗辅助工具的开发。
揭示LLM在垂直领域的局限性：尽管LLMs在通用任务上表现优异，但其在医疗对话中的准确率（最高约75%）以及“过度自信”的特性，揭示了当前通用大模型在专业领域直接应用的不足。这强调了领域自适应（Domain Adaptation）和专门化微调的必要性。
促进人机交互研究：通过对比“机器人-患者”和“医生-患者”的对话数据，研究者可以更深入地分析人类与机器在医疗沟通中的差异，为优化机器人交互设计提供数据支持。
安全与伦理考量：LLM的过度自信现象提醒开发者，在医疗等高敏感领域，不能仅依赖模型的输出概率，必须建立严格的安全护栏和人类监督机制，以确保患者安全。

总之，MeDial-Speech 不仅是一个数据集，更是评估和推动医疗口语AI技术发展的重要基准，为未来更安全、更有效的智能医疗咨询系统奠定了基础。

查看原文 →arxiv.org