← 返回信息流
技术博客arXiv cs.CL·23 小时前

微调大模型通过AI对话被动评估抑郁症严重程度

原标题:Fine-tuning LLMs for Passive Depression Severity Estimation from AI Mental Health Dialogue

速览

该研究提出一种被动式抑郁症严重程度评估方法,直接基于用户与AI心理健康应用的对话文本预测PHQ-9总分,无需额外临床数据。团队使用Qwen3.5-27B模型进行微调,并结合Claude Opus生成的伪标签扩充数据集。在测试集上,模型在PHQ-9>=10阈值下AUC达0.91,证明了其在全临床谱系中捕捉抑郁严重程度的能力。

AI 深度解读

基于大语言模型微调的被动式抑郁症严重程度评估:从AI心理对话中洞察用户状态

背景

抑郁症(Depression)是全球导致残疾的首要原因,对公共健康构成了严峻挑战。在临床实践和数字心理健康干预中,早期发现症状变化对于及时介入至关重要。目前,经过验证的量表工具,如患者健康问卷-9(Patient Health Questionnaire-9,简称 PHQ-9),被广泛用于大规模的症状监测。

然而,传统的基于自我报告(self-report)的监测方式在现实世界中面临巨大瓶颈。用户完成量表的意愿和依从性普遍较低,导致数据存在严重的响应偏差(response bias)和系统性缺失(systematic missingness)。这种数据缺口使得研究人员和临床医生难以获得连续、真实的精神健康状态数据。

为了解决这一痛点,被动式(Passive)监测方法应运而生。这种方法旨在从用户日常交互中常规生成的数据(如对话文本)中推断病情严重程度,从而无需用户主动填写问卷即可实现连续的症状监控。

核心内容

本研究提出了一种利用大型语言模型(LLM)直接从用户与AI心理健康应用的对话转录文本中预测 PHQ-9 总分的方法。该方法的独特优势在于,它仅依赖对话文本,无需任何额外的临床数据或用户主动提供的自我报告。

1. 模型架构与训练策略

研究团队采用了以下核心技术路径:

  • 基座模型:选用 Qwen3.5-27B 作为基础骨干网络,并在其顶部添加了一个回归头(regression head),用于输出连续的 PHQ-9 分数预测。
  • 数据增强与伪标签生成
    • 初始数据集包含 3,111 个带有真实标签(ground-truth labels)的用户数据。
    • 为了扩大训练规模并提升模型泛化能力,研究引入了伪标签(pseudolabels)。这些伪标签由推理模型 Claude Opus 生成,并结合了迭代训练中间模型的结果。
    • 最终构建了一个包含 6,283 名用户数据的混合数据集,用于微调模型。

2. 实验结果与性能评估

在包含 842 名用户的独立测试集上,最佳模型展现了卓越的性能:

  • 回归指标
    • 平均绝对误差(MAE):2.6
    • 均方根误差(RMSE):4.0
    • 皮尔逊相关系数(Pearson r):0.80,表明预测分数与真实分数高度相关。
  • 分类指标(临床阈值判定)
    • 在 PHQ-9 >= 10 的临床阈值下,曲线下面积(AUC)达到 0.91,显示出极强的区分能力。
    • 在从 PHQ-9 >= 3 到 PHQ-9 >= 24 的每一个严重程度阈值上,AUC 均大于 0.87。

这一结果证明,该模型能够捕捉整个临床谱系中的抑郁症严重程度,而不仅仅局限于重度抑郁的识别。

关键要点

  • 被动监测可行性:研究证实,仅通过对话文本即可高精度地推断用户的心理状态,无需用户主动完成 PHQ-9 等量表。
  • 数据效率与增强:通过结合真实标签和由 Claude Opus 等高级推理模型生成的伪标签,有效解决了真实标注数据稀缺的问题,将训练数据规模扩大了一倍以上。
  • 全谱系覆盖能力:模型不仅在重度抑郁(PHQ-9 >= 10)上表现优异,在轻度至中度抑郁的各个阈值区间(PHQ-9 >= 3 至 >= 24)均保持了高 AUC(>0.87),具备全面的临床适用性。
  • 低资源依赖:该方法不依赖额外的临床数据(如病史、人口统计学特征等),仅利用 AI 应用日常交互中产生的自然语言数据,极大地降低了部署门槛。
  • 高精度预测:0.80 的皮尔逊相关系数和 0.91 的 AUC 值表明,LLM 微调模型在理解人类情感细微差别和量化心理症状方面具有巨大潜力。

意义与影响

这项工作的核心意义在于为 AI 心理健康平台开辟了被动、连续的症状监测新范式。

  1. 消除依从性障碍:传统心理健康监测依赖用户主动填写问卷,容易因用户疲劳、病耻感或遗忘而导致数据中断。被动式监测将数据采集无缝融入日常对话中,实现了“无感”监测。
  2. 早期干预潜力:通过持续追踪 PHQ-9 分数的细微变化,系统可以在症状恶化前发出预警,帮助临床医生或算法系统及时提供干预建议,从而改善患者预后。
  3. 规模化应用:由于不需要额外的临床数据收集流程,该方法易于在现有的 AI 聊天机器人或数字疗法平台中部署,有助于将高质量的精神健康服务扩展到更广泛的人群。
  4. 技术范式转移:本研究展示了利用通用大语言模型(如 Qwen3.5-27B)结合特定领域数据增强技术,解决复杂临床评估问题的可行性,为后续基于 LLM 的医疗辅助诊断研究提供了重要参考。

总之,该研究不仅验证了从对话中推断抑郁严重程度的技术可行性,更为构建更智能、更人性化且可持续的数字心理健康生态系统奠定了技术基础。

查看原文 →arxiv.org