技术博客arXiv cs.CL·3 小时前

MentalMARBERT：基于领域自适应预训练与两阶段微调的阿拉伯语心理健康检测

原标题：MentalMARBERT: Domain-Adaptive Pre-training and Two-Stage Fine-Tuning for Arabic Mental Health Disorders Detection

速览

针对阿拉伯语社交媒体文本中存在的方言差异、非正式语言及标注资源稀缺等挑战，研究提出了一种两阶段分类框架。该框架首先利用大规模无标注数据对AraBERT、CAMeLBERT和MARBERT进行领域自适应和任务自适应预训练，筛选出最优骨干模型。随后，在构建的包含50,670条推文的新数据集上，评估了不同微调配置，发现结合全量微调的层次化两阶段架构效果最佳。实验表明，该模型在准确率和宏观F1分数上均显著优于基线模型，验证了领域自适应预训练在阿拉伯语心理健康检测中的有效性。

AI 深度解读

MentalMARBERT：面向阿拉伯语心理健康障碍检测的领域自适应预训练与两阶段微调

背景

在自然语言处理（NLP）领域，利用社交媒体文本检测心理健康障碍已成为一个重要的研究方向。尽管针对英语数据的心理健康 NLP 研究已经取得了显著进展，但针对阿拉伯语的多类障碍分类研究仍然严重不足。

阿拉伯语社交媒体文本的分析面临着一系列独特的挑战，主要包括：

方言差异巨大：阿拉伯语存在多种方言变体，导致语言结构复杂。
非正式语言普遍：社交媒体文本通常包含大量缩写、俚语和非标准语法。
高质量标注资源稀缺：缺乏大规模、高质量的标注数据集。
严重的类别不平衡：不同心理健康类别的样本数量分布极不均匀。

为了解决上述问题，本研究提出了一种针对阿拉伯语心理健康文本分类的两阶段框架，旨在通过领域自适应预训练和优化的微调策略，提升检测模型的准确性。

核心内容

本研究提出并验证了一个两阶段的框架，专门用于阿拉伯语心理健康文本的分类任务。

第一阶段：领域自适应与任务自适应预训练

在第一阶段，研究团队选取了三个主流的阿拉伯语预训练语言模型作为基础骨干模型：AraBERT、CAMeLBERT 和 MARBERT。

为了克服通用模型在心理健康特定领域表现不佳的问题，研究团队使用了一个大规模、未标注的阿拉伯语心理健康推文语料库，对这三个模型进行了领域自适应预训练（DAPT, Domain-Adaptive Pre-training）和任务自适应预训练（TAPT, Task-Adaptive Pretraining）。

随后，在统一的评估协议下，研究人员对经过适配的模型进行了评估，以确定哪个骨干模型在该特定任务上表现最有效。

第二阶段：架构评估与微调策略优化

在确定了最佳骨干模型后，第二阶段重点评估了四种不同的配置组合，以优化最终的分类性能。这些组合基于以下两个维度的交叉：

分类架构：
- 单阶段分类（Single-stage）：直接进行多类分类。
- 分层两阶段分类（Hierarchical two-stage）：先进行粗粒度分类，再进行细粒度分类。
微调方式：
- 全量微调（Full fine-tuning）：更新模型所有参数。
- 低秩自适应（LoRA, Low-Rank Adaptation）：仅更新少量参数，保留预训练模型的大部分知识。

数据集构建

为了支持这项研究，研究团队构建了一个全新的标注阿拉伯语心理健康数据集。该数据集包含 50,670 条推文，涵盖 6 个心理健康类别。

数据的质量通过严格的标注一致性检验，结果显示：

Krippendorff's Alpha 系数为 0.733。
平均成对一致性（average pairwise agreement） 为 0.797。

这表明标注数据具有较高的一致性和可靠性。

关键要点

模型选择结果：经过领域自适应预训练后，MARBERT 被证明是最有效的骨干模型。研究团队将其命名为 MentalMARBERT。
性能提升显著：MentalMARBERT 在准确率和宏观 F1 分数（macro-F1）上均显著优于基线模型。
最佳配置方案：分层两阶段分类架构结合全量微调取得了最佳的整体性能。
具体性能指标：最佳配置下的模型达到了 0.861 的宏观 F1 分数和 0.877 的准确率。
方法论有效性：研究结果证实了针对特定领域进行自适应预训练以及采用分层分类架构对于阿拉伯语心理健康障碍检测的有效性。

意义与影响

这项研究在阿拉伯语 NLP 和数字心理健康领域具有重要的意义：

填补研究空白：通过构建高质量数据集并开发专用模型，弥补了阿拉伯语心理健康 NLP 研究的不足，推动了多语言心理健康分析的发展。
方法论创新：证明了 DAPT 和 TAPT 在处理方言复杂、资源稀缺的非英语语言时的有效性，为其他低资源语言或特定领域的 NLP 任务提供了可借鉴的范式。
技术优化：通过对比不同微调策略（LoRA vs. 全量微调）和分类架构（单阶段 vs. 分层），明确了在资源允许的情况下，分层两阶段结合全量微调是提升复杂多类分类任务性能的最佳实践。
社会价值：更准确的心理健康检测工具有助于早期识别社交媒体上的心理危机用户，为在线心理健康干预和支持系统提供技术基础，从而潜在地挽救生命并改善公众心理健康状况。

查看原文 →arxiv.org