技术博客arXiv cs.CL·7 小时前

仅靠国籍语言参数难以生成多语种心理健康对话数据集

原标题：Creating Multilingual Mental Health Dialogue Datasets: Limits of Persona-Based Localization via Nationality and Language

速览

AI大模型在心理健康领域应用广泛，但缺乏高质量的多语种训练数据。研究人员尝试通过修改大模型提示词中的国籍和语言参数，生成中文、孟加拉语和印地语的临床对话。实验发现，仅添加这些参数会导致跨语言临床不一致，且大模型在评估非英语文本的抑郁严重程度时表现不准确。这表明基于英语中心的 persona 方法存在系统性局限，亟需文化响应式的数据生成方案。

AI 深度解读

多语言心理健康对话数据集的构建：基于国籍与语言的人设本地化局限

背景

人工智能（AI）和大语言模型（LLMs）已成为应对全球心理健康挑战的有力工具。然而，尽管心理健康问题具有普遍性，目前用于训练和评估此类系统的高质量数据集却严重匮乏。

为了弥补这一缺口，研究人员越来越多地采用**合成临床人设（synthetic clinical personas）**来模拟用户数据，并测试数字心理健康支持系统。但是，现有的经过验证的人设大多依赖于以英语为中心（English-centric）的语境。这种单一语言、单一文化的基准，限制了模型在非英语语境下的泛化能力和临床准确性。

本文旨在探讨：是否可以通过调整人设中的国籍和语言参数，将基于人设的方法扩展至多语言环境，从而生成多语言心理健康数据集？

核心内容

研究团队对基于人设的数据生成方法进行了实验，重点考察了其在多语言环境下的有效性和局限性。

实验设计

人设修改：研究人员修改了合成人设中的“国籍”和“语言”参数。
数据生成：基于修改后的人设，生成了普通话（Mandarin）、**孟加拉语（Bengali）和印地语（Hindi）**的临床对话数据。
评估基准：以英语生成的对话数据为基线（Baseline）。
评估方法：使用不同的 LLM 作为“裁判模型”（LLM judge models），评估这些生成的多语言数据集在**抑郁症严重程度（depression severity）**判断上的表现。

研究发现

临床不一致性：仅仅在人设中添加国籍和语言参数是不足够的。这种做法会导致不同语言之间的临床特征出现不一致性（clinical inconsistency）。这意味着，简单的参数替换无法准确反映不同文化背景下心理健康问题的细微差别。
LLM 评估偏差：LLM 裁判模型在评估非英语文本的抑郁症严重程度时，经常表现出不准确的结果。
模型间差异显著：不同 LLM 在跨语言评估任务上的表现差异巨大，表明目前缺乏统一的、跨语言的心理健康评估标准。

核心结论

将基于英语的人设直接应用于多语言语境，存在系统性的局限性。简单的“翻译+国籍替换”策略无法解决深层的文化适配问题，反而可能引入噪音和偏差。

关键要点

数据缺口：全球心理健康 AI 系统面临高质量、多语言训练数据严重不足的问题。
现有方法的局限：当前主流的合成人设方法高度依赖英语语境，难以直接迁移至其他语言。
实验验证：通过生成普通话、孟加拉语和印地语的对话数据，研究验证了仅调整语言和人设国籍参数的有效性边界。
临床一致性缺失：简单的参数调整会导致不同语言数据在临床特征上的不一致，影响数据质量。
评估模型缺陷：现有的 LLM 裁判模型在跨语言评估抑郁症严重程度时表现不佳，且不同模型间结果差异大。
系统性偏差：研究揭示了将英语中心主义（English-centric）的人设和方法强行应用于多语言环境的系统性缺陷。

意义与影响

这项研究对全球数字心理健康系统的开发具有深远影响：

挑战“通用性”假设：它打破了“只要翻译语言，心理健康数据即可通用”的假设，强调了文化特异性在心理健康数据中的核心地位。
呼吁文化响应式数据生成：研究明确指出，为了确保全球心理健康系统的公平性（equitable mental health systems），必须开发**文化响应式（culturally responsive）**的数据生成方法，而不仅仅是语言层面的本地化。
改进评估标准：呼吁建立更 robust 的跨语言心理健康评估基准，避免依赖单一语言训练的 LLM 进行跨文化诊断或严重程度评估。
推动数据多样性：强调了构建真正多元化、包含不同文化背景的高质量心理健康数据集的紧迫性，以支持更公平、更有效的全球心理健康 AI 应用。

简而言之，心理健康 AI 不能仅靠“翻译”来全球化。必须深入理解不同文化下的心理表达和临床特征，才能构建真正有效且公平的系统。

查看原文 →arxiv.org