技术博客arXiv cs.AI·2 小时前

集成特征选择与哈里斯鹰优化用于女性性工作者心理健康风险预测

原标题：Ensemble Feature Selection and Harris Hawks Optimization for Explainable Mental Health Risk Prediction in Female Sex Workers

速览

针对女性性工作者面临的抑郁风险，研究提出一种结合ANOVA与互信息集成特征选择及哈里斯鹰优化逻辑回归的混合预测模型。该模型在3005名样本中实现95.78%的准确率，有效识别创伤后应激、客户暴力等关键致病因素。通过可解释AI技术，该研究为弱势群体提供早期干预依据及循证心理社会护理支持。

AI 深度解读

基于集成特征选择与哈里斯鹰优化的女性性工作者心理健康风险可解释预测

背景

女性性工作者（Female Sex Workers, FSWs）群体面临着严峻的心理健康挑战，其中精神障碍，尤其是抑郁症，是主要问题之一。这一群体长期暴露于暴力、社会污名化以及经济困难等多重风险因素中，导致其心理风险显著高于普通人群。

尽管机器学习（ML）技术在医疗预测领域取得了显著进展，但在处理此类边缘化群体的数据时，现有模型往往显得力不从心。主要原因在于该群体的风险模式具有极高的维度复杂性和非线性特征，传统的机器学习分类器难以有效捕捉这些细微且复杂的关联。此外，黑盒模型缺乏可解释性，使得临床医生和社会工作者难以理解预测结果背后的具体成因，从而限制了其在制定针对性干预措施时的应用价值。

核心内容

本文提出了一种混合预测模型，旨在解决上述挑战。该研究将集成特征选择策略与哈里斯鹰优化（Harris Hawks Optimization, HHO）算法相结合，并应用于逻辑回归模型，构建了一个兼具高精度和高可解释性的心理健康风险预测框架。

1. 方法论创新

集成特征选择策略：为了从高维数据中筛选出最具预测价值的特征，研究采用了结合方差分析（ANOVA）和互信息（Mutual Information）的集成方法。ANOVA 用于评估不同组别间的统计显著性，而互信息则用于捕捉特征与目标变量之间的非线性依赖关系。两者的结合能够有效减少冗余特征，提升模型效率。
哈里斯鹰优化调参：研究引入了哈里斯鹰优化（HHO）算法对逻辑回归模型的超参数进行优化。HHO 是一种基于群智能的元启发式算法，模拟了哈里斯鹰捕猎过程中的合作与探索行为。通过 HHO 优化，模型能够更精准地拟合数据，避免陷入局部最优解。
可解释人工智能（XAI）：为了打破“黑盒”限制，研究应用了 XAI 方法，旨在揭示模型预测结果背后的关键驱动因素，特别是与创伤相关的心理和社会因素。

2. 实验结果

研究团队在一个包含 3,005 名女性性工作者的数据集上对该模型进行了验证。实验结果表明，该混合模型在性能上显著优于传统分类器：

准确率（Accuracy）：95.78%
F1 分数（F1 Score）：95.77%
曲线下面积（AUC）：0.96

3. 关键风险因素识别

通过可解释性分析，模型成功识别出导致抑郁症的主要贡献因素，包括：

**创伤后应激障碍（PTSD）**相关症状；
与客户相关的暴力经历；
职业相关因素（如工作环境、收入稳定性等）。

关键要点

混合模型架构：研究提出了一种新颖的混合架构，将统计特征选择（ANOVA + 互信息）与群智能优化算法（HHO）相结合，用于优化逻辑回归模型。
群智能的新应用：这是群智能算法在预测弱势群体心理健康方面的一个新应用案例，证明了 HHO 在处理复杂医疗数据时的有效性。
高性能预测：模型在 3,005 人的样本中实现了 95.78% 的准确率和 0.96 的 AUC，显示出极高的预测精度。
可解释性优先：通过 XAI 技术，模型不仅提供预测结果，还明确指出了 PTSD、客户暴力和职业因素作为抑郁症的核心诱因，增强了结果的可信度和临床实用性。
填补研究空白：该工作弥合了传统统计方法与机器学习方法之间的差距，为边缘化群体提供了早期的辅助工具。

意义与影响

这项研究在公共卫生和社会工作领域具有重要的现实意义：

早期干预与精准护理：高精度的预测模型使得对女性性工作者心理健康风险的早期识别成为可能。通过识别高危个体，相关机构可以提供证据支持的、有针对性的心理社会护理（psychosocial care）。
政策与健康规划：模型揭示的关键风险因素（如暴力、职业压力）为制定更有效的健康规划和社会支持政策提供了数据支持。例如，针对“客户相关暴力”的发现提示需要加强法律保护和反暴力干预措施。
增强信任与透明度：可解释 AI 的应用消除了算法偏见和不透明性带来的疑虑，使临床医生、社工以及服务对象本身能够理解风险来源，从而促进更有效的沟通和干预。
方法论推广：该研究展示了一种处理高维、复杂且边缘化群体数据的通用框架，未来可推广至其他面临类似社会心理风险的弱势群体研究中。

总之，这项工作不仅是一个技术上的突破，更是一个将人工智能技术转化为社会福祉的有力尝试，旨在通过技术手段改善最脆弱群体的健康状况。

查看原文 →arxiv.org