技术博客arXiv cs.CL·1 小时前

多模态生理信号情感识别：Transformer与集成融合策略表现优异

原标题：Deep Temporal Modeling and Ensemble Fusion for Multimodal Emotion Recognition from Physiological Signals

速览

该研究针对WESAD数据集，深入评估了LSTM、TCN和Transformer等深度学习模型在基于手腕和胸部传感器信号的多模态情感识别任务中的性能。通过消融实验和早期/晚期融合策略对比，发现Transformer在多模态设置下准确率最高，而TCN在单模态下表现最佳。最终，采用多模型集成融合的方法取得了98.91%的最高准确率和98.56%的宏观F1分数，证明了传感器融合与集成策略在构建鲁棒生理情感识别系统中的有效性。

AI 深度解读

深度解读：基于生理信号的多模态情感识别中的深层时序建模与集成融合

背景

在健康监控与情感计算（Affective Computing）领域，生理压力与情感的准确识别具有极高的应用价值。传统的单模态情感识别往往受限于信号噪声大、个体差异显著等问题，导致模型泛化能力不足。近年来，利用可穿戴设备采集的多模态生理信号（如手腕和胸部的传感器数据）成为研究热点。

然而，如何有效地处理这些具有复杂时序特性的多模态数据，以及如何融合不同模态和不同模型架构的优势，仍是当前面临的挑战。本文旨在通过全面的评估，探讨深度学习模型在 WESAD 数据集上的表现，重点分析不同模型架构（LSTM、TCN、Transformer）以及不同融合策略（早期融合、晚期融合、集成学习）对多模态情感识别性能的影响。

核心内容

本研究基于 WESAD 数据集，对多种深度学习模型在利用手腕和胸部传感器信号进行多模态情感识别方面的性能进行了系统性评估。研究主要涵盖以下三个核心方面：

1. 模型架构评估与消融实验

研究选取了三种主流的时序深度学习模型进行对比：

LSTM (Long Short-Term Memory)：长短期记忆网络，擅长处理长序列依赖。
TCN (Temporal Convolutional Networks)：时序卷积网络，具有并行计算效率高、感受野大的特点。
Transformer：基于自注意力机制的模型，能够捕捉全局时序依赖。

为了评估各模态（手腕信号 vs. 胸部信号）的独立贡献，研究进行了消融实验（Ablation Studies），分别仅在手腕输入和仅在胸部输入上训练模型。

2. 融合策略对比

研究对比了两种主要的信号融合策略：

早期融合（Early Fusion）：在传感器层面，将手腕和胸部的信号进行拼接（Concatenation），然后输入到各个模型中进行处理。
晚期融合（Late Fusion）：分别训练基于多模态输入的 LSTM、TCN 和 Transformer 模型，然后结合这三个架构的预测结果进行集成。

3. 实验结果分析

单一模态表现：在仅使用手腕信号（Wrist-only）的配置下，TCN 模型表现最佳。
多模态表现：在包含手腕和胸部信号的多模态设置中，Transformer 模型 consistently（一致地）取得了最高的准确率。
集成融合效果：采用晚期融合的集成策略（Ensemble Method）取得了最优的整体性能。

关键要点

最佳单一模型：在多模态情感识别任务中，Transformer 模型的表现优于 LSTM 和 TCN，显示出其在捕捉复杂时序依赖和多模态交互方面的优势。
特定场景优势：TCN 模型在仅使用手腕传感器数据时表现最好，这可能与其对局部时序特征的提取能力有关。
集成策略优越性：通过结合 LSTM、TCN 和 Transformer 三种架构的预测结果，实现了性能的最大化。
极致性能指标：
- 集成方法的整体准确率达到了 98.91% ± 0.13%。
- 宏观 F1 分数（Macro-F1 Score）达到了 98.56% ± 0.17%。
模态互补性：消融实验证实了手腕和胸部信号在情感识别中具有互补性，多模态输入显著提升了识别鲁棒性。
融合方式对比：虽然早期融合（信号级拼接）是一种有效手段，但基于模型预测的晚期融合集成策略在本研究中取得了更高的精度。

意义与影响

这项研究为基于生理信号的情感识别系统开发提供了重要的实证依据和技术参考：

验证了深层时序建模的有效性：研究证明了 Transformer 等先进深度学习架构在处理多模态生理时序数据时的强大能力，特别是在捕捉长期依赖和复杂模式方面。
确立了集成学习的价值：结果表明，单一模型难以在所有配置下达到最优，而通过集成不同架构（LSTM、TCN、Transformer）的优势，可以显著提升系统的鲁棒性和准确性。这对于构建高可靠性的健康监测应用至关重要。
推动了多模态融合技术的发展：研究对比了早期和晚期融合策略，为未来设计更高效的多模态情感识别系统提供了最佳实践指南。
促进健康监控与情感计算的应用落地：高达 98% 以上的准确率表明，基于可穿戴设备（手腕+胸部）的多模态生理信号分析，有潜力成为非侵入式、实时健康监测和情绪辅助诊断的有力工具。

总之，该工作不仅展示了当前深度学习模型在情感识别领域的最新水平，也为后续研究如何在资源受限的可穿戴设备上部署高效、准确的情感识别算法指明了方向。

查看原文 →arxiv.org