技术博客arXiv cs.CL·1 小时前

基于上下文边界半难负样本挖掘对齐隐含仇恨言论

原标题：Aligning Implied Statements for Implicit Hate Speech Generalizability with Context-Bounded Semi-hard Negative Mining

速览

针对隐含仇恨言论意图常被语境掩饰的难题，研究提出ImpSH框架。该框架利用上下文边界半难负样本聚焦近混淆学习，并尝试通过数据增强形成正样本。实验表明，该方法在BERT和HateBERT上优于基线，显著改善了跨域性能。

AI 深度解读

隐式仇恨言论泛化性对齐：基于上下文受限半难负样本挖掘的解读

背景

仇恨言论检测是自然语言处理（NLP）中一项极具挑战性的任务，尤其是在处理**隐式仇恨言论（Implicit Hate Speech）**时。与直接包含侮辱性词汇或明显攻击性语言的显式仇恨言论不同，隐式仇恨言论往往通过暗示、双关语或特定语境来掩盖其恶意意图。这种隐蔽性使得基于关键词匹配或简单监督学习的模型难以准确识别。

现有的监督对比学习（Supervised Contrastive Learning）方法虽然在特定领域（in-domain）的检测性能上有所提升，但往往容易过拟合于表面线索（surface cues），导致模型在跨数据集或跨领域迁移时表现不佳。这种“领域偏移”（domain shift）问题是当前仇恨言论检测研究中的核心痛点。

核心内容

本文提出了一种名为 ImpSH 的三元组（triplet-based）框架，旨在通过对齐帖子与其隐含的陈述（implied statements）来提升隐式仇恨言论检测的泛化能力。同时，文章还探讨了另一种方法 AugSH，该方法通过数据增强来构建正样本对。

1. ImpSH 框架：上下文受限的半难负样本挖掘

ImpSH 的核心创新在于引入了上下文受限的半难负样本挖掘（Context-Bounded Semi-hard Negative Mining）。

对齐隐含陈述：当数据集中存在隐含陈述时，ImpSH 强制模型将原始帖子与其对应的隐含陈述在向量空间中对齐。这种对齐有助于模型捕捉言论背后的深层语义和意图，而不仅仅是表面的词汇特征。
半难负样本聚焦：传统的对比学习可能包含大量过于简单或过于困难的负样本，对模型训练贡献有限。ImpSH 通过挖掘“半难”负样本（即那些与正样本在特征空间中距离较近、容易混淆的负样本），迫使模型专注于学习区分那些细微的、易混淆的边界情况。
上下文约束：负样本的挖掘并非在全局范围内进行，而是受到上下文的限制，确保挖掘出的负样本在语义或语境上与正样本具有可比性，从而避免引入噪声。

2. AugSH 方法：数据增强构建正样本

作为对比，文章还研究了 AugSH 方法。该方法不依赖于显式的隐含陈述标注，而是通过对原始帖子进行数据增强（如回译、同义词替换等）来生成正样本对。这种方法旨在通过增加数据的多样性来提升模型的鲁棒性，但其效果在实验中与 ImpSH 进行了对比。

3. 实验评估

研究者在三个标准的隐式仇恨言论数据集上进行了受控评估：IHC、SBIC 和 DynaHate。使用的基线模型包括 BERT 和 HateBERT。

性能表现：在匹配的预处理和超参数调整预算下，ImpSH 不仅作为标准监督对比学习基线的可行替代方案，而且在跨领域（cross-domain）性能上通常优于基线。
表示分析：通过**对齐性（alignment）和均匀性（uniformity）**的表示分析发现，ImpSH 产生的正样本对更加紧密，同时在全局空间中保持了平衡的分布。这表明模型学习到的特征既具有类内一致性，又具有良好的类间分离度。
定性分析：通过最近邻（nearest-neighbor）案例研究，文章展示了在领域偏移情况下典型的假阴性（false negatives）样本，进一步验证了 ImpSH 在处理复杂语境时的优势。

关键要点

隐式仇恨言论的挑战：意图常被暗示和语境掩盖，而非通过显式侮辱词表达，导致传统方法失效。
ImpSH 的核心机制：
- 基于三元组的框架。
- 在可用时对齐帖子与隐含陈述。
- 使用上下文受限的半难负样本挖掘，聚焦于“近混淆”样本的学习。
AugSH 的对比：通过数据增强构建正样本对，作为另一种提升泛化性的尝试，但在跨领域性能上通常不如 ImpSH。
实验结果：
- 在 IHC、SBIC 和 DynaHate 数据集上，使用 BERT 和 HateBERT 进行验证。
- ImpSH 在跨领域性能上通常优于标准监督对比基线。
- 表示分析显示正样本对更紧密，全局分布更平衡。
克服聚类学习的不稳定性：通过上下文受限的挖掘，ImpSH 提供了更稳定、类似双射（bijective-like）的映射关系，克服了传统基于聚类的表示学习固有的波动性。

意义与影响

这项研究对仇恨言论检测领域具有重要的理论和实践意义：

提升泛化能力：通过引入隐含陈述对齐和半难负样本挖掘，ImpSH 有效缓解了模型对表面线索的过拟合问题，显著提升了模型在未见领域或跨数据集迁移时的性能。这对于实际部署中应对不断变化的网络语言环境至关重要。
改进表示学习：研究揭示了在对比学习中，仅仅拉近正样本对是不够的，还需要通过挖掘高质量的难负样本来细化决策边界。上下文受限的挖掘策略为如何在保持语义一致性的同时增加训练难度提供了新的思路。
稳定性与可靠性：相比传统的基于聚类的表示学习方法，ImpSH 提供了更稳定的特征映射。这种稳定性有助于减少模型在边缘案例上的误判，提高检测系统的整体可靠性。
方法论启示：虽然本文聚焦于仇恨言论检测，但其提出的“对齐隐含语义”和“上下文受限难样本挖掘”的方法论可以推广到其他需要理解深层意图和语境的 NLP 任务中，如情感分析、讽刺检测或意图识别。

总之，ImpSH 为隐式仇恨言论检测提供了一个更具鲁棒性和泛化性的解决方案，通过精细化的对比学习策略，更好地捕捉了语言中微妙而危险的暗示。

查看原文 →arxiv.org