← 返回信息流
技术博客arXiv cs.CL·1 小时前

Multilingual Polarization Detection Using Transformer-Based Models with Class Weighting and Threshold Tuning

AI 深度解读

背景

随着社交媒体的普及,网络极化现象日益严重,对社会共识和跨文化沟通构成了巨大挑战。传统的极化检测研究往往局限于单一语言(主要是英语)和单一文化背景,难以应对当今互联网多语言、多文化交织的复杂环境。SemEval-2026 Task 9 正是针对这一痛点,提出了多语言、多文化、多事件的在线极化检测任务,旨在评估模型在英语和斯瓦希里语等不同语言中识别极化现象的能力。该任务不仅需要判断文本是否具有极化倾向,还需进一步分类极化类型及其外在显现形式,属于典型的多标签分类问题。此外,现实场景中极化样本与非极化样本、不同极化类型之间的样本量往往存在严重的标签不平衡,这给模型的训练和优化带来了极大挑战。

核心内容

本文介绍了作者在 SemEval-2026 Task 9 上的提交方案,该任务涵盖三个子任务:二元极化检测、极化类型分类以及极化显现识别,涉及英语和斯瓦希里语两种语言。

针对上述挑战,作者采用了基于 Transformer 的预训练模型作为基础架构:对于英语,使用 RoBERTa-base;对于斯瓦希里语,则使用专门针对非洲语言优化的 AfroXLMR-base。

在模型优化层面,本文重点解决了两个核心问题:

  1. 严重的标签不平衡:作者引入了类加权损失函数,通过为少数类分配更高的权重,缓解了模型因样本偏向多数类而导致的性能退化。
  2. **
查看原文 →arxiv.org