技术博客arXiv cs.AI·7 天前

社交媒体网络欺凌治理：从内容识别到干预的统一框架

原标题：Cyberbullying Governance on Social Media: A Unified Framework from Content Identification to Intervention

速览

针对现有研究仅关注孤立静态检测的局限，本文提出涵盖内容识别、用户建模、扩散预警及干预治理的统一全生命周期框架。该框架旨在将治理范式从被动检测转向集成、持续且主动的干预。文章还综述了数据集、评估实践及多模态、算法公平性等新兴挑战，为构建更安全的数字生态提供路线图。

来源：arXiv cs.AI 提交日期：2026年5月26日

随着社交媒体平台和在线社区的普及，网络欺凌、仇恨言论以及其他形式的网络毒性内容（online toxicity）的传播被无意中催化。这使得有效治理此类伤害成为一项紧迫的社会挑战和计算难题。

尽管在自动化内容审核方面已取得显著进展，但现有研究主要将网络欺凌治理视为一种被动的、孤立的“帖子级”检测。这种还原论视角（reductionist view）存在明显局限：它忽视了用户行为的动态连续性、毒性事件的结构性扩散模式，以及主动缓解措施的必要性。

为了填补这些空白，本文提出了一种统一的全生命周期治理框架，旨在将网络欺凌治理的范式从孤立的静态检测，转向集成的、连续的、主动的审核模式。

本文系统综述了网络欺凌研究及相关领域的最新文献，构建了一个涵盖四个相互关联阶段的全生命周期治理框架，并对数据集、评估实践及新兴挑战进行了讨论。

这是治理流程的基础阶段。研究重点在于利用自然语言处理（NLP）和多模态技术，从文本、图像、视频等数据中精准识别网络欺凌和仇恨言论。这一阶段的目标是解决传统方法中仅针对单一帖子进行静态分类的局限性，转而关注内容的上下文语义和潜在的攻击性特征。

超越单纯的内容分析，该阶段强调对用户及其行为模式的建模。通过追踪用户的互动历史、社交关系网络以及行为轨迹，系统能够识别出潜在的欺凌者、受害者以及旁观者。这一环节旨在捕捉用户行为的动态变化，从而更准确地评估风险。

毒性事件往往具有结构性的扩散特征。本阶段聚焦于分析有害内容在社交网络中的传播路径和速度。通过建立扩散模型，系统可以在有害内容大规模爆发前发出早期预警，为干预争取时间窗口。这一步骤将治理视角从“事后检测”前移至“事前预防”。

这是治理框架的最终落脚点，强调主动性和综合性。干预措施不仅包括删除内容或封禁账号，还涉及算法推荐调整、用户教育、心理支持引导等多维度的治理手段。该阶段旨在通过整合前三个阶段的洞察，实现从被动响应到主动缓解的范式转变。

文章还回顾了当前可用的数据集及其局限性，并讨论了现有的评估指标。指出当前评估多集中于检测准确率，而缺乏对治理效果（如用户行为改变、社区氛围改善）的综合评估。

文章最后讨论了四个关键的未来研究方向：

多模态性 (Multimodality)：如何处理文本、图像、音频和视频混合的复杂欺凌内容。
可解释性 (Explainability)：提高AI决策的透明度，让用户和审核人员理解为何判定某内容为欺凌。
算法公平性 (Algorithmic Fairness)：确保治理算法不会因种族、性别或语言风格而产生偏见。
生成式AI的双重使用风险 (Dual-use Risks of Generative AI)：警惕生成式AI被用于制造更隐蔽、更逼真的网络欺凌内容，同时探讨其用于辅助检测和干预的潜力。

这篇论文为构建更安全、更具韧性的数字生态系统提供了重要的理论框架和研究路线图。

总之，该研究不仅总结了当前的技术现状，更为未来实现从“被动防御”到“主动免疫”的网络社区治理指明了方向。