技术博客arXiv cs.AI·1 天前

多LLM智能体模拟仇恨言论级联：实证、建模与干预策略

原标题：Simulating Hate Speech Cascades with Multi-LLM Agents: Empirical Grounding, Modeling Fidelity, and Intervention Strategies

速览

研究指出传统级联模型难以准确模拟仇恨内容传播，而多LLM智能体系统能结合用户画像和社区因素进行更真实的模拟。通过对Bluesky平台数据的实证分析，发现仇恨级联呈现星状拓扑且参与者立场高度一致。模拟结果显示，多智能体系统能复现现实中的立场单一化现象，并通过针对密集网络中的放大器进行干预，可在仅造成少量良性误伤的情况下显著减少传播。

AI 深度解读

多LLM智能体模拟仇恨言论级联：实证 grounding、模型保真度与干预策略

背景

在线平台上的仇恨言论传播（Hate Speech Propagation）及其引发的“级联效应”（Cascades），一直是内容审核与社区治理研究中的核心难题。传统的级联模型（Classical Cascade Models）通常基于简单的网络拓扑结构或概率传播规则，往往未能显式地建模与仇恨内容传播密切相关的用户画像（Profile）、社区结构（Community）以及内容特征（Content）等因素。

这种简化导致了一个关键问题：当这些基于简化假设推导出的审核策略部署到现实世界时，其有效性往往大打折扣。随着多智能体大语言模型（Multi-LLM Agent Systems）的发展，理论上每个智能体在决定“转发”或“分享”时，可以综合考量用户自身属性、所处社区环境以及帖子具体内容，从而做出更贴近人类行为的决策。

然而，一个尚未解决的科学问题是：这种增加了复杂性和灵活性的多LLM智能体模拟，是否真的比经典基线模型更忠实地复现了现实中的仇恨言论级联现象？

本研究旨在通过实证数据 grounding（实证锚定），评估多LLM智能体模拟器在模拟仇恨言论传播时的保真度（Modeling Fidelity），并探索基于该模拟器的干预策略。

核心内容

1. 实证数据分析：Bluesky 平台上的仇恨级联特征

研究团队选取了 Bluesky 社交平台上的三个仇恨言论级联案例，并选取了一个规模匹配的良性（Benign）内容级联作为对照组，进行了深入的实证分析。主要发现如下：

立场单一性（Stance Monoculture）：在仇恨言论级联中，高达 97.4% - 99.7% 的转发者采取了敌对立场。这表明仇恨内容的传播具有极强的立场同质性，几乎不存在持中立或反对立场的二次传播者。
毒性-互动同配性（Toxicity-Engagement Homophily）：在仇恨级联的扩散树（Diffusion Tree）上，毒性-互动同配性显著高于其底层关注图（Follower Graph）。这意味着仇恨内容不仅在同质用户间传播，而且其传播路径上的互动强度与毒性水平高度相关，这种相关性在扩散结构中比在静态社交网络中更为强烈。
拓扑结构差异：
- 仇恨级联呈“星型”（Star-like）：绝大多数转发直接来自根节点（初始发布者），传播路径短且集中。
- 良性级联呈“树型”（Tree-like）：良性内容的传播通过多跳链条（Multi-hop chains）进行，路径更长且分散。

2. 多LLM智能体模拟器的构建与验证

研究构建了一个基于多LLM智能体的模拟器，旨在复现上述实证特征。

保真度验证：模拟结果显示，该多LLM智能体模拟器能够成功复现现实数据中的“立场单一性”以及“毒性增量方向”（Toxicity-delta direction，即传播过程中毒性水平的变化趋势）。
消融实验（Ablation Study）：通过结构化消融实验，研究识别出**智能体异质性（Agent Heterogeneity）**是影响模型保真度的最关键因素。这意味着，如果所有智能体具有相同的性格或行为参数，模拟效果将大幅下降；只有赋予智能体多样化的背景、立场和响应模式，才能真实反映人类社会的传播动态。

3. 干预策略评估

基于高保真度的模拟器，研究进一步测试了不同的干预策略，旨在减少仇恨言论的传播，同时最小化对良性内容的误伤（Collateral Damage）。

放大器靶向干预（Amplifier Targeting）：针对网络中传播力强的节点（放大器）进行干预。
效果评估：在密集网络（Dense Networks）中，该策略能够实现 7.5% - 12.9% 的仇恨传播减少率。
副作用控制：在此过程中，对良性内容的误伤率仅为 5.7%，显示出该策略在抑制有害内容的同时，具有较好的选择性。

关键要点

现实传播特征：仇恨言论在 Bluesky 上的传播具有极高的立场一致性（>97% 转发者持敌对立场），且其扩散结构呈现“星型”特征（直接来自根节点），与良性内容的“树型”多跳传播形成鲜明对比。
同配性增强：仇恨级联中的毒性-互动同配性高于底层社交网络结构，说明传播机制本身加剧了毒性内容的聚集。
模型优势：多LLM智能体模拟器能够比经典基线更忠实地复现仇恨级联的关键统计特征，特别是立场单一性和毒性变化趋势。
异质性关键作用：消融实验证明，智能体的异质性（Heterogeneity）是提升模拟保真度的首要因素，单一参数的智能体无法准确模拟复杂的社会传播动态。
高效干预潜力：基于模拟器的“放大器靶向”策略在密集网络中能有效降低 7.5%-12.9% 的仇恨传播，且对良性内容的误伤率控制在较低水平（5.7%）。

意义与影响

这项研究为在线平台的内容治理提供了重要的理论依据和技术路径：

从“静态规则”到“动态模拟”：传统的基于规则或简单统计的审核模型难以应对复杂的社交传播动态。本研究证明了利用多LLM智能体进行高保真模拟的可行性，为“数字孪生”式的社区治理提供了实证支持。
精准干预的可能性：通过模拟识别出的“星型”传播结构和“放大器”节点，平台可以更精准地定位关键传播节点，而非盲目地进行大规模屏蔽，从而在遏制仇恨言论的同时，减少对正常言论自由的误伤。
对平台设计的启示：仇恨言论的“星型”传播特征暗示，抑制初始发布者（Root）或早期关键转发者的影响力，可能比阻断后续的多跳传播更为有效。这为优化推荐算法和传播机制提供了新的设计思路。
方法论贡献：研究强调了在构建社会模拟系统时，必须考虑智能体的异质性。这提醒后续研究者，在开发用于社会网络分析的多智能体系统时，不能仅关注LLM的能力，更要关注如何赋予智能体多样化的社会属性和行为模式。

总之，该研究不仅揭示了仇恨言论传播的深层机制，还展示了一种结合实证数据与大模型模拟的新型治理研究范式，为未来更智能、更精准的内容审核策略奠定了基础。

查看原文 →arxiv.org