技术博客arXiv cs.AI·4 小时前

MMG-Pop：基于多模态图的社交媒体热度预测基准

原标题：Benchmarking Multi-Modal Graph-based Social Media Popularity Prediction

速览

针对社交媒体热度预测中多模态内容与时间交互信号割裂的问题，研究提出MMG-Pop基准，统一了数据集、模态及评估协议。同时推出MMG-PopNet模型，联合建模多模态信号与图结构社交交互。在Bluesky和Reddit上的实验验证了其优越性及跨平台泛化能力。

AI 深度解读

Benchmarking Multi-Modal Graph-based Social Media Popularity Prediction 深度解读

背景

社交媒体 popularity prediction（热度预测）旨在根据早期观察数据，预测在线内容未来的传播范围或影响力。这一能力对于下游关键应用至关重要，包括广告优化，以及帮助用户、创作者和平台进行战略性的内容规划。

尽管该领域取得了显著进展，但现有的研究存在两个主要缺陷：

信号割裂：现有工作往往未能联合考虑多模态内容（如文本、图像）与时间维度的社交互动信号。
评估碎片化：文献在数据集、模态类型、观察窗口、预测目标以及评估协议上高度碎片化。这种碎片化阻碍了公平的比较，并掩盖了对文本、视觉、时间和基于互动信号如何共同塑造热度动态的系统性理解。

核心内容

为了解决上述挑战，研究人员提出了 MMG-Pop，这是一个基于多模态图的社会媒体热度预测基准（Benchmark）。该基准通过标准化的评估协议，统一了数据集、模态、时间互动信号以及代表性的基线模型。

在此基础上，作者提出了 MMG-PopNet，这是一种统一的多模态图网络架构。该网络联合建模了上述多模态信号以及图结构的社交互动关系。

在 MMG-Pop 基准上进行了广泛的实验，涵盖了来自 Bluesky 和 Reddit 两个平台的四个数据集。实验结果展示了 MMG-PopNet 的优越性能，并提供了关于以下方面的新见解：

跨平台训练的泛化能力；
多任务预测带来的收益；
多模态数据的贡献度；
大型语言模型（LLM）在预测方面的局限性。

这些发现为未来在异构模态和社会感知智能体生态系统范式下，对社会动态建模及干预的研究奠定了统一的基础。

关键要点

统一基准的建立：通过 MMG-Pop 解决了现有研究中数据集和评估标准碎片化的问题，实现了不同模态和信号之间的公平比较。
多模态与图结构的联合建模：MMG-PopNet 不仅关注内容本身的多模态特征（文本、视觉），还引入了时间维度的社交互动信号和图结构的社交关系，更全面地捕捉热度形成的复杂机制。
跨平台验证：实验数据覆盖 Bluesky 和 Reddit 两个截然不同的社交平台，验证了模型在不同社区结构下的有效性。
LLM 预测局限性：研究揭示了大型语言模型在直接进行热度预测时存在的局限性，暗示了结合结构化社交信号和多模态图神经网络的重要性。
多任务学习优势：实验表明，采用多任务预测策略能够带来性能提升，说明热度预测的不同维度之间存在互补信息。

意义与影响

这项研究为社交媒体热度预测领域提供了一个标准化的评估框架，消除了以往因评估协议不一致导致的比较困难。通过 MMG-Pop 和 MMG-PopNet，研究人员可以更系统地理解文本、视觉、时间和互动信号如何共同作用。

此外，研究发现的跨平台泛化能力和多模态贡献度，为平台方优化内容分发算法、广告主精准投放以及创作者制定内容策略提供了数据驱动的洞察。最后，对 LLM 局限性的探讨，指明了未来研究将多模态图神经网络与大语言模型相结合的方向，特别是在社会感知智能体（socially-aware agentic）生态系统中，如何利用结构化知识增强 AI 对社会动态的理解和干预能力。

查看原文 →arxiv.org