技术博客arXiv cs.CL·3 小时前

SocialPersona基准测试多模态大模型从社交媒体推断用户偏好能力

原标题：SocialPersona: Benchmarking Personalized Profiling and Response with Multimodal Social-Media Context

速览

研究者推出SocialPersona基准，旨在评估多模态大语言模型能否从长期社交媒体时间线中恢复用户偏好并用于对话。该基准基于171名用户的文本、图像及时间戳数据，包含2597个验证过的偏好标签。实验表明，尽管模型能识别广泛兴趣领域，但在细粒度和近期兴趣推断上表现下降，凸显了跨模态长期用户建模的挑战。

AI 深度解读

SocialPersona：基于多模态社交媒体上下文评估个性化画像与响应的基准测试

背景

随着大语言模型（LLM）和多模态大语言模型（MLLM）在个性化助手领域的广泛应用，评估这些模型“了解”用户的能力变得至关重要。目前，大多数个性化语言模型评估主要聚焦于“记忆”视角：即模型能否准确回忆用户在对话中明确陈述过的偏好。这种评估方式虽然直观，但存在明显的局限性。

真正的全面个性化不仅要求模型具备记忆能力，更要求其具备一种更高级的能力——从用户自然留下的多模态痕迹中推断出其潜在的兴趣和偏好。社交媒体时间线（Timeline）包含了文本、图像、时间戳等丰富的多模态数据，是反映用户长期兴趣、近期动态以及稳定偏好的宝贵来源。然而，现有的基准测试往往缺乏对这种长周期、多模态、细粒度用户画像构建与应用的系统性评估。

为了解决这一空白，研究人员引入了 SocialPersona，这是一个旨在评估 MLLMs 能否从纵向社交媒体时间线中恢复用户“揭示的偏好”（revealed preferences），并在对话中加以利用的基准测试。

核心内容

SocialPersona 是一个专为评估多模态大语言模型在个性化场景下表现而设计的基准测试数据集。其核心构建逻辑与实验发现如下：

1. 数据集构建

数据来源：SocialPersona 基于 171 名普通、非促销性质的社交媒体用户的纵向时间线数据构建。这些用户代表了日常社交媒体使用者，而非网红或品牌账号，确保了数据的真实性和代表性。
多模态内容：数据包含文本、图像以及精确的时间戳信息。
人工验证标签：数据集包含 2,597 个经过人工验证的偏好标签，涵盖七个主要的兴趣领域。
偏好分类：为了更细致地评估模型能力，标签被明确区分为“稳定兴趣”（Stable Interests）和“近期兴趣”（Recent Interests）。这种区分对于评估模型区分用户长期特质与短期动态变化的能力至关重要。

2. 支持的两大任务

SocialPersona 支持以下两个核心任务，以全面衡量模型在个性化方面的表现：

构建结构化用户画像：模型需要从多模态上下文（文本+图像+时间）中提取信息，构建结构化的用户档案。
生成对齐响应：模型需根据推断出的用户画像，生成符合用户偏好和语境的对话响应。

3. 实验结果与分析

研究人员对专有模型（Proprietary MLLMs）和开源权重模型（Open-weight MLLMs）进行了广泛测试，主要发现包括：

宏观识别能力强，微观识别弱：模型能够较好地识别用户广泛的兴趣领域（Broad Interest Domains），但在细粒度兴趣（Fine-grained Interests）和近期兴趣（Recent Interests）的识别上，性能显著下降。
画像应用存在衰减：当模型不仅需要推断画像，还需要利用这些推断出的画像来个性化对话响应时，其表现进一步退化。这表明“理解用户”与“基于理解行动”之间存在能力鸿沟。
多模态互补性：实验证据表明，文本和图像提供了互补的偏好信号。仅依靠单一模态无法全面捕捉用户的复杂偏好，多模态融合对于提升画像准确性至关重要。

关键要点

评估范式的转变：SocialPersona 将个性化评估从简单的“显式记忆回忆”扩展到了“隐式偏好推断”，要求模型从自然留下的多模态痕迹中挖掘用户兴趣。
数据规模与质量：基于 171 名真实用户、涵盖 2,597 个人工验证标签的纵向数据集，确保了评估的生态效度（Ecological Validity）。
细粒度与时效性挑战：当前 MLLMs 在处理细粒度兴趣点和区分近期动态与长期稳定偏好方面仍存在明显短板。
跨模态与长周期建模难题：结果证实，鲁棒的跨模态、长周期用户建模仍是当前技术的关键挑战。文本与图像在提供偏好信号上具有互补作用，缺一不可。
从“知”到“行”的差距：模型在构建画像阶段的表现与其在对话生成阶段利用画像的表现之间存在落差，提示未来研究需关注画像推理与对话策略的联合优化。

意义与影响

SocialPersona 的提出对个性化 AI 助手的发展具有重要的推动作用：

填补评估空白：它提供了一个标准化的基准，使得研究者能够量化评估 MLLMs 在复杂、真实世界场景下的个性化能力，而不仅仅是在受控的对话环境中。
揭示技术瓶颈：通过明确区分稳定兴趣与近期兴趣，以及细粒度与宏观兴趣，SocialPersona 帮助业界更清晰地识别当前模型在用户建模中的具体弱点，特别是处理时序动态性和多模态融合方面的不足。
推动多模态融合研究：实验结果强调了文本与图像的互补性，鼓励开发者在构建用户画像时重视多模态数据的联合建模，而非简单拼接。
促进更智能的助手发展：通过衡量模型从“揭示的偏好”中推断并行动的能力，SocialPersona 为开发真正具备上下文感知、能随时间推移动态调整策略的智能助手提供了测量工具和前进方向。

总之，SocialPersona 不仅是一个数据集，更是一个指向未来个性化 AI 核心挑战的指南针，强调了在长周期、多模态背景下，实现鲁棒用户建模与个性化响应的必要性。

查看原文 →arxiv.org