无需标签:自监督用户画像生成助力大模型个性化
速览
针对大模型个性化中依赖昂贵标注数据的问题,研究提出BUMP自监督框架。该方法利用双向排序目标训练LLM生成自然语言用户画像,无需任何下游任务标签。实验表明,BUMP在LaMP基准测试中表现媲美或超越依赖标注奖励的现有方法。
AI 深度解读
Self-supervised User Profile Generation for Personalization 深度解读
背景
随着大型语言模型(LLMs)在推荐系统、搜索引擎、对话交互和内容生成等领域的广泛部署,个性化(Personalization)已成为一个核心挑战。在这些场景中,相同的查询(Query)针对不同的用户应当产生不同的回答或结果。
目前,实现个性化的一条有前景的路径是将用户的交互历史总结为自然语言形式的“记忆”或“用户画像”(Profile),并将其作为前置上下文(Prepend)添加到提示词(Prompt)中,从而引导模型进行个性化输出。
然而,现有的方法通常依赖于从标注好的下游任务中获得的显式奖励(Explicit Rewards)来训练这种画像生成器。这种方法存在两个主要缺陷:
- 成本高昂:需要为每一个目标任务提供标注监督数据。
- 数据稀疏:由于依赖特定任务的标签,导致训练信号稀疏且难以泛化。
为了解决这一挑战,研究人员提出了 Bidirectional User Modeling via Profiles (BUMP),这是一个完全自监督(Self-supervised)的框架,旨在无需任何下游任务标签的情况下训练画像生成器。
核心内容
BUMP 框架的核心创新在于利用双向排序目标(Bidirectional In-batch Ranking Objective)和 GRPO(Group Relative Policy Optimization)算法,仅凭原始交互日志即可生成高质量的用户画像。
1. 核心机制:双向排序目标
BUMP 不依赖外部标签,而是通过衡量生成画像与用户交互历史之间的匹配程度来构建奖励信号。具体而言,对于一个用户的交互历史,系统训练一个小型 LLM 裁判(Small LLM Judge)来评估以下两个方向的表现:
- 方向一(画像作为查询):将生成的用户画像作为查询(Query),评估其是否能将用户自己保留的交互数据(Held-out interactions)在批次(Batch)中其他用户的交互数据之上进行正确排序。
- 方向二(交互作为查询):将用户保留的交互数据作为查询(Query),评估其是否能将用户自己的画像在批次中其他用户的画像之上进行正确排序。
2. 奖励计算与负样本利用
- 多正 NDCG 评分:上述两个方向的匹配度均使用多正 NDCG(Normalized Discounted Cumulative Gain)进行评分。
- 密集奖励:将两个方向的评分结合,为每次 rollout(策略优化步骤)生成一个密集的奖励信号(Dense Reward)。
- 免费负样本:批次(Batch)中的其他用户数据天然充当了负样本(Free Negatives)。这意味着,每一个训练示例仅通过原始交互日志就能获得监督信号,无需人工标注。
3. 训练流程
- 输入用户的交互历史。
- 使用 GRPO 算法训练 LLM 生成自由形式的文本画像。
- 小型 LLM 裁判根据双向排序目标计算奖励。
- 基于奖励更新生成模型,使其生成的画像能更准确地反映用户偏好。
关键要点
- 完全自监督:BUMP 最大的突破在于它不需要任何下游任务的标注标签(Task Labels)。它仅利用用户原始的交互日志即可完成训练,极大地降低了数据获取和标注的成本。
- 双向一致性:通过“画像查交互”和“交互查画像”两个方向的双重验证,确保生成的画像不仅包含用户的历史信息,而且与用户的行为模式高度一致。
- 利用批次内负样本:通过在同一批次中引入其他用户的数据作为负样本,BUMP 高效地利用了数据中的对比信息,无需额外的负样本收集步骤。
- 基于 GRPO 的策略优化:采用 GRPO(Group Relative Policy Optimization)进行训练,结合多正 NDCG 奖励,使得优化过程更加稳定且有效。
- 性能表现优异:在 LaMP(Language Model for Personalization)基准测试中,BUMP 的表现匹配甚至超越了闭源 API 以及那些依赖标注奖励的先前方法,证明了其在无监督设置下的强大竞争力。
意义与影响
BUMP 的提出为个性化大语言模型提供了一种高效、可扩展的新范式。
- 降低个性化门槛:传统个性化方法严重依赖昂贵的人工标注数据,这限制了其在大规模场景中的应用。BUMP 证明了仅凭原始交互日志即可实现高性能个性化,使得为海量用户构建个性化画像变得经济可行。
- 提升数据利用率:通过自监督学习和批次内对比学习,BUMP 最大限度地挖掘了现有用户交互数据的价值,解决了标注数据稀疏的问题。
- 推动通用个性化框架的发展:BUMP 不针对特定下游任务(如推荐、搜索或对话)进行优化,而是学习通用的用户表征。这意味着生成的用户画像可以灵活地应用于多种不同的个性化场景,增强了模型的泛化能力。
- 对行业实践的启示:对于希望部署个性化 LLM 的企业而言,BUMP 提供了一条无需大规模标注团队即可快速迭代和优化用户画像系统的技术路径,有助于加速 AI 个性化应用的落地。
