← 返回信息流
技术博客InfoQ 中文·2019/12/19

联邦学习针对推荐场景化的技术原理解析

速览

微众银行首席AI官杨强在NeurIPS分享联邦推荐技术,旨在解决数据孤岛与隐私保护矛盾。该方案通过FATE开源框架,支持多方协作加密训练,实现跨机构数据价值挖掘。联邦推荐算法涵盖横向、纵向及迁移学习,为精准推荐提供新路径。

AI 深度解读

联邦学习针对推荐场景化的技术原理解析

背景

在数字化时代,推荐系统已成为互联网平台的核心引擎,广泛应用于电商、社交、内容分发等领域。推荐系统的效果高度依赖于数据,尤其是用户的行为数据和物品的特征数据。然而,随着《个人信息保护法》等法律法规的实施以及用户对隐私保护意识的提升,数据孤岛问题日益凸显。传统的集中式机器学习模式要求将所有数据汇聚到中心服务器进行训练,这不仅面临巨大的数据合规风险,还受到数据隐私泄露的威胁。

联邦学习(Federated Learning, FL)作为一种新兴的分布式机器学习范式,旨在解决这一矛盾。它允许参与方在不共享原始数据的前提下,协同训练一个全局模型。在推荐场景中,用户行为数据往往分散在不同的设备或服务器端(如移动端、不同业务线服务器),联邦学习技术使得在保护数据隐私的同时,利用多方数据提升推荐模型的准确性和泛化能力成为可能。本文旨在深入解析联邦学习在推荐场景下的技术原理、架构设计及关键挑战。

核心内容

联邦学习在推荐场景中的应用并非简单的算法叠加,而是涉及复杂的系统架构设计和工程优化。其核心流程通常包括以下几个关键环节:

1. 联邦学习的基本架构

在推荐场景中,联邦学习通常采用横向联邦学习(Horizontal FL)或纵向联邦学习(Vertical FL)的混合模式,具体取决于数据分布情况。

  • 横向联邦学习:适用于不同机构拥有相同特征空间但不同样本数据的情况。例如,不同地区的分公司拥有各自的用户行为数据,但特征维度一致。通过横向联邦学习,可以扩大训练样本量,提升模型的覆盖率。
  • 纵向联邦学习:适用于不同机构拥有相同样本空间但不同特征空间的情况。例如,电商平台拥有用户的交易行为数据,而社交平台拥有用户的社交关系数据。通过纵向联邦学习,可以丰富用户画像,提升特征的维度,从而更精准地预测用户行为。

2. 推荐场景下的模型结构

推荐系统通常由召回(Retrieval)、粗排(Pre-ranking)、精排(Ranking)和重排(Re-ranking)等多个阶段组成。联邦学习主要应用于召回和精排阶段,因为这些阶段对数据量和特征丰富度要求最高。

  • Embedding 层:在推荐模型中,用户和物品的 ID 通常被映射为高维稠密向量(Embedding)。在联邦学习中,Embedding 表的管理是一个关键问题。通常,Embedding 表可以存储在中心服务器或参与方本地,通过加密通信进行更新。
  • 共享层与私有层:为了平衡隐私保护和模型效果,模型结构通常被划分为共享层和私有层。共享层用于提取通用特征,私有层用于处理特定参与方的独有特征。通过梯度交换或参数交换,参与方可以在不暴露原始数据的情况下协同优化共享层参数。

3. 通信与计算优化

联邦学习在推荐场景下面临的主要挑战是通信开销和计算资源限制。

  • 通信压缩:由于推荐模型通常包含大量的 Embedding 参数,直接传输梯度或参数会导致巨大的通信带宽压力。因此,常用的优化技术包括量化(Quantization)、稀疏化(Sparsification)和压缩(Compression)。例如,只传输梯度中绝对值较大的部分,或者将浮点数梯度量化为低比特整数。
  • 异步更新:在大规模分布式系统中,同步等待所有参与方完成计算会导致效率低下。异步联邦学习允许参与方在本地计算后直接更新全局模型,而不必等待其他参与方,从而提高训练速度。
  • 客户端选择:并非所有参与方都适合参与每一轮训练。根据参与方的数据质量、计算能力和网络状况,动态选择参与训练的客户端,可以有效提升训练效率和模型效果。

4. 隐私保护机制

隐私保护是联邦学习的核心诉求。在推荐场景中,除了防止原始数据泄露,还需要防止通过梯度或参数推断出用户隐私信息。

  • 差分隐私(Differential Privacy, DP):在梯度或参数中添加噪声,使得攻击者无法从输出结果中推断出单个样本的信息。然而,添加噪声会影响模型精度,因此需要在隐私保护和模型效果之间进行权衡。
  • 安全多方计算(Secure Multi-Party Computation, MPC):通过密码学协议,使得参与方在不知道彼此输入的情况下,共同计算一个函数。MPC 可以提供更强的隐私保护,但计算开销较大。
  • 同态加密(Homomorphic Encryption, HE):允许在加密数据上进行计算,解密后的结果与在明文上计算的结果一致。HE 可以保护传输过程中的数据隐私,但计算复杂度较高。

在实际工程中,通常结合多种隐私保护技术,如使用 Secure Aggregation(安全聚合)协议,确保中心服务器只能获取所有参与方梯度的总和,而无法得知单个参与方的梯度。

关键要点

  • 数据孤岛与隐私合规:联邦学习解决了推荐系统中数据分散与隐私保护之间的矛盾,使得在不共享原始数据的前提下实现多方数据协同训练。
  • 混合联邦架构:推荐场景通常结合横向和纵向联邦学习,以充分利用不同来源的数据特征和样本信息。
  • 模型结构定制化:针对推荐系统的大规模 Embedding 特性,联邦学习需要设计专门的模型结构,如共享层与私有层的分离,以平衡隐私与效果。
  • 通信效率是关键:推荐模型参数规模巨大,通信开销是联邦学习落地的主要瓶颈。量化、稀疏化、异步更新等技术是提升效率的关键。
  • 隐私保护技术组合:单一隐私保护技术难以兼顾安全与效率,实际应用中通常结合差分隐私、安全聚合、同态加密等多种技术。
  • 工程化挑战:联邦学习在推荐场景中的落地涉及复杂的系统工程,包括客户端管理、模型版本控制、监控评估等,需要完善的平台支持。

意义与影响

联邦学习在推荐场景中的应用具有深远的意义和影响:

  1. 提升推荐效果:通过整合多方数据,联邦学习能够提供更丰富、更精准的用户画像和物品特征,从而显著提升推荐系统的准确性和用户满意度。
  2. 增强隐私保护:联邦学习从技术底层保障了用户数据的安全,符合日益严格的隐私保护法规要求,有助于建立用户信任,提升品牌形象。
  3. 促进数据要素流通:联邦学习为数据要素的安全流通提供了技术基础,促进了不同行业、不同机构之间的数据合作,推动了数字经济的发展。
  4. 推动技术创新:联邦学习在推荐场景中的应用推动了分布式机器学习、隐私计算、通信优化等领域的技术创新,为人工智能的发展提供了新的方向。

然而,联邦学习在推荐场景中的落地仍面临诸多挑战,如异构数据分布、系统异构性、隐私保护与模型效果的权衡等。未来,随着技术的不断进步和生态的完善,联邦学习有望在更广泛的推荐场景中发挥更大的作用。

查看原文 →infoq.cn