微众银行在联邦推荐算法上的探索及应用

分享嘉宾：谭奔微众银行高级研究员

编辑整理：王少华

内容来源：微众·AI

出品平台：DataFunTalk

导读： 现如今推荐系统已经得到了广泛的应用，其性能通常是随着数据量的增加而提高。但现实中，数据往往分散在各个提供方手上，且随着数据监管政策趋严，以及数据隐私保护问题越来越受到重视，导致目前集中式的推荐系统难以进一步提高。因此，联邦推荐算法得以兴起。联邦推荐可以在数据不出本地的情况下，在加密的环境中实现和传统推荐算法一致的性能。其中，微众银行的开源平台 FATE 在这方面落地了多种算法，得到了越来越多的应用。今天将为大家带来微众银行在联邦推荐算法上的探索及应用。

主要内容包括：

推荐系统简介
联邦推荐系统
联邦推荐算法原理及实现
联邦推荐云服务和应用

01 推荐系统简介

1. 推荐系统应用广泛

推荐系统在互联网中的应用非常广泛，包括：电商、社交、信息流、在线视频、在线广告等场景。

2. 推荐系统极大提高效率

同时，推荐系统也是 AI 在商业领域成功应用的典型代表。推荐系统大大提高了用户获取信息的效率，帮助用户在海量信息中快速找到匹配的信息；另外，推荐系统还可以帮助企业找到合适的用户群，从而降低获客成本，提高投资回报率。比如，在应用推荐系统后，YouTube 视频点播率提高了 60%；Netflix 电影的播放量提高了 80%，亚马逊的用户浏览量提高了 30%，这都是很大，很可观的提升。

3. 推荐系统的原理

在数学上，推荐系统是一个矩阵填充的问题。其中，矩阵的行表示用户，列表示内容/商品，矩阵中的值表示用户的行为。根据场景的不同，值可以是点击，购买，评分。以评分为例，1-5 表示对应的评分，空白表示用户在这个商品上还没有评分。我们的目的是根据已有的行为记录来预测空白的值，然后根据预测的值进行推荐。为了更精准的进行推荐，还会用到很多其它的信息：包括用户信息 ( 如用户的性别、年龄、职业等维度 ) 和商品信息 ( 如商品的类别、描述文字以及推荐的环境数据（如推荐发生的时间点 ) )。

推荐系统通常会与多个数据方进行合作，从而收集更多的信息，以此提升推荐的效果。因为数据越多，对用户了解越深入，覆盖面越广，效果的提升就越大。图中相关研究也表明：随着额外数据的增加，性能随之提高。

4. 推荐系统面临的问题

① 数据孤岛问题

推荐系统是大数据驱动的应用。在理想情况下，大家可能认为数据质量很好，标签数据很充足，数据也是可以集中收集，并且触手可得的。但现实是，数据通常是分散隔离的，存储在不同的企业，即所谓的数据孤岛问题。

② 数据监管问题

例如欧盟的 GDPR 和国内监管政策的严格，隐私保护是推荐系统必不可少的一个环节。随着数据监管体系不断完善，各个企业都在不断的加强对用户隐私的保护。

5. 差分隐私解决方法

在这种情况下，比如差分隐私是一种比较常用的隐私保护方法。它是在数据中加入一些差分隐私来保护用户的隐私。它可以用于建模的各个环节，比如在用户数据收集的过程中加入，也可以在建模的过程中，比如梯度计算，模型参数中加入差分隐私噪声，还可以在预估结果中加入噪声。

但是，现在的方法，包括差分隐私并不能完全满足我们的需求。随着差分隐私噪声的增加，确实可以保护隐私，但性能是下降的。如上图，在增加差分隐私噪声的情况下，性能下降非常快。我们希望，有一种新的技术可以在保护隐私的情况下做到性能无损。另外一个问题是，加入噪声的数据还是有可能被集中收集，所以其并没有从根本上解决数据安全的问题。我们希望新的技术可以做到数据不出本地，从而保障数据安全和用户隐私。

02 联邦推荐系统

1. 联邦学习的优点

性能无损，A fed B 在保护隐私的前提下，性能和直接收集 A 和 B 数据的效果是一样的
原始数据不出本地
在加密条件下交换模型的参数来构建模型

2. 联邦推荐系统的分类

推荐系统中的核心数据为用户和物品的交互行为数据。根据物品和用户的共享情况，可以将推荐系统分为：

纵向联邦推荐：有大量相同的用户，但是 item 不同，因此也叫 user-based 联邦推荐系统。
横向联邦推荐：有大量相同的物品，但是用户不同，也叫 item-based 联邦推荐系统。

03 联邦推荐算法原理及实现

1. 纵向联邦推荐

纵向联邦推荐介绍：

在这个场景中，书籍和电影这两个推荐系统有共同的 user，但是 item 不同。根据一些研究指出：将这两个推荐系统进行联合，可以提高推荐效果，因为这两个推荐系统的用户偏好是一样的。

纵向联邦矩阵分解：

以矩阵分解为例，在数据不出本地的情况下，如何构建推荐系统？

在单方的情况下，用户的评分矩阵可以分解为两个低维矩阵的乘积，即 user profile p 和 item profile q。这两个矩阵乘积可以很好的拟合历史数据，同时可以填充矩阵中的空白值，并利用这些值进行推荐。

在多方的情况下，可以把两者的矩阵分解合并在一起，即图中的公式：第一项为 A 方的矩阵分解，第二项为 B 方的矩阵分解，第三项是正则项。其中，两方的 user profile 是共享的，item profile 是各自独有的。为了让两方可以及时的获得最新的 user profile，通过引入第三方服务器，由它来维护 p，并实时分发给 A 方和 B 方。

纵向联邦矩阵分解的训练过程：

① 服务器初始化并加密 user profile，参与两方各自初始化 item profile

② 服务器分发加密的 user profile 给 A 和 B 方

③ AB 两方解密 user profile 并基于本地数据计算 loss，更新各自的 item profile，然后两方分别计算 user profile 的梯度，并加密传输给服务器

④ 服务器汇集 user profile 梯度并更新 user profile 矩阵

⑤ 如此迭代，直到模型收敛

纵向联邦矩阵分解在 FATE 中的实现：

计算更新的公式如下：

纵向联邦矩阵分解在 FATE 中的使用：

首先是准备好数据，数据是以三元组形式保存的，包括有 user ID，item ID 和用户的评分。再配置好 FATE job 的文件，最后 submit job，就可以看到模型训练的结果。

2. 纵向联邦推荐案例

在这个案例中，参与各方是有相同用户，但用户特征不一样。这个场景也是很常见的，一个推荐系统和另外一个数据提供方进行合作来提高推荐效果。

在这个场景中，需要做特征交叉。其中因子分解机是处理交叉特征的常用算法。比如将性别和电影类型进行交叉，可以挖掘出男性在战争电影、男性在爱情电影、女性在战争电影和爱情电影的不同偏好程度。对于图中例子的特征交叉，可以知道不同地区的人对不同体育项目的偏好。

联邦因子分解机：

在数据可以自由传输的情况下，是很容易处理的。但是联邦场景下，如何进行交叉呢。联邦因子分解机的目标函数经优化后，由三部分组成：在 party A 和 party B 各自内部进行特征交叉，以及在 A 和 B 之间的特征交叉。我们分别在 A 方和 B 方做一部分计算，然后在合并起来，数据不出本地。同样的，通过引入第三方服务器，在加密的状态下在 A 方和 B 方之间传递模型参数和特征交叉求和的中间结果。

联邦因子分解机训练过程：