论文《Federated Recommendation with Additive Personalization》阅读

论文《Federated Recommendation with Additive Personalization》阅读

今天带来的是 ICLR 2024 关于联邦推荐的论文《Federated Recommendation with Additive Personalization》,论文由 悉尼科技大学 Zhiwei Li 等人 及 马里兰大学帕克分校(UMD)Tianyi Zhou 完成。论文发表在 ICLR 2024,主要聚焦于 联邦推荐场景下 (1)不同用户与 server 上传下载的各自的 embedding gradient 比较片面;(2)较大的数据量传输影响 传输效率 这几个问题,提出了模型 FedRAPFederated Recommendation with Additive Personalization)。

论文地址:https://openreview.net/pdf?id=xkXdE81mOK
代码仓库:https://github.com/mtics/FedRAP

论文概况

FedRAP实际上就是把每个user 对应的 client 中关于 当前用户的 user embedding 向量与 item embedding matrix 之间的运算进行拆分,具体来说,是将 item embedding matrix进行拆分,分为 C \mathbf{C} C D i \mathbf{D}^{i} Di

针对挑战 C1:大部分 FRS 都是将所有的item embedding 在全局进行共享,忽略了 用户 对 不同物品的 preference。作者使用 C \mathbf{C} C D i \mathbf{D}^{i} Di 的分离对这一问题进行解决。
针对挑战 C2:联邦推荐需要占用较大的通信开销,特别是对于物品数量较多的场景。作者加了一个正则化项进行约束。
此外,作者在一个全局向量 C \mathbf{C} C 的添加过程中,加入了一个渐进式增加的权重函数,用于提高学习精确率。

Preliminaries

  • rating 矩阵 R = [ r 1 , r 2 , ⋯   , r n ] ⊤ ∈ { 0 , 1 } n × m \mathbf{R} = [\mathbf{r}_1, \mathbf{r}_2, \cdots, \mathbf{r}_n ]^{\top} \in \{0,1\}^{n\times m} R=[r1,r2,,rn]{0,1}n×m n n n表示用户数量, m m m表示物品数量。
  • 用户表示 U ∈ R n × k \mathbf{U} \in \mathbb{R}^{n\times k} URn×k,每个客户端 i i i 只保存自己的那一份 u i \mathbf{u}_{i} ui
  • 作者对于物品表示使用了两份矩阵,local item embedding D ( i ) ∈ R m × k \mathbf{D}^{(i)}\in \mathbb{R}^{m\times k} D(i)Rm×k,这部分用户只保存在自己的client端,不进行传输,用于保存用户的个性化信息。
  • 另一份用于保存global item 信息的 embedding 是 C ∈ R m × k \mathbf{C} \in \mathbb{R}^{m \times k} CRm×k。在整个FedRAP中,用于传播的只有 C \mathbf{C} C 这部分而已。
  • 为标记每个用户的 interaction records,使用 Ω = { ( i , j ) : the  i -th user has rated the  j -th item } \boldsymbol{\Omega} = \left\{(i,j): \text{the} \ i\text{-th user has rated the}\ j\text{-th item} \right\} Ω={(i,j):the i-th user has rated the j-th item}

下面介绍具体的方法论部分。

Methodology

FedRAP 的主要创新是在 client 端进行的。

客户端维持 自己的 user embedding 和 所有物品的 item embedding 矩阵,并添加了一个全局 item embedding 矩阵,用于维护全局向量。具体来说,使用内积加sigmoid方法进行interaction预测,如下所示:
r ^ i j = 1 / ( 1 + e − < u i , ( D ( i ) + C ) j > ) (1) \hat{r}_{ij} = 1/ (1+ e^{-<\mathbf{u}_{i}, (\mathbf{D}^{(i)} + \mathbf{C} )_{j}>})\tag{1} r^ij=1/(1+e<ui,(D(i)+C)j>)(1)

损失函数使用 交叉熵损失,如下所示:
min ⁡ U , C , D ( i ) ∑ ( i , j ) ∈ Ω − ( r i j log ⁡ ( r ^ i j ) + ( 1 − r i j ) log ⁡ ( 1 − r ^ i j ) ) . (2) \min_{\mathbf{U}, \mathbf{C}, \mathbf{D}^{(i)} } \sum\limits_{(i,j)\in \boldsymbol{\Omega}} -( r_{ij} \log ({\hat{r}}_{ij}) + (1 - r_{ij}) \log(1 - {\hat{r}}_{ij})). \tag{2} U,C,D(i)min(i,j)Ω(rijlog(r^ij)+(1rij)log(1r^ij)).(2)

另外,添加一个正则化项用于约束 C \mathbf{C} C ,使得 C \mathbf{C} C 能够 与 每个客户端的 个性化信息 扩大差距,加入下式:
max ⁡ C , D ( i ) ∑ i = 1 n ∥ C − D ( i ) ∥ F 2 (3) \max_{\mathbf{C}, \mathbf{D}^{(i)}} \sum\limits_{i=1}^{n} \|\mathbf{C} - \mathbf{D}^{(i)} \|_{F}^{2} \tag{3} C,D(i)maxi=1nCD(i)F2(3)

为了使得早期能够更多地学习 user-item 之间的 interaction 协同过滤信息,在正则化项中加入了两个 权重因子 λ ( a , v 1 ) \lambda_{(a, v_{1})} λ(a,v1) μ ( a , v 2 ) \mu_{(a, v_{2})} μ(a,v2),这里的 a a a 是 iteration 的轮次坐标, v 1 , v 2 v_1, v_2 v1,v2 是宏参。具体的Loss如下:

min ⁡ U , C , D ( i ) ∑ i = 1 n ∑ ( i , j ) ∈ Ω − ( r i j log ⁡ ( r ^ i j ) + ( 1 − r i j ) log ⁡ ( 1 − r ^ i j ) ) − λ ( a , v 1 ) ∥ C − D ( i ) ∥ F 2 ) + μ ( a , v 2 ) ∥ C ∥ 1 . (4) \min_{\mathbf{U}, \mathbf{C}, \mathbf{D}^{(i)} } \sum\limits_{i=1}^{n} \sum\limits_{(i,j)\in \boldsymbol{\Omega}} -( r_{ij} \log ({\hat{r}}_{ij}) + (1 - r_{ij}) \log(1 - {\hat{r}}_{ij}))\\ - \lambda_{(a, v_{1})} \|\mathbf{C} - \mathbf{D}^{(i)}\|_{F}^{2}) + \mu_{(a, v_{2})} \|\mathbf{C}\|_{1}.\tag{4} U,C,D(i)mini=1n(i,j)Ω(rijlog(r^ij)+(1rij)log(1r^ij))λ(a,v1)CD(i)F2)+μ(a,v2)C1.(4)

这里最后一项用的约束是 1-范式,即绝对值之和,越小代表空位越多,因此可以带来越少的通信开销。这里的 λ ( a , v 1 ) \lambda_{(a, v_{1})} λ(a,v1) μ ( a , v 2 ) \mu_{(a, v_{2})} μ(a,v2) 使用相同实现方式,使用 tanh ⁡ ( ⋅ ) \tanh(\cdot) tanh() 完成,具体地, λ ( a , v 1 ) = tanh ⁡ ( a / 10 ) × v 1 \lambda_{(a, v_{1})} = \tanh(a/10)\times v_{1} λ(a,v1)=tanh(a/10)×v1

Server端和正常FRS一样,只不过 FedRAP 只 交互 C \mathbf{C} C。整体流程如下图所示:
FedRAP Architecture
对FedRAP整个算法流程进行总结,如下算法所示,简单高效:
FedRAP Algorithm

Experiments

本文的一大特点是实验部分以图为主,表格倒是比较少(不过放在附录中了,能够查看详细数值)。具体如下:
Overall Comparisons
另外,实验部分写得非常干练,直接把所有的variants都列在一块,在每一块对应要分析的地方直接进行对比。

消融实验

Ablation

Convergence

Convergence

Curriculum分析

即对不同的 λ ( a , v 1 ) \lambda_{(a, v_1)} λ(a,v1) μ ( a , v 2 ) \mu_{(a, v_2)} μ(a,v2) 进行分析,FedRAP采用的是 tanh ⁡ \tanh tanh,除此以外,还提供了诸如sin、固定值、交换0/1、 v 1 / ( a + 1 ) v_1/{(a+1)} v1/(a+1)等方式,如下所示:
Curriculum
结果如下:
Analysis of Curricula

可视化

Visualization

一点总结

除此以外,作者还在文中介绍了一些关于联邦推荐中某个客户端连续两次参与梯度aggregation能够泄露隐私的相关证明。

整体而言,本文提出的方案相对简单,然而有效。simple yet effective。

  • 23
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
### 回答1: "Federated learning with non-iid data" 的含义是:在非独立同分布数据(non-iid data)的情况下进行联邦学习联邦学习是一种分布式学习的方法,其特点是模型的训练和更新是在本地设备上进行,而不是在中心服务器上进行。而非独立同分布数据则意味着不同设备之间的数据具有不同的分布和特征,这会对联邦学习的效果造成挑战。因此,在进行联邦学习时,需要考虑如何处理这种情况,以提高模型的准确性和鲁棒性。 ### 回答2: 联邦学习是近年来备受关注的一种机器学习方法,其核心精神是通过多个客户端设备在本地进行数据处理和训练模型,不必将原始数据汇集到一起,避免了隐私泄露和数据传输带来的风险。但实际上,大多数现实场景中的数据并不是独立同分布的(non-iid),多个客户端设备所在的数据分布也极有可能不同,如何在保持原有联邦学习思路的基础上应对非iid数据,也成为了当前研究的热门问题。 目前,学界和产业界对非iid联邦学习的解决方案尝试有很多,其中一些典型的方法包括: 一、联邦聚类(Federated Clustering)。该方法利用监督和非监督的数据聚类模型,对处理不同数据分布的客户端设备进行分类,形成若干个数据分布相似的组,然后在每个组中进行联合学习,对每个组得到的模型结果进行合并。 二、联邦迁移学习(Federated Transfer Learning)。该方法通过在源域数据上进行模型训练和参数更新,再通过一定的方法将已训练的模型迁移到目标域中进行更新和优化,从而使得目标域数据更好地适应模型。 三、混合学习(Federated Hybrid Learning)。该方法结合了联邦学习和分层模型的想法,将多个客户端设备的数据层级化,在相同维度的数据上进行联邦学习,但不同层级内的数据各自训练特定的模型。 以上这些方法都对非iid联邦学习的问题提供了一定的思路和解决方案,在应用场景中也得到了初步的应用。但是,不同于iid数据的不同分布、语义、类别之间的差异使得非iid联邦学习更具挑战性,其数据分布、协作策略、学习算法等方面的问题都需要进一步研究和提高。未来,我们需要不断探索更好、更高效、更准确的非iid联邦学习的方法和方案,应用到各个行业领域提高数据的利用效率和隐私保护水平。 ### 回答3: 联邦学习是一种先进的机器学习技术,它允许多个参与方共同训练一个模型,而不需要将原始数据集集中在单个位置。这种分布式学习的方式可以最大程度地保护用户的数据隐私和安全。 然而,在实际应用中,有时候我们会遇到一些具有不同的分布性质的非IID数据集。因为数据的不均匀和异构性质,使得对于分布在不同的机器上的数据进行联合训练变得更加困难。这种情况也称为不相同的数据偏移或数据漂移。不同分布性质的数据会导致训练模型的性能下降,因为模型无法对不同的数据进行适应。这也使得联合学习更具挑战性。 为了解决这个问题,可以对数据进行采样和重新加权,以便在融合时使每个本地模型对于不同的数据立场相对均衡。一种基于采样的方案是Federated Averaging with Local Adapation(FALA),它是一种高效的算法,它通过对于权值进行本地的调整,减少了由于数据偏移带来的下降的性能。此外,类别抽样和异质性采样也可以用来处理iid 的数据集之间的不相同。在数据偏移情况下,这需要更多的小样本和多轮次迭代。 另一种方法是加入对模型的个性化贡献,即在联合优化时分配不同的权重给本地模型或者对于不同的参与方使用不同的模型。例如,对于基于 神经网络的模型,可以采用逻辑斯蒂回归模型或者线性模型,以提高对于多样性的应对能力。 总而言之,对于不同的非IID数据,需要在联合训练时采用合适的方案,以克服分布不均带来的挑战并获得更好的结果。需要根据不同的实际情况选择最佳的方法,以满足不同的需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值