「联邦学习论文05」Profit Allocation for Federated Learning

大家好,继续联邦学习贡献测量的论文《Profit Allocation for Federated Learning》,发布于2019年,引用量101,经常在综述中看到它

链接

这篇论文,https://zhuanlan.zhihu.com/p/598364298,和联邦学习激励机制https://zhuanlan.zhihu.com/p/595679334,都提到过用Shapley值计算联邦学习数据提供者的贡献,但它Shapley值的计算成本太大,复杂度达到了O(N!),不适合联邦学习。

所以,本文定义了一个基于Shapley的度量指标——贡献指数CI,提出了两种基于梯度的方法,通过训练过程的中间结果,近似重构模型,避免额外训练。

前言结构:诞生背景==》 引出联邦学习 ==》 提出激励机制 ==》 Shapley值相关研究和存在的缺点 ==》 本文方法和贡献

相关工作分为两部分:联邦学习和基于Shapley值的数据评估

但我觉得联邦学习的相关工作,讲得太宽泛。属于“懂FL的懒得看,不懂FL的看完没印象”

可以讲一小段联邦学习,然后引出FL面临的大问题 ,再到本文解决的激励机制问题。不然猛不丁从联邦学习,跳到Shapley值,读者会觉得太突兀。

毕竟写论文,就是讲科研故事呗,不光自己写的爽,还得让别人读的爽。写得引人入胜,一环扣一环,哈哈哈哈

贡献指数CI通过本地数据集、机器学习算法和测试集等因素,量化数据提供者的贡献。

然后咱来看看这篇论文提到的两个方法,这两种方法只需记录训练过程的中间结果,通过局部梯度计算贡献指数,而不是对每个模型进行训练。有效逼近准确的贡献指数,合理分配利润,且训练时间短,但只适用于水平联邦学习。

第一种方法单轮重建OR,收集不同轮次的梯度,在最后一轮更新FL的初始全局模型来重构模型,通过重构模型的性能计算贡献指数。

image-20230123113042719

第二种方法多轮重建MR,通过使用不同轮次的梯度更新前一轮的全局模型来计算每轮的贡献指数,将多轮贡献指数按照权重聚合,得到最后的贡献指数。

image-20230123113051711

再看实验,数据集采用MNIST

将数据集处理为5种情况:

1、相同数据大小的相同分布

2、相同数据大小的不同分布

3、不同数据大小的相同分布

4、相同数据大小的标签上噪声数据

5、相同数据大小的特征上噪声数据

和这5个算法进行比较

1、Exact

2、Extended-TMC-Shapley

3、Extended-GTB

4、One-Round

5、Multi-Round

四个评估指标:

1、时间

2、余弦距离

3、欧几里得距离

4、最大差异

贴了5张图,对比了四个指标的5种算法

image-20230123122547541

实验总结:

时间上,Extended-TMC-Shapley 和 Extended-GTB 是最耗时,OR 和 MR 的成本时间对于不同的设置是稳健的,且最有效

性能上,MR在所有设置中表现稳定,OR大多数设置最准确接近CI,Extended-TMC-Shapley 和 Extended-GTB 表现最差

一句话:证明咱提的方法好!

论文结论,直接看翻译吧

本文定义了一个基于Shapley值的贡献指数来衡量不同数据提供者在水平联邦学习任务中的贡献。 基于贡献指数的联合模型可以合理分配所获得的利润,从而吸引数据拥有者加入到数据联邦中来。 根据定义计算贡献指数需要对所有数据集的不同组合进行大量的模型训练。 我们提出了两种基于梯度的方法,其核心思想是通过联邦学习过程的中间结果来重构模型。 我们在MNIST数据集上进行了大量的实验,结果表明,我们的方法可以有效地逼近定义的精确贡献指数,与其他基线相比,速度提高了2x-100x。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值