联邦学习激励机制

本博客地址:https://security.blog.csdn.net/article/details/123634368

一、贡献的收益

对于联邦而言,参与方持续地参与到联邦的学习进程是其长期成功的关键所在。参与方加入联邦,构建一个机器学习模型,从而对联邦作出贡献,训练出的模型可以产生收益,联邦可以与参与方们共享部分收益,以此作为激励。

一般情况下,收益分享的方法可以分为三类:

● 平等收益。由数据联邦产生的任何效用,都平均分配给帮助生成它的参与方。

● 边际收益。数据联邦中的参与方的效益是它加入团队时所产生的效用。

● 边际损失。数据联邦中的参与方的效益是它离开团队时所产生的效用。

一般而言,一个参与方 i 在给定收益分享轮次 t 中,从总预算 B(t) 得到的分期收益的计算公式为:

\breve{u}_i(t) = \frac{u_i(t)}{\sum_{i=1}^{N}u_i(t)}B(t)

其中,u_i(t) 表示参与方 i 对收益 B(t) 产生的效用,其数值根据给定方法计算得到。

平等收益方法:

● 在平等收益分享方法中,一个参与方 i 的收益为:u_i(t) = \frac{1}{N}B(t)

边际收益方法:

● 在个体收益分享方法中,一个参与方 i 的收益为:u_i(t) = v(\left \{ i \right \})

● 在工会博弈收益分享方法中,一个参与方 i 的收益为:u_i(t) = v(F \cup \left \{ i \right \} ) - v(F)

● 在Shapley博弈收益分享方法中,一个参与方 i 的收益为:u_i(t) = \sum_{P\subseteq P_j / \left \{ i \right \} } \frac{|P|!(|P_j| - |P| - 1)!}{|P_j|} [v(P\cup \left \{ i \right \}) - v(P)]

边际损失方法:

● 在公平价值博弈方法中,一个参与方 i 的收益为:u_i(t) = v(F) - v(F/\left \{ i \right \})

二、联邦学习激励方法

为了维持数据联邦的长期稳定,并且在以后逐渐吸引更多高质量的参与方加入,需要一种强调公平性,并且适合联邦学习环境的激励机制,在这种背景下,联邦学习激励方法应用而生,它通过最大化可持续的经营目标,动态地将给定的预算划分给联邦中的各个参与方,同时最小化参与方间的不平等问题。

下面总结一些术语及标识:

术语标识
建模贡献q_i(t)
建模代价c_i(t)
建模期望损失Y_i(t),其中 Y_i(t+1) = max [ Y_i(t) + c_i(t) -u_i(t), 0]
建模时间期望损失Q_i(t),其中 Q_i(t+1) = max [ Q_i(t) + \lambda _i(t) -u_i(t), 0]

为了鼓励参与方持续地参与到联邦中来,联邦需要确保参与方会基于各自的贡献而被公平对待,对于联邦的长期持续经营,一般有三个公平标准:

● 贡献公平性。参与方的回报应该与其对联邦的贡献明确相关。

● 期望损失分配公平性。参与方间的期望损失和时间期望损失应该尽可能的小。

● 期望公平性。参与方的期望损失和时间期望损失随时间推移而产生的变化应该尽可能的小。

对于贡献公平性,我们可以设定:q_i(t) 为参与方对联邦做出的贡献;u_i(t) 为参与方由于自己的贡献。对联邦做出重要贡献的参与方理应得到高回报,因此,最大化以下公式的U即可满足贡献公平性的标准:

U = \frac{1}{T} \sum_{t=0}^{T-1}\sum_{i=1}^{N}\left \{ q_i(t) u_i(t) \right \}

对于期望损失分配公平性和期望公平性,我们可以设定:Y_i(t) 为期望损失,Q_i(t) 为期望时间损失。期望损失偏移变量 ∆ 联合地捕获参与方间期望损失(Y_i(t)Q_i(t))的分布,以及期望损失随时间发生的变化。因此,最小化以下公式中的 ∆ 满足期望损失分配公平性期望公平性的标准:

\Delta \leqslant \frac{1}{T}\sum_{t=0}^{T-1}\sum_{i=1}^{N}\left \{ u_i^2(t) - u_i(t) [Y_i(t) + c_i(t) + Q_i(t) + \lambda _i(t)] \right \}

联邦学习激励方法收益共享方案总结:

输入值:\omega 和B(t) 由系统管理员设置;Y_i(t) 来自第 t 轮次的所有参与方(对于任何刚刚加入联邦的 i ,有 Y_i(t) = 0);Q_i(t) 来自第 t 轮次的所有参与方(对于任何刚刚加入联邦的 i ,有 Q_i(t) = 0)。

算法如下:

-----------------------------------------------------------------------------------------

初始化 \small S(t) \leftarrow 0;// 为了保存所有u_i(t) 值的和

for i=1,2,……,N do

        if \small d_i(t) > 0 then

                计算 \small c_i(t)

                计算 \small q_i(t)

        else

                \small c_i(t) =0

        end if

        \small u_i(t) \leftarrow \frac{1}{2}[\omega q_i(t) + Y_i(t) + c_i(t) + Q_i(t)+\lambda _i(t)]

        \small S(t) \leftarrow S(t)+u_i(t)

end for

for  i=1,2,……,N do

        \small \hat{u}_i(t) \leftarrow \frac{u_i(t)}{S(t)}B(t)

        \small Y_i(t+1) \leftarrow max[0,Y_i(t) + c_i(t)-\hat{u}_i(t)]

        \small Q_i(t+1) \leftarrow max[0,Q_i(t) + \lambda _i(t)-\hat{u}_i(t)]

end for

return \small \left \{ \hat{u}_1(t), \hat{u}_2(t),......\hat{u}_N(t) \right \}

-----------------------------------------------------------------------------------------

该算法考虑了参与到联邦中的程度和时间两个方面,共享了大量高质量数据的参与方,以及长期没有得到全部补偿的参与方,之后都将得到由联邦生成的更高份额的收益。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

武天旭

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值