Byzantine-Robust Distributed Learning: Towards Optimal Statistical Rates

Byzantine-Robust Distributed Learning: Towards Optimal Statistical Rates

abstract

  • 背景:在分布式计算系统中,存在着由于任意和可能是对抗性的行为引起的拜占庭故障。这可能会对分布式优化算法的性能产生负面影响;
  • 目标:开发一个同时实现统计最优化通信效率的分布式拜占庭鲁棒算法;
  • 方法:
    • 研究采用了两种强健的分布式梯度下降算法,分别基于中值和修剪均值操作。这两种算法被设计为能够在面对拜占庭故障时保持强健性。
    • 为了实现更好的通信效率,研究提出了一种基于中值的分布式算法。
  • 结果:
    • 通过数学证明,这些算法在强凸、非强凸和光滑非凸总体损失函数的情况下,都能够达到最优的统计误差率。特别地,对于强凸损失函数,这些算法被证明能够达到统计误差率的渐进最优水平。
    • 基于中值的分布式算法,该算法证明了其强健性,并且只需要进行一轮通信,同时在强凸二次损失的情况下达到了与强健分布式梯度下降算法相同的最优误差率。

introduction

contribution

提出了两种鲁棒的分布式梯度下降(GD)算法,进一步提出了一种只需要一轮通信的基于中值的鲁棒算法,并证明了它也达到了强凸二次损失的最优速率。

  1. Median-based GD
  2. Trimmed-mean-based GD
  3. Median-based one-round algorithm

related work

problem setup

robust distributed gradient descent

image-20231206113013808

option 1:Median-based Gradient Descent

每个梯度是多维的,传统的平均聚合方法是在所有的梯度中,对每一个维度进行平均聚合。而在Median-based Gradient Descent是在所有梯度的每一维度中,选择一个处于中间的中等值作为这一维度的聚合结果,如下图所示:

image-20231206213201787

上图中每个参与方有一个梯度,每个梯度是三维的,可以看到所有梯度的第一维度中,3是中间值;第二维度是5;第三维度是6;所以最后的聚合结果是[3 , 5 , 6]

option 2:trimmed-mean-based Gradient Descent

进行全局聚合时,首先去掉最大、最小值的一部分,这部分是多少可以实验进行设置,去掉这两部分之后,对剩下的值进行平均,平均后的值作为梯度每个维度的聚合结果,如下图所示:

image-20231206213921857

其中image-20231206213958856为聚合前需要去除的值占比,如上所示image-20231206214115419就是说,五个值要去掉两个,那就是头一个,尾一个;剩下的值进行平均,作为全局聚合的结果,即[3, 6, 5.33]。

实验

实验1.mean、median、trimmed mean的随着迭代轮次的增加,错误率的变化

image-20231206163323649

image-20231206164149219

实验2.一轮通信模型

image-20231206164505165

总的贡献

  1. 利用median、trimmed-mean算法应用在分布式系统上,得到比mean更好的效果;
  2. 利用一轮通信的分布式方法,将原来的平均聚合改为median值,得到了比mean更好的效果。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值