Byzantine-Robust Distributed Learning: Towards Optimal Statistical Rates
abstract
- 背景:在分布式计算系统中,存在着由于任意和可能是对抗性的行为引起的拜占庭故障。这可能会对分布式优化算法的性能产生负面影响;
- 目标:开发一个同时实现统计最优化和通信效率的分布式拜占庭鲁棒算法;
- 方法:
- 研究采用了两种强健的分布式梯度下降算法,分别基于中值和修剪均值操作。这两种算法被设计为能够在面对拜占庭故障时保持强健性。
- 为了实现更好的通信效率,研究提出了一种基于中值的分布式算法。
- 结果:
- 通过数学证明,这些算法在强凸、非强凸和光滑非凸总体损失函数的情况下,都能够达到最优的统计误差率。特别地,对于强凸损失函数,这些算法被证明能够达到统计误差率的渐进最优水平。
- 基于中值的分布式算法,该算法证明了其强健性,并且只需要进行一轮通信,同时在强凸二次损失的情况下达到了与强健分布式梯度下降算法相同的最优误差率。
introduction
contribution
提出了两种鲁棒的分布式梯度下降(GD)算法,进一步提出了一种只需要一轮通信的基于中值的鲁棒算法,并证明了它也达到了强凸二次损失的最优速率。
Median-based GD
Trimmed-mean-based GD
Median-based one-round algorithm
related work
problem setup
robust distributed gradient descent
option 1:Median-based Gradient Descent
每个梯度是多维的,传统的平均聚合方法是在所有的梯度中,对每一个维度进行平均聚合。而在
Median-based Gradient Descent
是在所有梯度的每一维度中,选择一个处于中间的中等值作为这一维度的聚合结果,如下图所示:上图中每个参与方有一个梯度,每个梯度是三维的,可以看到所有梯度的第一维度中,3是中间值;第二维度是5;第三维度是6;所以最后的聚合结果是[3 , 5 , 6]
option 2:trimmed-mean-based Gradient Descent
进行全局聚合时,首先去掉最大、最小值的一部分,这部分是多少可以实验进行设置,去掉这两部分之后,对剩下的值进行平均,平均后的值作为梯度每个维度的聚合结果,如下图所示:
其中为聚合前需要去除的值占比,如上所示就是说,五个值要去掉两个,那就是头一个,尾一个;剩下的值进行平均,作为全局聚合的结果,即[3, 6, 5.33]。
实验
实验1.mean、median、trimmed mean的随着迭代轮次的增加,错误率的变化
实验2.一轮通信模型
总的贡献
- 利用median、trimmed-mean算法应用在分布式系统上,得到比mean更好的效果;
- 利用一轮通信的分布式方法,将原来的平均聚合改为median值,得到了比mean更好的效果。