Byzantine-Robust Distributed Learning: Towards Optimal Statistical Rates

slomay

已于 2023-12-06 21:45:26 修改

阅读量292

点赞数

文章标签：论文笔记

于 2023-12-06 21:44:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45891757/article/details/134841969

版权

Byzantine-Robust Distributed Learning: Towards Optimal Statistical Rates

abstract

背景：在分布式计算系统中，存在着由于任意和可能是对抗性的行为引起的拜占庭故障。这可能会对分布式优化算法的性能产生负面影响；
目标：开发一个同时实现统计最优化和通信效率的分布式拜占庭鲁棒算法；
方法：
- 研究采用了两种强健的分布式梯度下降算法，分别基于中值和修剪均值操作。这两种算法被设计为能够在面对拜占庭故障时保持强健性。
- 为了实现更好的通信效率，研究提出了一种基于中值的分布式算法。
结果：
- 通过数学证明，这些算法在强凸、非强凸和光滑非凸总体损失函数的情况下，都能够达到最优的统计误差率。特别地，对于强凸损失函数，这些算法被证明能够达到统计误差率的渐进最优水平。
- 基于中值的分布式算法，该算法证明了其强健性，并且只需要进行一轮通信，同时在强凸二次损失的情况下达到了与强健分布式梯度下降算法相同的最优误差率。

introduction

contribution

提出了两种鲁棒的分布式梯度下降（GD）算法，进一步提出了一种只需要一轮通信的基于中值的鲁棒算法，并证明了它也达到了强凸二次损失的最优速率。

Median-based GD
Trimmed-mean-based GD
Median-based one-round algorithm

related work

problem setup

robust distributed gradient descent

option 1：Median-based Gradient Descent

每个梯度是多维的，传统的平均聚合方法是在所有的梯度中，对每一个维度进行平均聚合。而在Median-based Gradient Descent是在所有梯度的每一维度中，选择一个处于中间的中等值作为这一维度的聚合结果，如下图所示：

上图中每个参与方有一个梯度，每个梯度是三维的，可以看到所有梯度的第一维度中，3是中间值；第二维度是5；第三维度是6；所以最后的聚合结果是[3 , 5 , 6]

option 2:trimmed-mean-based Gradient Descent

进行全局聚合时，首先去掉最大、最小值的一部分，这部分是多少可以实验进行设置，去掉这两部分之后，对剩下的值进行平均，平均后的值作为梯度每个维度的聚合结果，如下图所示：

其中为聚合前需要去除的值占比，如上所示就是说，五个值要去掉两个，那就是头一个，尾一个；剩下的值进行平均，作为全局聚合的结果，即[3, 6, 5.33]。

实验

实验1.mean、median、trimmed mean的随着迭代轮次的增加，错误率的变化

实验2.一轮通信模型

总的贡献

利用median、trimmed-mean算法应用在分布式系统上，得到比mean更好的效果；
利用一轮通信的分布式方法，将原来的平均聚合改为median值，得到了比mean更好的效果。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。