Adaptive Control of Local Updating and Model Compression for Efficient Federated Learning

Abstract

在网络边缘产生的数据可以通过利用边缘计算(EC)的范式进行本地处理。在边缘计算的帮助下,联邦学习(FL)已经成为在本地分布式数据上进行分布式机器学习的一种实用和流行的方法。然而,联邦学习面临着三个关键的挑战,即资源约束、系统异质性和边缘计算的上下文动态。为了解决这些挑战,我们提出了一种训练效率高的FL方法,称为FedLamp,在资源受限的EC系统中通过优化资源中的局部更新频率和模型压缩率来实现。我们从理论上分析了模型的收敛率 并得到一个与本地更新频率和模型压缩率相关的收敛上界。根据该收敛 我们提出了一种控制算法,该算法可以自适应地确定不同的和适当的局部更新频率和模型 压缩率,从而减少等待时间,提高训练效率。我们通过大量的模拟和测试平台实验来评估FedLamp的性能。评估结果表明, 与基线相比,在达到类似的测试精度时,FedLamp可以减少63%的流量消耗和约52%的完成时间。

Main contributions

文章设计了一个高效的FL方法:FedLamp,整合了对本地更新和模型压缩的自适应控制,从而更好的克服资源受限的边缘系统中的系统异构性和上下文动态。
文章理论上分析了模型收敛率并获得了本地更新频率和模型压缩率的收敛上界。在此基础上,我们提出了一种控制算法,该算法自适应地确定不同边缘节点的不同和适当的局部更新频率和模型压缩比,从而降低等待时间,提高训练效率。
通过广泛的仿真和实验实验,对FedLamp的性能进行了评价。评价结果表明,与基线相比,FedLamp在达到测试精度约为52%的时候,可降低63%的流量开销和完成时间。

PRELIMINARIES AND PROBLEM FORMULATION

这是文章的标注表
在这里插入图片描述

2.1 Federated Learning in Edge Computing

在EC中,有N个workers(即边缘节点)和一个parameter server(PS)组成一个边缘计算集群,这些参与的workers被PS控制去完成一个学习任务。PS维护一个全局共享模型,而每个本地worker维护一个本地数据集和本地模型。全局loss function在文章中定义如下:
模型训练的目标就是最小化这个loss function的值。
请添加图片描述
而本地worker i 的更新步骤如下所示
请添加图片描述
下图是全局聚合过程
请添加图片描述

Joint Optimization of Local Updating Frequency and Model Compression Ratio

由于系统的异构性,一个局部迭代的计算时间和一个完整模型的传输时间有很大的差异。
性能最高(或最快)的worker可以比性能最低(或最慢)的worker快10倍。然而,在传统的同步方案中,在每次通信中,workers之间的局部更新频率和模型压缩比通常是相同的或固定的。因此,一些快速的workers不得不等待慢速的workers,导致了不可忽视的等待时间,大大降低了训练效率。于是文章提出动态调整不同workers的局部更新频率和模型压缩比,以解决资源受限的EC中的系统异构性和上下文动态。
考虑到不同workers计算能力的差异,一些高性能的workers可以进行更多本地的训练,而一些低性能的则本地训练次数比较少。在模型传输过程中,为了节省通信资源,会采用模型压缩对稀疏化传输的模型参数进行压缩。文章使用topk稀疏化作为我们的压缩操作,而其他压缩操作也可以应用于FedLamp。
以下是模型压缩的数学表示,k是压缩后模型参数的数量,d是原始的模型参数的数量。
较小的模型压缩比γ可以帮助节省更多的带宽资源,但会降低模型质量,降低训练精度。
请添加图片描述
一般来说,通信能力较高的workers可以应用较大的模型压缩比来保留更多的模型参数,而通信能力较低的worker可以使用可提供更小的模型压缩比。这样workers之间的等待时间将大大减少。
考虑到在典型广域网中上传带宽通常比的下载带宽要小得多,文章关注在模型交换过程中,将模型从workers推到PS的通信时间。因此这一过程可以被表示为:
请添加图片描述
需要注意的是,topk压缩操作需要遍历所有的参数才能获得最大的k个参数,这可以通过高效的基于快速排序的选择方法来实现。文章在CIFAR-10上进行了对AlexNet进行训练的预实验,并记录了压缩算法所需的时间和每次通信的完成时间。具体来说,topk压缩算法的平均时间约为0.02s,而一个通信回合的平均完成时间约为4s。在某一轮通信中,压缩时间仅占0.5%左右,因此该时间可以是相当可忽略不计的。

对于等待时间,th代表最慢的worker所需的等待时间。FedLamp确保平均等待时间足够小,以减轻同步障碍的影响。
请添加图片描述

2.3 Problem Formulation

首先,文章对于计算资源与带宽资源的消耗做了限制。C与B分别是系统的资源预算和带宽预算。
请添加图片描述
然后,在EC系统中给定一个FL任务,文章将确定worker i在第h轮模型通信时间和模型在第h轮压缩率,以最小化训练时间。因此,我们将这个问题表述如下:
其实就是前面的公式组合起来;第一个公式代表训练模型(经过H轮)与最优模型之间的差值要小于收敛阈值。文章的目标是在资源约束和性能要求下最小化训练时间
在这里插入图片描述

3 CONVERGENCE ANALYSIS

在本节中,我们分析H通信后全局损失函数的收敛边界。
为了便于分析,文章做了以下三个假设:
请添加图片描述
这些假设在非凸优化问题(如训练深度神经网络)中是标准的,常用于具有模型压缩的FL分析。
首先文章证明了H轮通信后的均方梯度是有界的:
请添加图片描述
基于上面的推导,文章进一步获得了Fedlamp的收敛边界,以及正确的全局聚合权重和本地学习率。
推论1:
这里首先是推导出收敛率, 并且证明本身可以在节约资源消耗的情况下还能达到线性加速的收敛率,并且收获和之前工作相似的收敛效果。
然后文章还制定了为每个worker分配全局聚合权重的规则(21),这个规则表明一个模型有更高的本地更新频率将会被分配更大的全局聚合权重,从而提高整体的训练效率。
请添加图片描述
最后文章制定一个缩放规则来指导模型压缩比的设置,不同的worker对他们的局部更新频率如下:
请添加图片描述
具体理论分析感兴趣可以看论文

4 ALGORITHM DESIGN

4.1 Approximation of Eq. (11)

为了保证收敛,可以使均方梯度的界小于𝜌(是一个接近零的正数),相当于保证。给定模型压缩比和以及模型压缩比与本地更新的频率的关系,文章首先表示了收敛边界;
为了最小化平均等待时间,文章的思路是让每个worker每轮训练完成时间尽可能相似。其中𝛍和𝛃分别代表一次本地迭代所需的计算时间和一次完整模型通信所需时间;v代表是一个常数,表明worker的模型压缩比与其局部更新频率之间的比率。所有公式如下示,目标是最小化T这个函数。
请添加图片描述

4.2 Update Algorithm

在上述解释的基础上,文章提出了一种更新算法,首先估计(h+1)通信轮的最大局部更新频率τ,根据第h轮通信中的训练信息,使T这个需要优化的目标函数最小。然后应用τh+1 l,通过等式计算其他workers在h + 1轮的局部更新频率τh+1 i(25),以最小化平均等待时间。此外,计算和带宽资源预算C和B,都是预先初始化的,并在训练期间保持不变。Bh和Ch为h轮通信的实际资源消耗,Th为h轮通信的累计训练时间。此外,τih+1是在一个查找空间中探索的,以最小化H(H,τlh+1)。文章分别提出了一个针对worker和parameter server的算法。
worker端的算法步骤:
1.估计计算和带宽资源的消耗ci和bi,发送到服务器以计算资源消耗
2.对每个worker执行本地更新(A第14-18行),算法剩下的部分是在与PS交互,主要实现全局聚合
3…第21-22行中引入了错误补偿error compensation(跟踪内存中累积的错误)。该误差变量由一个零向量初始化,错误补偿请求结果表明,模型压缩算法不会破坏训练效果。
请添加图片描述

server端的算法:

在每个全局聚合步骤期间重新计算每个worker本地更新频率,每轮需要进行最新变量估计,即L and σ,这里有两种情况:
变量估计还不可访问,用前一轮的
变量估计可以访问,那就更新每个worker本地的更新率、压缩率、全局聚合更新权重。

请添加图片描述

4.3 Time Complexity Analysis

文章比较了典型的分布式SGD和我们的算法的时间复杂度。为了便于分析,将Uf、Ub和Up表示为前向传播、后向传播和参数更新的时间复杂度。细节不多介绍了,总之其复杂度是类似于典型的SGD。

5 EXPERIMENTATION AND EVALUATION

5.1 Testing of System Heterogeneity and Dynamics

这一小节主要论证了不同设备的差异会比较大
请添加图片描述

5.2 Datasets and Models

Datasets&Models(参考)
Fashion-MNIST:该数据集包含70,000张灰色图像,共被标记为10类,每类7,000个样本。其中每类6,000个样本组成训练集,1,000个样本组成测试集。文章使用一个CNN模型进行训练,该模型大小约5M。
CIFAR-10:该数据集包含60,000张彩色图像,这些图片被标记为10类,每类6,000个样本。其中每类5,000个样本组成训练集,1,000个样本组成测试集。在该数据集上,文章使用AlexNet模型进行训练,该模型大小约15M。
CIFAR-100:该数据集的总样本数和图片大小与CIFAR-10一样,但其类别数和每类的样本数分别是100类和600个。在该数据集上,文章使用ResNet9模型进行训练,该模型大小约25M。

Baselines
FedAvg:固定一致的更新频率;
ADP:根据受限的资源和上下文动态,自适应地确定每个通信回合中所有worker相同的本地更新频率,从而实现通信高效的FL并加快训练过程;
Qsparse:通信开销减少的角度;
FFL:它考虑到系统的异构性,并且联合地、动态地确定了所有通信workers相同的局部更新频率和模型压缩率;

Metrics:
请添加图片描述
从该组实验结果可以看出,FedLamp的收敛效果和其它算法几乎一致。但FedLamp比其它算法收敛快了2-7倍
请添加图片描述
请添加图片描述

请添加图片描述
从该实验结果可以看到,FedLamp在每个通信轮次中都能花费最少的等待时间,这是FedLamp能实现训练加速的一个重要原因。
请添加图片描述

CONSLUSION

这篇文章重点关注了边缘计算中的资源约束、系统异构性和上下文动态等关键挑战。为了克服这些挑战,文章提出了FedLamp联合优化FL中的局部更新频率和模型压缩比。从理论上分析了模型的收敛速度,得到了与更新频率和模型压缩比相关的收敛上界。
且文章提出了一种控制算法来自适应地确定不同的和适当的局部更新频率和压缩比这有助于减少资源约束下的等待时间,提高训练效率。我们通过广泛的仿真和测试来评估FedLamp的性能基线床实验和结果证明了fedlamp的有效性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值