Quantized Distributed Federated Learning for Industrial Internet of Things
工业物联网量化分布式联邦学习
本文介绍了去中心服务器的完全分布式联邦学习
介绍
优点:基于D2D的分布式通信可以解决集中式通信的单点故障和可扩展性问题,并且D2D的短通信距离也减少了数据传输的时延
缺点:由于设备数量多,每个设备的有效通信频带有限。
此外,还有以下挑战:1)分布式设备训练的局部模型能否收敛到同一模型? 2)在设备之间频繁的模型交换过程中,如何减少通信负荷?
本文提出了一种基于量化的分布式联邦学习(Q-DFL)机制,该机制可以减少通信开销,同时保证局部模型收敛到相同的全局模型。Q-DFL包括两个阶段:1)第一阶段,局部模型训练阶段,在每个IIoT设备上使用随机梯度下降(SGD)算法训练局部模型,然后在相邻节点之间交换量化后的模型参数; 2)第二阶段,共识阶段,设计了共识机制,确保局部模型收敛到相同的全局模型。我们还提出了一种自适应停止机制和同步协议,以实现从阶段I到阶段II的变化。
系统模型
局部模型的训练优化目标:
其中F( )为损失函数。局部模型训练是一个基于局部数据集优化模型 ,以最小化损失函数F( )的迭代过程。
局部模型训练采用SGD算法进行,即
(2) SGD算法
当局部模型训练t轮之后,设备i的局部模型收敛到Wi(t),并与其一跳相邻设备的模型进行聚合,即
(3)与邻居聚合
其中h为聚合步长,ui(t)来源于共识协议。
问题建模
本工作的设计目标是最小化量化的比特数R, 且满足收敛条件,即
(约束条件:在训练到一定轮数时,所有局部模型必须收敛于一个共享的全局模型
满足预定义的精度阈值,损失函数小于阈值)
为了解决上面的问题,我们需要主要考虑以下两个问题。
- 第一个问题是过拟合问题,在DFL中,设备的训练数据集比全局数据集小得多,容易出现过拟合。为了避免这种情况,可以在节点之间交替进行模型训练和模型聚合。然而这种交替过程可能导致全局聚合的失败。
- 第二个问题是通信开销,DFL相邻节点之间频繁交换模型参数,其中模型参数可能是巨大的。因此,模型参数的量化可以减少通信开销,然而这种方法不可避免地引入了量化误差,可能导致局部模型不能收敛到全局模型。
量化编码和共识
量化器定义为:
其中,Z为多维向量,C为量化器的界。上式表示量化器对多维向量的每个元素进行均匀量化。
本文采用了自适应差分量化编码方案,以减少通过D2D链路交换模型参数所需的通信负荷。具体来说,设备i的编码器ϕi由下述公式给出:
其中 为设备i的编码器 , > 0是一个标度函数,g0 是常数, 为 的内部状态,反映出节点对模型参数的动态变化和共识过程的进展情况, 为节点i的编码器 的输出模型,q(·)为量化器 。
编码器的输出是一个差分量化值, 捕捉了节点在t+1 的模型参数和当前内部状态之间的差异。在协商过程中,各个节点通过交换差分量化值来逐步调整内部状态,从而实现信息交流和达成共识。
当 时,表示达成共识。从公式中可以看出,这个式子成立时,输出∆i(t+1)为0,内部状态保持一致。
解码器:对于与设备j相邻的设备i,它应该接收到量化模型 ,然后采用以下解码器估计原始 :
一旦节点i从它所有的一跳邻居那里收集了模型后,就执行(3)中的聚合操作:
(8)
为节点j与节点i之间的聚合权重,需要注意,当t足够大时,所有局部模型收敛到一个全局模型。
两阶段Q-DFL
ASM
自适应停止机制ASM的基本思想是,如果局部模型被识别为过拟合,则模型训练过程将被迫停止。具体包括:
使用ĸ𝑖来作为设备i上模型的过拟合度,当,意味着是过拟合精度,ĸ𝑖将加1;否则,我们设置ĸ𝑖 = 0和。
当ĸ𝑖达到预定义阈值κ时,设备i上的过拟合停止参数将进行自适应更新。
给定局部模型训练的停止阈值ζ,定义停止条件为,其中
ASM 可以确保在模型训练达到预定义的目标精度 θ ,或者过拟合时停止训练,并开始共识阶段。
SP
同步协议SP使用状态账本s和轮数变量e来记录所有设备的训练状态,并通过相邻设备之间的消息传递来同步每个节点的训练状态。当所有节点都停止训练时,第一个检测到这个信号的节点将轮数变量e设置为当前时间t加上节点数量N,并将其传播给所有其他节点,以同时启动共识过程。