去中心化联邦学习FL论文阅读12

Quantized Distributed Federated Learning for Industrial Internet of Things

工业物联网量化分布式联邦学习

本文介绍了去中心服务器的完全分布式联邦学习

介绍

       优点:基于D2D的分布式通信可以解决集中式通信的单点故障和可扩展性问题,并且D2D的短通信距离也减少了数据传输的时延

       缺点:由于设备数量多,每个设备的有效通信频带有限。

       此外,还有以下挑战:1)分布式设备训练的局部模型能否收敛到同一模型?   2)在设备之间频繁的模型交换过程中,如何减少通信负荷?

        本文提出了一种基于量化的分布式联邦学习(Q-DFL)机制,该机制可以减少通信开销,同时保证局部模型收敛到相同的全局模型。Q-DFL包括两个阶段:1)第一阶段,局部模型训练阶段,在每个IIoT设备上使用随机梯度下降(SGD)算法训练局部模型,然后在相邻节点之间交换量化后的模型参数; 2)第二阶段,共识阶段,设计了共识机制,确保局部模型收敛到相同的全局模型。我们还提出了一种自适应停止机制和同步协议,以实现从阶段I到阶段II的变化。 

系统模型

       局部模型的训练优化目标:

       其中F(  )为损失函数。局部模型训练是一个基于局部数据集优化模型 ,以最小化损失函数F(  )的迭代过程。

      局部模型训练采用SGD算法进行,即

          (2) SGD算法

       当局部模型训练t轮之后,设备i的局部模型收敛到Wi(t),并与其一跳相邻设备的模型进行聚合,即

     (3)与邻居聚合

      其中h为聚合步长,ui(t)来源于共识协议。

问题建模

       本工作的设计目标是最小化量化的比特数R, 且满足收敛条件,即

     (约束条件:在训练到一定轮数时,所有局部模型必须收敛于一个共享的全局模型

                         满足预定义的精度阈值,损失函数小于阈值)

        为了解决上面的问题,我们需要主要考虑以下两个问题。

  1. 第一个问题是过拟合问题,在DFL中,设备的训练数据集比全局数据集小得多,容易出现过拟合。为了避免这种情况,可以在节点之间交替进行模型训练和模型聚合。然而这种交替过程可能导致全局聚合的失败。
  2. 第二个问题是通信开销,DFL相邻节点之间频繁交换模型参数,其中模型参数可能是巨大的。因此,模型参数的量化可以减少通信开销,然而这种方法不可避免地引入了量化误差,可能导致局部模型不能收敛到全局模型。

量化编码和共识

      量化器定义为:

       其中,Z为多维向量,C为量化器的界。上式表示量化器对多维向量的每个元素进行均匀量化。

      本文采用了自适应差分量化编码方案,以减少通过D2D链路交换模型参数所需的通信负荷。具体来说,设备i编码器ϕi由下述公式给出:

       其中  为设备i的编码器  ,  > 0是一个标度函数,g0 是常数, 的内部状态,反映出节点对模型参数的动态变化和共识过程的进展情况,   为节点i的编码器 的输出模型,q(·)为量化器 。

       编码器的输出是一个差分量化值, 捕捉了节点在t+1 的模型参数和当前内部状态之间的差异。在协商过程中,各个节点通过交换差分量化值来逐步调整内部状态,从而实现信息交流和达成共识。

        当 时,表示达成共识。从公式中可以看出,这个式子成立时,输出∆i(t+1)为0,内部状态保持一致。

       解码器:对于与设备j相邻的设备i,它应该接收到量化模型 ,然后采用以下解码器估计原始

         一旦节点i从它所有的一跳邻居那里收集了模型后,就执行(3)中的聚合操作:

                                     (8)

          为节点j与节点i之间的聚合权重,需要注意,当t足够大时,所有局部模型收敛到一个全局模型。

两阶段Q-DFL

       第一阶段是训练阶段,在此阶段,每个设备首先通过D2D链接交换量化的本地模型,执行聚合操作,然后执行本地SGD。之后不断重复该过程,直到每个本地模型的损失函数达到特定的性能标准(在ASM中定义)。然后,SP将确保所有节点同时开始共识过程。
      一旦阶段转换完成,系统进入第二阶段(共识阶段),其中所有设备量化其本地模型并将其发送给其一跳邻居,接收到的邻居模型将进行恢复并执行聚合操作来更新本地模型,不断直到它们全部收敛到全局模型。

ASM

      自适应停止机制ASM的基本思想是,如果局部模型被识别为过拟合,则模型训练过程将被迫停止。具体包括:

     使用ĸ𝑖来作为设备i上模型的过拟合度,当,意味着是过拟合精度,ĸ𝑖将加1;否则,我们设置ĸ𝑖 = 0和

     当ĸ𝑖达到预定义阈值κ时,设备i上的过拟合停止参数将进行自适应更新。

    给定局部模型训练的停止阈值ζ,定义停止条件为,其中

    ASM 可以确保在模型训练达到预定义的目标精度 θ ,或者过拟合时停止训练,并开始共识阶段。

SP

       同步协议SP使用状态账本s和轮数变量e来记录所有设备的训练状态,并通过相邻设备之间的消息传递来同步每个节点的训练状态。当所有节点都停止训练时,第一个检测到这个信号的节点将轮数变量e设置为当前时间t加上节点数量N,并将其传播给所有其他节点,以同时启动共识过程。 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值