联邦学习论文阅读:2018 Federated learning with non-IID data

介绍

这是一篇2018年挂在arXiv上的文章,是一篇针对FL中数据Non-IID的工作。
作者发现,对于高度Non-IID的数据集,FedAvg的准确性下降了55%。
作者提出了可以用权重散度(weight divergence)来解释这种性能下降,这个权重散度用各client上的数据类别分布与总体分布之间的EMD(earth mover’s distance)来量化。

关于什么是EMD,gpt这样说:
EMD(Earth Mover’s Distance,即地球搬运距离)是一种度量两个分布之间差异的方法。其基本思想来源于土方工程,即计算将一个堆土变成另一个堆土所需的最小工作量。
具体来说,EMD用于度量两个概率分布之间的差异,特别是在多维空间中。假设有两个概率分布P和Q,它们分别由一组加权点组成,EMD计算的是将分布P转换为分布Q所需的最小代价。
计算EMD的一般步骤如下:

  1. 定义分布:两个分布P和Q分别由若干个点和其对应的权重(或质量)组成。
  2. 构建流量矩阵:确定从分布P的每个点到分布Q的每个点的流量(即将多少质量从一个点移动到另一个点)。
  3. 计算流动成本:每个点的流动成本通常是两个点之间的距离乘以流量。
  4. 优化流动方案:通过优化算法(如线性规划),找到总流动成本最小的方案,即EMD。

数学上,EMD可以被表述为一个线性规划问题。其目标函数是:

EMD ( P , Q ) = min ⁡ ∑ i = 1 m ∑ j = 1 n f i j d i j \text{EMD}(P, Q) = \min \sum_{i=1}^m \sum_{j=1}^n f_{ij} d_{ij} EMD(P,Q)=mini=1mj=1nfijdij
其中,f_{ij}表示从分布P的第i个点到分布Q的第j个点的流量,d_{ij}表示这两个点之间的距离。约束条件包括:

  • 从P的每个点流出的总流量不能超过该点的权重。
  • 到达Q的每个点的总流量不能超过该点的权重。
  • 所有流量的总和应等于两个分布总权重的较小值。

EMD在计算机视觉、图像处理和模式识别等领域中有广泛应用,特别是在图像检索中,用于比较不同图像的特征分布。

作者提出了一个策略用于解决Non-IID,那就是server来创建一小部分共享数据集来提升模型acc。这显然是一种centralization-accuracy的trade-off。

实验

作者用了三个数据集:MNIST、Cifar-10、Speech Commands dataset(一个语音数据集)划分出的KWS数据集。这三个数据集的output classes都是10。
数据集划分方面,做了三种划分:

  1. iid:均匀分配给10个client;
  2. non-iid(1):每个client只有一类的数据,总共10个client;
  3. non-iid(2):每个client有两类的数据,总共10个client;

image.png
根据上图可知以下实验结论:
1、 IID数据下联邦学习和正常中心式的SGD训练结果基本一致;
2、 non-IID 会导致准确度下降,而且Non-IID(1)相对Non-IID(2)下降的更多,减少本地训练epoch增加通信频率可以一定程度降低损失,但是作用不大;
3、一个有意思的点是,用SGD预训练的模型刚刚开始结果就不错,但在CIFAR-10上在 non-IID 数据上训练还会降低精度;

分析

作者给出了权重散度weight divergence的定义公式:
weight divergence = ∣ ∣ w FedAvg − w SGD ∣ ∣ ∣ ∣ w SGD ∣ ∣ \text{weight divergence}=\frac{||w^{\text{FedAvg}}-w^{\text{SGD}}||}{||w^{\text{SGD}}||} weight divergence=∣∣wSGD∣∣∣∣wFedAvgwSGD∣∣
image.png
接下来,作者分析weight divergence分歧的根本原因是client的数据分布与总体数据分布之间的距离,这个距离可以用EMD来评估。
image.png
然后就是一顿数学推导,得到这样一个公式:
image.png
上图中圈出的两部分就是误差的两个来源,分别是:

  1. 之前累计的梯度误差;
  2. 本次迭代产生的分布误差;

此外,作者根据公式得出两个结论:

  1. 开始训练时,各client的初始化权重最好一样;
  2. EMD被定义为image.png

接下来,作者探究了EMD与weight divergence和test acc的关系:
image.png
image.png

改进方法

作者提出让server创建一个全局可共享的小部分数据集给各client。实验表明,仅用5%的全局数据,可以提高test acc约30%。
此外,server首次分发给client的模型可以是在这小部分数据集上预训练过的。
image.png
如上图所示,整个过程涉及到两个trade-off:

  1. test acc和 β = ∣ ∣ G ∣ ∣ ∣ ∣ D ∣ ∣ × 100 % \beta=\frac{||G||}{||D||}\times 100\% β=∣∣D∣∣∣∣G∣∣×100%的trade-off,其中G为全局可共享数据集的样本量,D为所有client的样本量和。
  2. test acc和 α \alpha α的tarde-off,其中 α \alpha α为server分给client的样本量与server全局可共享数据集的比值。

作者表示,这个策略只用于整个训练过程初始化的时候,所以通信成本不是主要问题,此外,全局可共享的数据集和client数据集是分开了,不会有隐私威胁。

  • 23
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: "Federated learning with non-iid data" 的含义是:在非独立同分布数据(non-iid data)的情况下进行联邦学习联邦学习是一种分布式学习的方法,其特点是模型的训练和更新是在本地设备上进行,而不是在中心服务器上进行。而非独立同分布数据则意味着不同设备之间的数据具有不同的分布和特征,这会对联邦学习的效果造成挑战。因此,在进行联邦学习时,需要考虑如何处理这种情况,以提高模型的准确性和鲁棒性。 ### 回答2: 联邦学习是近年来备受关注的一种机器学习方法,其核心精神是通过多个客户端设备在本地进行数据处理和训练模型,不必将原始数据汇集到一起,避免了隐私泄露和数据传输带来的风险。但实际上,大多数现实场景中的数据并不是独立同分布的(non-iid),多个客户端设备所在的数据分布也极有可能不同,如何在保持原有联邦学习思路的基础上应对非iid数据,也成为了当前研究的热门问题。 目前,学界和产业界对非iid联邦学习的解决方案尝试有很多,其中一些典型的方法包括: 一、联邦聚类(Federated Clustering)。该方法利用监督和非监督的数据聚类模型,对处理不同数据分布的客户端设备进行分类,形成若干个数据分布相似的组,然后在每个组中进行联合学习,对每个组得到的模型结果进行合并。 二、联邦迁移学习(Federated Transfer Learning)。该方法通过在源域数据上进行模型训练和参数更新,再通过一定的方法将已训练的模型迁移到目标域中进行更新和优化,从而使得目标域数据更好地适应模型。 三、混合学习(Federated Hybrid Learning)。该方法结合了联邦学习和分层模型的想法,将多个客户端设备的数据层级化,在相同维度的数据上进行联邦学习,但不同层级内的数据各自训练特定的模型。 以上这些方法都对非iid联邦学习的问题提供了一定的思路和解决方案,在应用场景中也得到了初步的应用。但是,不同于iid数据的不同分布、语义、类别之间的差异使得非iid联邦学习更具挑战性,其数据分布、协作策略、学习算法等方面的问题都需要进一步研究和提高。未来,我们需要不断探索更好、更高效、更准确的非iid联邦学习的方法和方案,应用到各个行业领域提高数据的利用效率和隐私保护水平。 ### 回答3: 联邦学习是一种先进的机器学习技术,它允许多个参与方共同训练一个模型,而不需要将原始数据集集中在单个位置。这种分布式学习的方式可以最大程度地保护用户的数据隐私和安全。 然而,在实际应用中,有时候我们会遇到一些具有不同的分布性质的非IID数据集。因为数据的不均匀和异构性质,使得对于分布在不同的机器上的数据进行联合训练变得更加困难。这种情况也称为不相同的数据偏移或数据漂移。不同分布性质的数据会导致训练模型的性能下降,因为模型无法对不同的数据进行适应。这也使得联合学习更具挑战性。 为了解决这个问题,可以对数据进行采样和重新加权,以便在融合时使每个本地模型对于不同的数据立场相对均衡。一种基于采样的方案是Federated Averaging with Local Adapation(FALA),它是一种高效的算法,它通过对于权值进行本地的调整,减少了由于数据偏移带来的下降的性能。此外,类别抽样和异质性采样也可以用来处理iid 的数据集之间的不相同。在数据偏移情况下,这需要更多的小样本和多轮次迭代。 另一种方法是加入对模型的个性化贡献,即在联合优化时分配不同的权重给本地模型或者对于不同的参与方使用不同的模型。例如,对于基于 神经网络的模型,可以采用逻辑斯蒂回归模型或者线性模型,以提高对于多样性的应对能力。 总而言之,对于不同的非IID数据,需要在联合训练时采用合适的方案,以克服分布不均带来的挑战并获得更好的结果。需要根据不同的实际情况选择最佳的方法,以满足不同的需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值