【论文笔记】No Fear of Heterogeneity: Classifier Calibration for Federated Learning with Non-IID Data

学习视频

【联邦学习】CCVR:Classifier Calibration for Federated Learning with Non-IID Data

Authors

Mi Luo, Fei Chen, Dapeng Hu, Yifan Zhang, Jian Liang, Jiashi Feng

Published

35th Conference on Neural Information Processing Systems (NeurIPS 2021)

Keyword

Federated Learning; Non-IID

Abstract

A central challenge in training classification models in the real-world federated system is learning with non-IID data. To cope with this, most of the existing works involve enforcing regularization in local optimization or improving the model aggregation scheme at the server. Other works also share public datasets or synthesized samples to supplement the training of under-represented classes or introduce a certain level of personalization. Though effective, they lack a deep understanding of how the data heterogeneity affects each layer of a deep classification model. In this paper, we bridge this gap by performing an experimental analysis of the representations learned by different layers. Our observations are surprising: (1) there exists a greater bias in the classifier than other layers, and (2) the classification performance can be significantly improved by post-calibrating the classifier after federated training. Motivated by the above findings, we propose a novel and simple algorithm called Classifier Calibration with Virtual Representations (CCVR), which adjusts the classifier using virtual representations sampled from an approximated gaussian mixture model. Experimental results demonstrate that CCVR achieves state-of-the-art performance on popular federated learning benchmarks including CIFAR-10, CIFAR-100, and CINIC-10. We hope that our simple yet effective method can shed some light on the future research of federated learning with non-IID data.

本文贡献如下:

  • 首次系统地研究了使用FedAvg对非IID数据训练的不同层神经网络的隐藏特征表示的研究
  • 揭露出在非IID数据上训练的神经网络性能下降的主要原因是分类器
  • 提出了CCVR,一种简单而通用的用于联合学习的分类器校准算法,不需要传输原始数据的表示,因此不会引起额外的隐私问题

Content

Non-IID Data in FL

数据异构性一直是联邦学习领域的一项重大挑战。联邦学习中的数据异构性问题主要是由参与训练的各客户端的数据虽独立分布但不服从同一采样所导致,这将导致模型训练不稳定且收敛缓慢。

在联邦学习中,Non-IID大致有这几类:

  • 特征的分布有偏(covariate shift):比如对于手写体,书写相同单词的用户由于书写习惯不一样,笔划力度、宽度、倾斜度很可能不尽相同
  • 标签的分布有偏(prior probability shift):例如client按地域划分时,标签的分布在client间也许差别很大——袋鼠只生活在澳大利亚或公园;不同地域的人的面部特征、口音不一样
  • 相同的标签,不同的特征(concept shift):比如由于文化风俗、气候条件、生活习惯等,各地的房屋、服饰风格极不相同。即使同一个标签,在不同的时段和时间尺度上也会有一些差异,比如同一条街道,秋天铺满落叶,冬天则覆盖着冰雪
  • 相同的特征,不同的标签(concept shift):例如由于用语习惯的差异,在输入法中,给定已有的字符,用户要输入的下一个字符很有个人色彩

Existing Solutions in Non-IID

现有的解决Non-IID问题的方法大致分为4类:

  • Client Drift:修改客户端的局部目标,使本地模型与全局模型在一定程度上保持一致(大部分方法通过添加正则化项)
  • Aggregation Scheme:改进Server的模型聚合机制
  • Data Sharing:引入公共数据集或合成数据,以帮助在客户端或服务器上构建更平衡的数据分布
  • PFL:为个体客户端训练个性化模型,而不是一个共享的全局模型

但是现有方法仍然无法取得良好的性能,为理解Non-IID数据如何影响FL中的分类模型,作者对深度神经网络的每一层都进行了彻底的实验研究。

A Closer Look at Classification Mode

实验设置:基于CIFAR-10,10个客户端以及一个具有7层的卷积神经网络模型,基于狄利克雷分布对数据进行划分(α=0.1),基于FedAvg对模型进行100轮通信训练,每个客户端在每轮通信中优化10个Epochs。

评价指标CKA:对于模型中的每一层,在给定相同的输入测试样本的情况下,使用Centered Kernel Alignment(CKA)来衡量两个本地模型之间输出特征的相似性。CKA输出的相似性分数介于0(完全不相似)和1(相同)之间。

对于模型中的每一层,作者利用谷歌大脑提出的CKA相似性来衡量两个给定相同输入测试样本的本地模型之间输出特征的相似性。如下图Figure1所示,显示了本地模型中三个不同层的CKA特征相似性,我们发现由较深层输出的特征显示出较低的CKA相似性。这表明,对于在Non-IID数据上训练的联邦模型,更深层在不同客户端之间具有更大的异构性。
在这里插入图片描述

通过对CKA相似性进行平均,我们可以获得一个值来近似表示不同客户端的每个层的特征输出的相似性。如下图Figure2所示,说明了近似的层级特征的相似性,结果表明,与使用IID数据训练的模型相比,使用Non-IID数据训练的模型在所有层间的特征相似性始终较低。更进一步的,对于Non-IID数据训练,分类器在所有层中显示出最低的特征相似性。
在这里插入图片描述

接下来,作者又分析了本地分类器权重向量的L2范数,如下图Figure3所示,第一个图表示不同客户端之间的标签分布。在初始训练阶段,分类器的权重规范会偏向于有更多训练样本的类,训练结束时,在Non-IID 数据上训练的模型比在 IID 数据上训练的模型遭受更严重的偏置差异影响。
在这里插入图片描述

怎样有效消除分类器的偏差?

Classifier Regularization and Calibration

基于以上对分类器的观察,作者假设:由于分类器是最接近局部标签分布的层,它很容易偏向异构局部数据,反映在不同局部分类器之间的低特征相似性和权重L2范数差异。从而,作者认为去偏置化分类器可以直接提高分类性能为了消除分类器权重范数中的偏差。于是作者考虑了正则化和校准方法,提出了三种方法。

  • Classifier Weight L2-normalization (clsnorm): 在训练和推理阶段对分类器权重向量进行了归一化处理。
  • Classifier Quadratic Regularization (clsprox): 通过添加惩罚项,用来限制分类器的权值,使其接近于从服务器接收到的全局分类器权值向量。
  • Classifier Post-calibration with IID Samples: 作者考虑了一种后处理技术来调整学习到的分类器。在训练后,固定特征提取器,并使用IID样本通过基于交叉熵损失函数的随机梯度下降法优化校准分类器。但是这种校准策略需要从异构客户端收集IID原始数据,并不能应用于真实的联邦学习系统。

基于上面提到的三种方法,作者做了对比实验,结果如下图Table1所示。我们观察到方法一的L2范数对低数据异构性是有效的,但随着异构性的增加,帮助减少,甚至会导致损害。方法二始终有效,但改进特别小。方法三可以显著提高所有程度的数据异构性的性能。
在这里插入图片描述

为了进一步理解分类器校准技术,另外对不同数量的数据样本和由FedAvg和FedProx训练的不同现成的联邦模型进行了校准,结果如下图Figure4所示。作者观察到即使仅仅使用1/50数据样本进行校准,基于数据的分类器校准表现也一致良好。在调整分类器后的显著性能改进有力地验证了上述的假设,即导致模型性能损害主要在于分类器层。
在这里插入图片描述

Classifier Calibration with Virtual Representations

基于上述观察结果,作者提出了使用虚拟表示的分类器校准方法。简称CCVR。在训练全局模型后,CCVR在服务器上运行。

假设f和g分别是全局模型的特征提取器和分类器,我们将使用f来提取特征并估计相应的特征分布,然后使用生成的虚拟表示来重新训练g。具体的算法步骤如下:

  1. 第一步,对于分类等与语义相关的任务,深度神经网络学习到的特征可以用混合高斯分布来近似,在CCVR中,我们假设数据集D中的每一个类的特征都遵循高斯分布。Server通过收集每个类的客户端本地数据的均值和协方差来估计这个分布,而不访问真实的数据样本或其特征。Server首先将训练过的全局模型的特征提取器f发送给客户端,计算公式如下。然后客户端上传均值和协方差到Server。
    在这里插入图片描述

  2. 第二步,Server计算全局均值和全局协方差后,Server生成一组带有真实标签的虚拟特征,生成算法如图Algorithm1所示 。

  3. 最后一步,我们使用虚拟表示进行分类器再训练,从全局模型中取出分类器g进行重训练,得到最终分类模型。

在这里插入图片描述

Privacy Protection

CCVR在一定程度上保护了隐私。首先,每个客户端只上传其本地高斯统计数据,而不是原始表示,这防止了隐私数据的直接泄露。 再者,CCVR可以与一些隐私保护技术结合使用,比如同态加密、差分隐私等。

Experiment

本文作者给出了应用CCVR前后对所有数据集的测试精度。如下图Table2所示,Oracle表示使用整个数据用于分类器校准,分类器校准的上界。
在这里插入图片描述

我们观察到:

  • 应用分类器校准CCVR后提高了所有基线方法的精度。FedAvg和MOON的精度提高最大。
  • 在CINIC-10上,FedAvg的预测结果甚至超过了所有其他基线,这意味着FedAvg更专注于学习高质量的特征,但忽略了学习一个公平的分类器,进一步证实了分类器校准的必要性

Conclusion

作者提供了一个新的视角来理解为什么基于深度学习的分类模型的性能在联邦学习中使用Non-IID数据进行训练时会下降。作者首先对神经网络进行解剖,并通过CKA相似性技术研究不同客户模型不同层的相似性。进而观察到,在Non-IID数据上训练的神经网络性能下降的主要原因是分类器。为此,作者提出了虚拟表示分类器校准方法CCVR,其主要通过一个近似的高斯混合模型来采样虚拟特征进行分类器校准,以避免将原始特征上传到服务器。最终实验也表明了CCVR的有效性,可以有效缓解异构联邦学习系统下全局模型的性能损失。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
一次性联邦聚类是一种利用异质性的方法,以获得胜利的策略。在传统的聚类任务中,数据通常集中在一个中央位置进行处理,这存在着数据隐私的风险。而一次性联邦聚类的方法通过将数据分布在不同的本地设备上进行处理,从而能够更好地保护数据隐私。 使用一次性联邦聚类的一个主要优势就是能够处理异构数据。在现实世界中,我们常常面对来自不同来源、结构和属性的数据。传统的聚类算法通常只适用于特定类型的数据,这限制了其广泛的应用。而一次性联邦聚类能够处理来自多个设备的异构数据,并在保持数据本地的同时进行聚类分析。通过融合来自不同设备的数据特征,一次性联邦聚类可以提供更全面、准确的聚类结果。 除了处理异构数据的能力,一次性联邦聚类还具有更好的数据隐私保护。在一次性联邦聚类中,本地设备上的数据不需要传输到中央位置,而是在本地进行处理。这种本地计算的方式可以降低数据隐私泄露的风险,保护用户的个人隐私。同时,一次性联邦聚类还可以采用加密和隐私保护技术,如差分隐私,进一步增强数据隐私保护。 总而言之,一次性联邦聚类是一种利用异质性的策略,能够充分利用来自多个设备的数据特征。它既可以处理来自不同来源的异构数据,又能够保护数据隐私。在当前数据驱动的社会中,一次性联邦聚类为我们提供了一种强大的工具,可以在数据分析和隐私保护方面取得重大的进展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值