Exploiting Label Skews in Federated Learning with Model Concatenation——利用模型级联的联邦学习中的标签偏移-CSDN博客

本文链接：https://blog.csdn.net/zhyhhhhh/article/details/143106089

Exploiting Label Skews in Federated Learning with Model Concatenation——利用模型级联的联邦学习中的标签偏移

参考文献
摘要
Introduction
- 本文贡献
background and related work
Method: FedConcat
算法框图
信息瓶颈分析Fedconcat的理论分析与讨论
- 信息瓶颈
- Privacy

参考文献

Y. Diao, Q. Li, and B. He, “Exploiting Label Skews in Federated Learning with Model Concatenation,” in Proc. of the AAAI Conference on Artificial Intelligence, vol. 38, no. 10, pp. 11784-11792, 2024.

摘要

联邦学习已经成为一种很有前途的解决方案，可以在不交换原始数据的情况下对不同的数据拥有者进行深度学习。然而，在FL中，非IID数据是一个关键的挑战，它会显著降低最终模型的准确性。在不同的非IID类型中，标签偏斜在图像分类和其他任务中一直具有挑战性和普遍性。与以往大多数研究中平均局部模型不同，我们提出了FedConcat，一种简单而有效的方法，将这些局部模型串联起来作为全局模型的基础，以有效地聚合局部知识。为了减少全局模型的规模，我们采用聚类技术，根据客户的标签分布对客户进行分组，并在每个簇内协同训练一个模型。我们通过分析深度神经网络的信息瓶颈，从理论上分析了级联相对于平均的优势。实验结果表明，FedConcat在各种异构标签偏斜分布设置下的准确率显著高于先前最先进的FL方法，同时具有较低的通信成本。代码： https://github.com/sjtudyq/FedConcat.

Introduction

已有研究表明，在FL中，数据异质性是一个具有挑战性的问题。根据Li et al . ( 2021 )，非IID数据包括label skews（标签偏斜）, feature skews（特征偏斜） and quantity skews（数量偏斜）。
在本文中，我们关注于现实中流行的标签偏斜(也就是说,不同客户的标签分布是不同的)。
现有研究的核心思想通常是减少在局部训练中产生的漂移(加正则化项),或者在服务器中设计更好的联邦平均方案。

本文贡献

我们通过将局部模型进行拼接，提出了一种新的FL聚合方法。此外，我们应用聚类技术来减轻标签偏斜和控制全局模型的大小。
我们从信息瓶颈的角度从理论上证明了级联比平均保留了更多的信息，从而保证了我们方法的有效性。
我们进行了大量的实验来展示FedConcat的有效性和通信效率。

background and related work

正则化项的进展
聚类技术在联邦学习中：更新梯度的余弦相似度聚类—— CFL (Sattler, M¨uller, and Samek 2020) ，采用奇异值分解后的近似梯度相似度聚类，提高效率——FlexCFL (Duan et al. 2021) ，利用EM算法根据局部模型与聚类中心之间的距离自适应地形成聚类——(Long et al. 2023) ，扩展到软集群，其中每个客户端属于集群的混合—— FedSoft(Ruan and Joe-Wong 2022) …

Method: FedConcat

An alternative view of label skews

让我们把神经网络看作一个特征提取器(网络中除最后一层外的所有层)和一个分类器(最后一层)。由于每个客户的模型在自己的数据集中都很好地拟合，因此我们已经有相当多的本地训练好的特征提取器。直观上，将来自不同局部提取器的特征串联起来可以为标签倾斜提供更好的特征表示。因此，我们提出了级联特征提取器和训练全局分类器的思想
通过将所有客户按其标签分布聚类为少数几个组，可以控制全局模型的大小。

Proposed Algorithm

本文的框架如下图所示。它有三个阶段：聚类、平均和后训练。1.具有相似标签分布的客户被分组到同一簇中。2.每个聚类使用FedAvg训练一个在聚类内部拟合良好的模型。3.串联所有簇训练好的特征提取器，在所有客户端之间训练一个全局分类器。
在这里插入图片描述

Stage 1-A: Clustering with label distributions

定义标签向量 ${P_{i}}(y)=(\frac{N_{i,1}}{N_{i}},\frac{N_{i,2}}{N_{i}},...,\frac{N_{i,m}}{N_{i}}) \tag{2}$
其中 $N_{i,j}$ 为第 $i$ 个客户端的第 $j$ 个类别的样本数， $N_{i}$ 则是第 $i$ 个客户端的所有样本数
我们使用Kmeans算法( Lloyd 1982 )进行聚类。对于超参数K，可以利用elbow来选取最佳值

K-mean

损失函数 $J$ 可以定义为各个样本距离所属簇中心点的误差平方和;
K-Means最核心的部分就是先固定中心点，调整每个样本所属的类别来减少 $J$ ；再固定每个样本的类别，调整中心点继续减小 $J$ 。两个过程交替循环， $J$ 单调递减直到最（极）小值，中心点和样本划分的类别同时收敛。

Stage 1-B: Clustering without label distributions——FedConcat with Inferred Distribution (FedConcat-ID)

上传模型如果客户由于隐私问题无法上传标签分布，我们提出利用第一轮上传的局部模型来推断每个客户的近似标签分布。
如果我们将大批量的随机输入放入客户端模型中，平均预测可以表明训练数据的标签分布。
${P_{i}^{ID}}(y)=\frac{1}{r}\sum_{j=1}^{r}\sigma(f_{i}(X_{j})), \tag{3}$
其中f_{i}代表客户 $i$ 的模型，随机生成 $r$ 个输入 $X_{1},...,X_{r}$ ,来推断客户端的标签分布情况。式中： $\sigma$ 为softmax函数。
原理:若输入 $X$ 和输出 $Y$ 独立， $p (Y) = p (Y ∣ X)$ 。因此使用无信息输入来近似 $p (Y)$ 。

Stage 2: Averaging

在每个聚类中，我们使用FedAvg训练一个适合该聚类的模型。在集群内部，由于客户端的标签分布相似，我们期望全局模型在集群的主导类上有较好的表现。

Stage 3: Post-training

现在我们有K个模型，我们堆叠它们的编码器(除最后一层外的所有层)作为全局特征提取器。然后我们将全局特征提取器一次性广播给所有客户端，并要求客户端使用FedAvg联合训练一个分类器，全局特征提取器固定不变。由于编码器训练停止，我们可以只计算一次前向通道中原始数据的特征。对于其他训练轮，我们可以直接将特征输入到线性分类器中对其进行训练。因此，在这个阶段，我们的主要计算和通信只针对线性分类器。

算法框图

聚类：
FedConcat：执行基于标签分布的K - means。
FedConcat-ID：1.初始化全局模型 2.将模型发送给每个客户端进行本地训练 3.通过式( 3 )推断标签分布，并进行K - means。
FedAvg：为每个簇初始化编码器和分类器，运行FedAvg为每个簇训练编码器和分类器。
再训练：将编码器级联，初始化全局分类器，固定编码器，在所有客户端上运行FedAvg，训练全局分类器C
最后返回输出：最终的模型{E,C}
在这里插入图片描述

信息瓶颈分析Fedconcat的理论分析与讨论

信息瓶颈

在神经网络中，网络就像把信息挤进瓶颈一样，只留下与一般概念最为相关的特征，去掉大量无关的噪音数据。我们假设有一组随机的训练样本 $(X,Y)\sim D$ ,其中 $X$ 是输入变量， $Y$ 是期望输出。假设提取的特征(最后一个全连接层之前的表示)为 $Z$ ,学习一个编码器就可以通过最小化
$E_{(X,Y)\sim D}[I(X;Z)-\beta I(Z;Y)], \tag{4}$
其中， $I (\cdot;\cdot)$ 表示两个变量之间的互信息， $\beta$ 为与任务相关的正权重参数。

相当于，遗忘与目标输出无关的输入信息(最小化 $X$ 和 $Z$ 之间的互信息)， $I (X; Z)$ ，同时记忆与目标输出相关的特征(最大化 $Y$ 和 $Z$ 之间的互信息)。
对本文来说，在表征与目标中，与单个局部优化编码器相比，级联编码器的表示与全局目标更相关。而在遗忘任务无关信息的部分，级联编码器的遗忘能力更差，但当深度神经网络达到收敛时，最后一层表示和原始输入之间的互信息变得很小。因此，我们将 $I ( f_{e} ( X )；Y )$ 为主要部分。