Federated Learning of Multi-branch Networks from Periodically Shifting Distributions

本文链接：https://blog.csdn.net/weixin_45721305/article/details/128684837

文章探讨了在联邦学习环境中，客户端数据分布随时间的周期性变化对模型训练的影响。提出了平滑过渡的分布混合模型，以更准确地反映实际情况，并建议联合训练多分支网络和聚类模型，利用时间先验来提高训练性能。实验表明，这种方法可以有效抵消分布偏移，提高模型在EMNIST、CIFAR和StackOverflow数据集上的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

0.摘要

在实践中，联邦学习已被部署用于从移动设备上的去中心化客户端数据训练机器学习模型。观察到可用于训练的客户端具有随一天中的时间周期性变化的分布，这可能导致训练不稳定并降低模型性能。在本文中，我们没有像以前的工作那样用块循环模式对分布变化进行建模，而是用在白天和夜间模式之间逐渐变化的分布混合进行建模，并发现这种直观的模型可以更好地匹配现实中的联邦学习系统。此外，我们建议联合训练聚类模型和多分支网络，以将轻量级专门分支分配给来自不同模式的客户端。时间先验用于显着提高训练性能。在 EMNIST 和 CIFAR 数据集上进行的图像分类实验以及在 Stack Overflow 数据集上的下一个词预测表明，所提出的算法可以抵消分布偏移的影响，并显着提高最终模型的性能。

1.介绍

在联合学习（FL）中，许多客户端在中央服务器的协调下，利用去中心化的数据协同训练机器学习模型（Kairouz等人，2019）。FL是为保护隐私而设计的：本地客户端的私有数据永远不会直接传输到服务器或与其他客户端共享，这遵循了数据最小化的原则，并使系统的攻击面保持较小（Wang等人，2021）。FL最初是为了在移动设备上进行分散式培训而引入的（McMahan等人，2017年），它已广泛应用于各种不同的应用，包括金融、健康、数字援助和个性化建议（参见一些最近的调查（Yang等人，2019年；Kairouz等人，2018年；Li等人，2020a；Lim等人，2020年；Wang等人，2021）。具体而言，跨设备FL已在实践中用于提高应用程序的实用性和隐私性，例如下一个单词预测（Hard等人，2018）、表情符号建议（Ramaswamy等人，2019）、查询建议（Yang等人，2018年）、词汇外发现（Chen等人，2018年）和关键词触发模型（Granqvist等人，2020年；Hard等，2020年）。

典型的 FL 通信轮从服务器向客户端广播全局模型开始。然后，客户端对私有数据执行本地计算，并且只发回聚合的模型更新。最后，服务器聚合客户端更新并将它们应用到全局模型，然后再开始下一轮。在实际的 FL 系统中（Bonawitz 等人，2019 年；Paulik 等人，2021 年），客户端只能在满足本地标准时参与，例如移动设备正在充电、空闲和连接到不按流量计费的网络时。对于服务器，满足本地标准并在一天中不同时间参加训练的客户端通常来自不同的时区，这些时区可能存在显着差异，这可能导致数据分布周期性变化，从而降低训练稳定性和最终模型性能（ Yang 等人，2018 年；Eichner 等人，2019 年）。对于可以收集客户端数据的集中式系统，可以通过缓存和从缓存数据中统一采样来缓解此类问题。然而，由于隐私和系统限制（Wang et al., 2021），FL 系统中的编排器（服务器）不允许收集原始用户数据，并且必须处理这种非 IID 的异构数据分布。

据我们所知，只有少数以前的工作（Eichner 等人，2019 年；Ding 等人，2020 年）讨论了联邦学习中客户群体的周期性分布变化。这些作品采用块循环结构，白天客户和夜间客户交替参与培训。艾希纳等。 (2019) 提出了半循环 SGD 方法，在不同时间段参加训练的客户端会被分配到对应的群组并仅使用该组的相应模型。在他们的假设下，通过为不同的块学习单独的模型，它们可以获得与非循环设置的 i.i.d. 数据相同的保证。然而，半循环 SGD 有几个问题使其难以在实践中应用：（1）它根据参与的时间段为客户分配模型，但并非所有客户都会参与联邦学习，因此很难决定这些客户的正确组。 (2) 它为每个客户群组维护一个完整模型的版本，这可能会增加通信成本或隐私风险。 (3) 在一天的特定时间从白天组突然切换到夜间组的假设在实践中是不直观的。 (Ding et al., 2020) 是继承这些问题的半循环 SGD 的变体。我们在附录 A.7 中提供了更多相关工作的讨论，例如异质性、聚类和多分支网络。

在本文中，我们研究了客户端的周期性分布变化，并做出了以下贡献：

1. 我们重新审视周期性分布转变。我们没有采用块循环结构（Eichner 等人，2019），而是假设白天模式和夜间模式之间的平滑过渡，并通过模拟经验验证其对训练的影响更符合实际 FL 系统中的观察。
2. 我们建议联合训练多分支网络和聚类模型，以根据特征表示选择更适合客户端分布的分支。白天和夜间模式的轻量级分支仅略微增加了通信成本，但显着提高了模型性能。与 (Mansour et al., 2020; Ghosh et al., 2020; Marfoq et al., 2021) 不同，基于特征的聚类模型不依赖于标记数据，可以很容易地应用于新客户的推理。

3. 我们建议使用客户端分布的时间先验来增强聚类模型。我们假设每轮沟通的参与客户是白天和夜间客户的混合，白天组参与客户端的数量会随着时间从夜间到白天逐渐增加，反之亦然。通过利用这个先验，我们可以训练比在传统联合模拟中使用统一采样客户端训练的模型更准确的模型。
4. 我们在三个基准数据集（EMNIST、CIFAR 和 Stack Overflow）上提供了分布偏移的模拟，以评估 FL 算法在具有平滑过渡的周期性分布偏移下的经验性能。我们进行了广泛的实验，其中通过我们的方法训练的多分支网络大大优于分布遗忘基线：不同程度的分布变化下的EMNIST 3-5%，CIFAR 2-14%，具有挑战性的 Stack Overflow 0.4-1.35%数据集。通过利用时间先验，所提出的方法可以利用周期性分布偏移，并分别以 4%、4% 和 0.45% 的速度击败统一采样客户端训练的强基线。

2.模拟周期性分布变化

FL 设置：我们考虑一组客户端 I 的联邦学习算法，其中第 i 个客户端具有从其自己的分布中采样 IID（独立同分布）的数据 $D_{i}$ ，但不同客户端的分布可以是异构的。我们将所有客户的预期损失降到最低，

其中 $p_{i}$ 是客户端i的权重（概率），ξ=（x，y）是客户端数据和标签的训练样本对。通过设置，联合训练损失恢复了所有客户样本的经验风险最小化 (ERM) 目标。为简单起见，我们滥用符号并使用 x ∈ $D_{i}$ 来表示客户端 i 的训练样本（无标签）。

周期性分布变化：客户子集 L'(t) ⊂ L(t) 可用于通信轮 t 中的培训。 L(t)随着白天（夜间）客户群中的大部分客户在中午（午夜）周期性变化。图 1（左）显示跨设备 FL 系统中的训练损失具有每日振荡。 Yang 等人也观察到了这种振荡 (2018)，他推测这是由于来自不同时区的客户之间的域差异。艾希纳等(2019) 研究了块循环结构，其中模型每天训练 T 轮，客户端交替来自白天模式和夜间模式，每个连续持续 T / 2 轮。我们在图 1（右）中绘制了块循环结构的训练曲线，并观察到它与实际 FL 系统的（左）曲线不同。

平稳过渡：我们还假设分布以 T 周期周期性变化。与 (Eichner et al., 2019) 不同，我们假设第 t 轮的客户是白天客户和夜间客户的混合体，分别表示为 L1(t) 和 L2(t) 。直观上，由于可用人口通常全天候都很大，可用客户端的人口分布应该逐渐变化，而不是像块循环结构中那样突然从一种模式转移到另一种模式。为了更好地近似实践中的行为，我们假设在每个时期，客户来自白天模式 L1(t) 的概率 q(t) 在 0 和 1 之间平滑变化。具体来说，我们假设 L1(t) 和 L2 (t) 有两组不同数据分布的不相交的客户端，并定义 q : R + → [0, 1] 是周期为 T 的周期函数。在每一轮 t，我们从以下分布中采样客户端

我们考虑 q(t) 的周期性线性函数 (L) 和平滑余弦函数 (C)，每个进一步由指数因子 p > 0 参数化以控制过渡的平滑度，

我们在附录的图 7 中可视化了过渡概率 q(t)。当 p < 1 时，T 轮中有更多白天客户可用，当 p > 1 时，更多夜间客户可用。这可以模拟在实践中观察到的白天和夜间完成的训练轮数的差异（Yang et al., 2018）。

观察和洞察力：图 1（中）使用 qL,1(t) 模拟训练曲线以控制从 L1(t) 采样的概率，这更准确地近似于实际 FL 系统的曲线。这三条曲线表明，尽管域存在差异，但全天候训练单个模型在两种模式下都能获得最佳性能，这促使我们训练的模型具有大量共享权重。半循环 SGD (Eichner et al., 2019) 在每个块的域不相关时提供最坏情况保证，并认为在两种模式下训练单个模型不是最优的，这与我们的观察不同。另一个重要的观察是，当客户群体最偏向白天模式或夜间模式时，训练精度达到其最小值（最大值），例如中间图中的第 1024 和 1152 轮，从中我们可以推断出在实践中白天客户端和夜间客户的峰值时刻，并使用它来定义一个强大的先验，以改进学习过程。

3.从周期性的分配转变中学习

我们考虑应用程序中的客户协作训练具有公共输入和输出空间的模型，并且客户的分布随时间变化。我们建议联合训练一个多分支网络和一个聚类模型，以在客户端分布的时间先验的指导下，分配专门的分支来预测来自不同模式的客户端。我们考虑两种方法来执行时间先验：FEDTEM（第 3.1 节），它基于高斯混合模型 (GMM)，以及 FEDTKM（第 3.2 节），它基于 K 均值聚类。

多分支网络：艾希纳等。 (2019) 展示了当数据分布在评估期间可以识别时，为不同数据分布训练单独模型的优点。然而，在所有可用数据上训练具有共享特征提取层的单个模型通常可以提高表征学习的数据效率。例如，对于视觉任务，它有助于学习提取常见的低级特征，而对于语言任务，它有助于从上下文中学习共享嵌入和语法。为了在学习共享特征表示和减轻通信开销的同时处理分布偏移，我们采用多任务学习的权重共享策略 (Caruana, 1997) 来训练具有共享特征提取层 f( $w_{f}$ , x) 的多分支网络，来自每个集群 k (1 ≤ k ≤ K) 的客户端的专用预测分支之一 $g_{k}$ ( $w_{k}$ , f( $w_{f}$ , x))。我们将每个预测分支 $g_{k}$ 设置为单个线性层，这比具有 K 个版本的相同模型的通信效率和数据效率更高。

时间先验:时间先验 $q\tilde{}$ (t) 是对来自白天集群的客户比率 q(t) 的估计。根据第 2 节中的观察结果，我们可以通过观察训练曲线出现最小值和最大值的时间来定位 q(t) 最有可能为 0 或 1 的时间。在这些最小值和最大值之间，我们在当前实验中考虑了三种类型的 $q\tilde{}$ (t) ：1) 线性： $q\tilde{}$ (t) = qL,1(t)； 2) 余弦： $q\tilde{}$ (t) = qC,1(t)； 3) 软：见附录A.3。

培训目标：我们的模型假设客户来自白天或夜间集群 (K = 2)，因此它有两个分支，每个分支用于一组客户。设 $k_{i}^{*}$ 是聚类模型选择的客户端 i 的分支索引，而 $\bar{k}_{i}^{*}$ 是另一个分支的索引。每个客户端都以以下目标训练网络:

其中 s( $\epsilon$ , y) = $\epsilon$ / n + (1− $\epsilon$ )y 是单热向量 y 的标签平滑函数， $\epsilon$ ∈ [0, 1] 决定标签平滑量，λ >0是正则化强度。另一个分支的标签平滑正则化与特征提取器一起更新以防止陈旧，同时鼓励两个分支专注于不同的特征子空间：分支 $\bar{k}_{i}^{*}$ 被训练为对来自集群 $k_{i}^{*}$ 的样本特征变得不太确定。

3.1 学习具有每个客户时间统计的高斯混合模型

我们提出联合期望最大化与时间先验 (FEDTEM) 来学习高斯混合模型 (GMM) 以推断客户端来自的集群，并在多分支网络中选择相应的分支。我们定义离散的潜在变量 z 和 ζ 来分别表示样本和客户来自哪个集群。 FEDTEM 假设同一客户端上的样本来自同一集群，因此对于任何 k，GMM 先验 P(ζ = k) = P(z = k)。我们将 P(x|z = k) 定义为特征空间中的高斯分布 N (f(w, x)|µk,σk)。为了提高效率，我们假设并学习了高斯模型的对角协方差 σk。算法 1 总结了训练过程，每个步骤的详细信息在以下各节中提供。

3.1.1 为客户分布建模并选择分支机构进行培训

由于周期性分布偏移，客户端分布的先验 P(ζ) 不断变化。为了保持最新状态，第 i 个客户端在训练期间的本地更新步骤之前，根据其数据 Di 估计其来自第 k 个集群的概率。具体来说，给定 GMM 参数，由于 P(ζ) = P(z)，每个新客户端 i 上 P(ζi) 的局部最大似然估计 (MLE) 等于客户端 i 上 p(z) 的 MLE。设 $\pi _{i}^{*}$ 是客户端 i 上 P(z) 的 MLE，其中 $\pi _{i}^{*}$ 的第 k 维表示为 $\pi _{ik}^{*}$ ，是客户端 i 上 P(z = k) 的 MLE。然后

为了完整起见，我们给出方程式的推导：附录 A.1 中的 5，我们还比较了使用后验 P(ζ|Di) 而不是 MLE $\pi _{i}^{*}$ 进行分支选择的经验结果。

我们根据 P(ζi) 的 MLE 选择分支，并通过优化等式4训练网络。我们可以贪婪地选择分支 $k_{i}^{*}$ = arg maxk $\pi _{i}^{*}$ ，或者从离散分布 $\pi _{i}^{*}$ 中采样。我们在图 6 中展示了贪婪方法取得了更好的实证结果，并默认使用它。

3.1.2 更新混合物模型参数

我们引入了联合期望最大化 (EM)（Dempster 等人，1977 年），在更新 GMM 的参数之前由时间增强。时间先验是通过自下而上的方法强制执行的：我们首先在每个客户端 i 上运行 EM，并将所有可能的局部最优 GMM 参数发送到服务器，然后选择 GMM 参数并将其与服务器上的时间先验聚合。我们在第 3.1.1 节中描述的局部更新步骤之后找到最优 GMM 参数，以便 GMM 在更新网络的特征空间中更新。我们在下面给出了过程的细节。

E步。对于每个客户端 i ∈ I(t)，基于参数为 w t+1 i 的局部更新网络，评估每个样本 x 的后验 γik(x) 以推断 x 来自簇 k 的概率

。。。。。。。。。

3.2 学习具有聚合时间统计的聚类模型

FEDTEM 收集每个客户端 $\tilde{\pi }_{i}^{*}$ 以使用时间先验并更新 GMM 参数，这可能不满足仅聚合的强数据最小化原则（Bonawitz 等人，2021 年；Wang 等人，2021 年）。我们提出了一种由时间先验 (FEDTKM) 增强的替代联邦 K-Means 算法，其中时间先验仅基于聚合结果强制执行，如算法 2 中所述。FEDTKM 将第 i 个客户端聚类并根据平均距离选择分支k 个聚类中心的特征，

其中上标 t 表示通信回合，αk 是距离标量因子，用于控制集群的“先验”并强制执行时间先验。在训练期间，客户端 i 在其训练集上计算 $d_{ik}$ 以选择 $d_{ik}$ 最小的分支，而在测试时，我们使用小批量来估计 $d_{ik}$ 。在两个中心的情况下，我们固定 α1 = 1，并学习一个标量 α2 > 0 来重新调整到第二个集群 c2 的距离：当 α2 > 1 时，它使 FEDTKM 算法更有可能将客户端分配到第一个集群，反之亦然。 α2 > 1 由受 (Andrew et al., 2021) 启发的基于分位数的（私有）估计器更新。
客户通过方程式11用他们选择的分支训练网络通过方程式4中的目标。在本地训练步骤之后，每个客户端使用本地更新的参数 $\tilde{w}_{t}^{i}$ 再次估计其集群分配，并计算指标变量对于分位数估计，特征意味着对于 k-means 中心。然后可以将 qi(t) 和 $\bar{f}$ ( $\tilde{w}_{t}^{i}$ ) 发送到受信任的安全聚合器，以获得分配给集群 1 的客户端比率 q¯(t) 和平均 k 均值中心 $c_{1}^{t+1}$ , $c_{2}^{t+1}$ 作为

其中

距离因子 α2 通过跟踪经验分位数 q¯(t) 和由时间先验估计的预言分位数 q~(t) 之间的差异来更新，

其中 η t ≥ 0 是第 t 步几何更新的步长。在所有实验中，我们使用周期性线性函数 q~(t) = qL,1(t) 作为时间先验。

3.3 比较与讨论

隐私：在我们的模拟实验（第 4 节）中，FEDTEM 的性能通常优于 FEDTKM。但是，服务器必须观察 FEDTEM 中参与客户端的 GMM 参数，这可能需要新技术来满足强大的数据最小化和数据匿名化原则（Wang 等人，2021；Bonawitz 等人，2021）。另一方面，FEDTKM只使用聚合结果，兼容强数据最小化原则，更容易被安全聚合(Bonawitz et al., 2019)和差分隐私(McMahan)等其他隐私技术进一步保护（McMahan等人，2018 年；Kairouz 等人，2021 年）。

与以往方法的区别：与之前使用多个网络联合训练聚类模型的方法相比，我们的方法有四个关键差异，更适合时间分布偏移下的跨设备 FL。首先，我们的方法在对聚类模型进行正则化之前引入了时间先验，这在以前的工作中是缺失的。其次，我们的具有共享特征提取器的 k 分支网络比使用 k个网络的通信和数据效率更高。第三，我们的聚类模型根据特征选择分支，这消除了不参与训练的客户对标记数据的需要。 (Ghosh et al., 2020; Marfoq et al., 2021) 的聚类模型基于损失，这对于没有标记数据的客户端来说是不切实际的。第四，我们的方法不维护客户端的状态。 (Marfoq et al., 2021) 假设客户端有状态，这对于每个客户端仅参与有限时间的跨设备设置是不切实际的 (Wang et al., 2021)。我们在附录 A.7 中与以前的方法进行了更详细的比较。

附录A.7 其他相关工作

如上所述，Semi-cyclic SGD (Eichner et al., 2019) 和 (Ding et al., 2020) 是我们所知道的唯一明确考虑 FL 中周期性分布变化的先前作品。我们现在回顾其他相关工作，这些工作要么考虑其他类型的分布偏移，要么与提议的 FEDTEM 方法具有（弱）相似性。

异质性和客户分布转移：客户端异构性是 FL 中的一个活跃话题，并且已经提出了各种方法来解决客户端之间的分布差异。尤其是，FedProx (Li et al., 2020b) 在执行客户端更新时应用近端正则化器； SCAF FOLD (Karimireddy et al., 2020) 使用控制变量作为客户端的局部状态以减少方差； FedPA (Al-Shedivat et al., 2021) 提供贝叶斯观点并采用后验采样； FedGen (Zhu et al., 2021) 学习一个可以在客户端之间共享的生成器； FedRobust（Rei sizadeh 等人，2020 年）应用梯度下降上升来解决图像域中仿射变换形式的分布变化。迁移学习、多任务学习和元学习被引入 FL 以显式处理客户端之间的分布变化，假设异构客户端来自不同的领域或任务（Smith 等人，2017 年；Khodak 等人，2019 年）。引入持续学习来处理由于每个客户端上的流任务而导致的分布变化（Yoon 等人，2021）。最近，Mansour 等人研究了客户集群而不是每个客户的分布变化。 (2020);戈什等人。（2020），同时仍然假设在培训过程中可以统一访问客户。我们恳请感兴趣的读者在最近的几项调查中找到更多关于异质性的论文（Kairouz 等人，2019；Li 等人，2020a；Wang 等人，2021）。所有这些方法都考虑了不同客户之间的分布变化，而所提出的 FEDTEM 考虑了客户人口的周期性分布变化。

聚类和混合模型：我们不假设对客户有很强的控制，并且由于周期性的分布变化，可用的客户群体总是在变化。我们也不需要有状态的客户，因为我们的先验在全球范围内应用于所有客户。我们的混合模型基于特征空间，因此我们不需要为看不见的客户端标记数据来推断其模式。据我们所知，集群 FL 中的现有作品，包括那些关于个性化的作品，大多不能满足三个属性中的至少一个，因此不适用于我们的设置。丹尼斯等人 (2021) 提出了一种基于训练前原始客户数据的一次性聚类方法，该方法隐含地假设所有代表性客户同时可用。当数据在输入空间中表现出复杂的分布时，基于原始数据的聚类也可能不可靠。Clustered Federated Learning (Sattler et al., 2020) 基于经过训练的全局模型应用一次性聚类，然后为每个集群训练个性化模型。为实现这一目标，它隐含地假设对人口和客户抽样进行强有力的控制。戈什等人 (2020) 和曼苏尔等人(2020) 提出了一种类似的算法，可以交替执行聚类和更新相应集群的个性化模型。它们都需要标记数据供客户端计算模型选择的损失。在准备该草案期间，我们注意到一项并行工作 Fe dEM（Marfoq 等人，2021），它提出了一种联邦 EM 算法来为每个客户端学习混合模型并权衡来自多个模型的预测。修改后的 EM 算法需要计算损失，因此需要为每个客户端标记数据。它为每个客户端维护不同的先验分布，这需要有状态的客户端和对客户端采样的强大控制。(Briggs et al., 2020; Fu et al., 2021) 的分层或双分区聚类过程要求所有客户端同时可用于聚类，这违反了我们关于人口分布不断变化的假设并且不切实际在现实世界中的设备上 FL 中。此外，对于看不见的客户，要么需要额外的通信来确定他们的集群，要么客户必须为所有集群下载模型，这会大大增加通信成本。 (Xie et al., 2021) 在每个客户端上维护一组权重，同时在服务器上维护多个权重作为集群中心。每次权重更新需要两轮通信，这是不切实际的。目前尚不清楚这种机制是否可以推广到看不见的客户。(Marfoq et al., 2021) 为每个节点/客户端训练一组不同的权重，这需要所有节点/客户端始终可用。它更适合 cross-silo 设置，但不适合设备上设置。 (Duan et al., 2021) 根据客户在初始模型权重下的梯度之间的相似性对客户进行聚类。这在我们的设置中是不切实际的，因为训练人群全天都在变化，我们不能假设来自两种模式的客户在第一轮聚类时可用。此外，不能保证所选轮次的梯度可以很好地分离簇。为了计算梯度，它仍然需要标记数据。 (Andreux et al., 2020) 提倡使用不同的 BN 集合来跟踪不同 silo 的不同运行统计数据，这对于设备上的 FL 是不切实际的，因为 BN 已被广泛观察到会导致设备上的 FL 不稳定，并且通常取而代之的是不跟踪运行统计数据的组标准化（Hsieh 等人，2020 年；Hsu 等人，2020 年）。另一个限制是它假设在培训期间看到每个客户。

FL 中的多分支网络：当每个客户端首选个性化模型时，FL 中探索了多分支网络：分支要么本地存储在客户端上（Arivazhagan 等人，2019 年；Liang 等人，2020 年），要么基于客户端重建数据（Singhal 等人，2021 年）。所有上述三项工作都需要标记数据和额外的训练努力来学习分支的权重。相比之下，我们的方法不需要重新训练分支，也不需要标记数据供看不见的客户选择分支。分支选择基于特征空间中的混合模型，分支的权重是固定的。