pFedMoE：混合专家的数据级个性化，用于模型异构个性化联邦学习

赵粥粥

已于 2025-02-15 23:26:31 修改

阅读量135

点赞数

文章标签：学习方法

于 2025-02-15 23:25:16 首次发布

原文链接：https://arxiv.org/abs/2402.01350

版权

[2402.01350] pFedMoE: Data-Level Personalization with Mixture of Experts for Model-Heterogeneous Personalized Federated Learning

摘要

联邦学习（FL）已被广泛应用于分布式数据的协同训练。然而，它面临着数据、系统和模型异构性的挑战.这就激发了模型异构个性化联邦学习（MHPFL）的出现。然而，如何在保证数据和模型隐私的同时，保持良好的模型性能和较低的通信和计算成本，仍然是MHPFL中的一个问题。针对这一问题，提出了一种模型异构的混合专家个性化联邦学习方法（pFedMoE）.

该算法为每个客户端的本地异构大模型分配一个共享的同构小特征提取器和一个本地门控网络。

首先，在本地训练过程中，

本地异构模型的特征提取器作为本地专家进行个性化特征（表示）提取，

而共享的同构小特征提取器作为全局专家进行广义特征提取。

本地门控网络为从每个数据样本上的两个专家提取的表示产生个性化权重。

这三个模型形成局部异构 MoE。

加权混合表示融合了广义和个性化特征，并由具有个性化预测信息的本地异构大模型头处理。

MoE 和预测头同时更新。

其次，将训练好的本地同质小特征提取器通过聚合发送到服务器进行跨客户端信息融合。

总体而言，pFedMoE 在细粒度数据级别增强了本地模型个性化，同时支持模型异构性。

我们从理论上证明了它随时间的收敛性。在2个基准数据集和7个已有方法上的实验表明，该方法在计算量小、通信开销小的情况下，比现有方法和同类最佳基线分别提高了2.80%和22.16%的精度。

1. 介绍

联邦学习（FL）[21，32]是一种分布式机器学习范式，支持以隐私保护的方式进行协作模型构建。在典型的FL算法- FedAvg [32]中，FL服务器选择FL客户端的子集（即，数据所有者），并向他们发送全局模型。每个选择的客户端用接收到的全局模型初始化其本地模型，并在其本地数据上训练它。然后，将训练的局部模型上载到服务器以进行聚合，从而通过加权平均来生成新的全局模型。在整个过程中，只有模型参数在服务器和客户端之间交换，从而避免暴露于可能敏感的本地数据。这种范例要求客户机和服务器维护相同的模型结构（即，模型同质性）。

在实践中，FL教学面临着与各种类型的异质性相关的挑战。首先，来自客户端的分散式数据通常是非独立且相同分布的（non-IID），即，数据或统计学异质性。在非IID数据上训练的单个共享全局模型可能无法很好地适应每个客户端的本地数据分布。第二，在跨设备FL中，客户端通常是具有不同系统配置的移动的边缘设备（例如，带宽、计算能力），即，系统异质性。如果所有客户端共享相同的模型结构，则模型大小必须与最低端的设备兼容，从而导致高端设备出现性能瓶颈和资源浪费。第三，第三，在跨孤岛FL中，客户是关注保护模型知识产权和维护不同的私有模型库的机构或企业，即模型异构性。他们的目标通常是通过FL进一步训练现有的专有模型，而不透露它们。因此，模型异构个性化联邦学习（Model-Heterogeneous Personalized Federated Learning，MHPFL）领域应运而生，旨在为每个联邦学习客户端训练个性化的异构局部模型。

现有的支持完全异构模型的MHPFL方法可以分为三类：

（1）基于知识提取的MHPFL [44]，它要么依赖于具有与本地数据相似分布的额外公共数据，要么在客户端上引起额外的计算和通信负担来执行知识提取;

（2）基于模型混合的MHPFL [26]，其将客户端模型划分为共享的同构部分和私有异构部分，但是仅共享同构部分会瓶颈模型性能，从而在过程中揭示模型结构;

以及（3）基于互学习的MHPFL [47]，其以互学习的方式交替地为每个客户端训练私有异构大模型和共享的同构小模型，从而为客户端带来额外的计算成本。

随着大型语言模型（LLM）的快速发展，将图像和文本等多种数据模态结合起来训练这类模型，增加了训练和推理的成本。除了增加LLMs的规模或进行微调外，专家混合（MOE）方法已显示出解决这一问题的前景。一个MOE（图1）由一个门控网络和多个专家模型组成。在训练过程中，数据样本通过门控网络以产生用于所有专家的权重。权重最高的专家处理该样本。他们的预测，由他们相应的权重加权，形成最终的输出。

混合输出与标签之间的损失用于同时更新专家和门控网络。

𝑝MoE的核心思想是利用门控网络将数据划分为多个子任务，并根据专家的专业知识分配不同的子任务。这使MoE能够解决一般性和专门性问题。

现有的FLMOE方法通过允许客户端使用门控网络从其他客户端选择特定的本地模型或平衡全局和本地模型，仅解决典型模型同质FL设置中的数据异质性。

以前的研究[53]强调每个数据样本都包含广义和个性化信息，样本之间的比例各不相同。受此启发，我们提出了模型异构的个性化联邦学习与混合专家（pFedMoE）的方法，以提高个性化的数据水平，以解决数据的异构性和支持模型的异构性。在pFedMoE下，每个FL客户端的模型由本地门控网络、本地异构大模型的特征提取器（即，本地专家）用于个性化信息提取，以及全局可共享的同质小特征提取器（即，全局专家）用于提取广义信息，从而形成本地MOE。

在本地训练过程中，对于每个本地数据样本，门控网络自适应地为两个专家提取的表示产生个性化的权重。

加权的混合表示，结合广义和个性化的特征信息，然后处理的本地异构模型的预测头注入个性化的预测。预测和标签之间的硬损失同时更新MOE和标头。在本地训练之后，同质小特征提取器被发送到FL服务器，以促进异构局部模型之间的知识共享。

理论分析证明了pFedMoE可以随时间收敛。在2个基准数据集和7个现有方法上的大量实验表明，pFedMoE实现了最先进的模型精度，同时产生了较低的计算和可接受的通信成本。具体来说，它实现了高达2.80%和22.16%的测试精度分别高于最先进的和同类最佳基线。

2 RELATEDWORK

2.1模型异构个性化FL

现有的 MHPFL 有两大类：

（1）客户端通过模型剪枝训练全局模型的异构局部子网络，服务器按参数纵坐标聚合它们，例如 FedRolex [3]、FLASH [4]、HeteroFL [11]、FjORD [15]、HFL [29]、Fed2 [49]、FedResCuE [58]；

（2）客户端拥有完全异构的局部模型，并通过知识提炼、模型混合和相互学习与他人交换知识。

MHPFL与知识蒸馏。一些方法利用知识蒸馏上的附加（标记或未标记）公共数据集，其分布与服务器或客户端的本地数据相似，以融合跨客户端信息，例如Cronus [5]，FedGEMS [8]，Fed-ET [9]，FSFL [16]，FCCL [17]，DS-FL [18]，FedMD [23]，FedKT [24]，FedDF [27]，FedHeNN [31]，FedKEM [33]，KRR-KD [35]，FedAUX [40]，CFD [41]，pFedHR [46]，FedKEMF [50]和KT-pFL [52]）然而，由于数据隐私，很难获得这样的公共数据集。客户端上的蒸馏加重了计算负担，而在服务器和客户端之间传送每个公共数据样本的logits或表示加重了通信负担。为了避免使用公共数据，FedGD [54]，FedZKT [55]和FedGen [57]训练一个全局生成器来生成合成数据以替换公共数据，但生成器训练非常耗时，并降低了FL效率。HFD [1，2]，FedGKT [14]，FD [20]，FedProto [44]和FedGH [48]不依赖公共或合成数据。相反，客户端与服务器共享看到的类和相应的类平均logit或表示，然后将其与每个类的全局logit或表示一起提取。然而，它们会在客户端产生很高的计算成本，并且由于类上传，在隐私敏感的场景中可能会受到限制。

具有模型混合的 MHPFL。本地模型被分成特征提取器和分类器。FedMatch [7]、FedRep [10]、FedBABU [34] 和 FedAlt/FedSim [36] 共享同质特征提取器，同时保留异构分类器。FedClassAvg [19]、LG-FedAvg [26] 和 CHFL [28] 表现相反。它们本质上只提供具有部分异构性的模型，可能导致性能瓶颈和部分模型结构暴露。

具有相互学习的 MHPFL。FML [43] 和 FedKD [47] 中的每个客户端都有一个本地异构大模型和一个可共享的同构小模型，它们通过相互学习交替训练。训练好的同构小模型在服务器上聚合，以融合来自不同客户端的信息。然而，交替训练会增加计算负担。最近的 FedAPEN [37] 通过使每个客户端首先学习本地异构模型输出的可训练权重 𝜆，将 (1 − 𝜆) 分配给共享的同构模型输出，从而改进了 FML；然后固定这对权重，并使用加权集成输出和标签之间的集成损失来训练两个模型。由于客户端之间的数据分布不同，可学习的权重也不同，即实现客户端级别的个性化。然而，由于在训练期间固定权重，它无法在数据级别探索广义和个性化知识。

洞察。相比之下，我们提出的 pFedMoE 将可共享的同质小特征提取器和局部异构大模型的特征提取器视为 MoE 的全局和局部专家。

它部署了一个轻量级线性门控网络，为每个数据样本的两个专家的表示生成个性化权重，从而能够在更细粒度的数据级别个性化提取全局广义和局部个性化知识，以适应及时数据分布。

此外，pFedMoE 同时更新 MoE 中的三个模型，与 FedAPEN 中首先训练可学习权重然后交替训练模型相比，节省了训练时间。pFedMoE 中的客户端和服务器仅交换同质小特征提取器，从而降低了通信成本并保护了本地数据和模型隐私。

2.2 联邦学习中的MOE

为了解决典型 FL 中的数据异质性问题，FedMix [38] 和 FedJETs [12] 允许每个客户端构建具有共享门控网络和同质本地模型的 MoE。门控网络选择更适应此客户端本地数据的特定其他本地模型进行集成。这些方法会产生很大的通信成本，因为它们会将整个模型发送给每个客户端。（选择其他的客户端的模型……）

还有一种 PFL 方法 [25]，使用 MoE 进行跨非 IID 数据集的域自适应。Zec 等人 [51] 和 PFL-MoE [13] 将 MoE 纳入个性化 FL，以缓解模型同质场景中的数据异质性。在每一轮中，每个客户端作为全局专家从服务器接收全局模型，并作为本地专家在部分本地数据上对其进行微调，这两个专家和一个门控网络构成了 MoE。在 MoE 训练期间，每个客户端使用只有一个线性层的个性化门控网络来产生两个专家输出的权重。然后，加权输出用于更新剩余本地数据上的本地模型和门控网络。虽然通过数据级个性化缓解了数据异质性，但它们面临两个限制：（1）在部分本地数据上训练 MoE 可能会损害模型性能，（2）具有较少参数的单线性层门控网络只能从本地数据中提取有限的知识。

相比之下，pFedMoE 在更具挑战性的模型异构 FL 场景中增强了数据级个性化。pFedMoE 中的门控网络为两个专家的表示产生权重，从而携带比输出更多的信息，并促进全局广义和局部个性化特征的融合。加权混合表示由本地个性化异构模型的预测头处理，以增强预测个性化。我们设计了一个更高效的门控网络来学习本地数据分布。我们在所有本地数据上同时训练 MoE 的三个模型，提高模型性能并节省训练时间。只有小型共享同质特征提取器被传输，从而降低了通信成本。

3 PRELIMINARIES

典型的FL旨在最小化全局模型对所有客户端上的本地数据的平均丢失：

该定义要求所有客户端和服务器必须拥有具有相同结构F（·）的模型，即：同构模型。

pFedMoE是为用于有监督学习任务的模型异构PFL设计的。我们将客户端的本地异构模型定义为（Fk（·）是异构模型的结构;是𝜔𝑘个性化模型的参数）。𝜔𝑘目标是最小化本地异构模型对本地数据的损失之和.

4 THE PROPOSED APPROACH

动机。在 FL 中，全局模型具有充足的广义知识，而本地模型具有个性化知识。参与的客户在本地数据有限的情况下，希望增强其本地模型的泛化能力，以提高模型性能。对于客户 𝑘，其本地异构模型 F𝑘 (𝜔𝑘 ) 包括特征提取器和预测头，F𝑘 (𝜔𝑘 ) = 。特征提取器捕获低级个性化特征信息，而预测头包含高级个性化预测信息。因此，

（1）我们增强本地异构特征提取器的泛化能力，通过 FL 提取更多泛化特征，同时保留本地异构模型的预测头以增强个性化预测能力。此外，张等人 [53] 强调，客户端的各种本地数据样本包含不同比例的全局广义信息和本地个性化信息。

这促使我们（2）动态平衡本地异构模型的泛化和个性化，在数据级别适应不同客户端的非 IID 数据。

概况.为了实现上述观点，pFedMoE结合了一个可共享的小型同构特征提取器G（），其远小于局部异构特征提取器。如图2所示，在第t轮沟通中，pFedMoE的工作流程包括以下步骤：

（1）服务器对客户端S进行采样，并将在第（n-1）轮中聚合的全局同构小特征提取器发送给它们。

(2) 客户端将接收到的全局齐次小特征提取器作为全局专家，用于提取所有类的广义特征，并将本地异构大特征提取器作为本地专家，用于提取本地可见类的个性化特征。引入同质或异构的轻量级个性化局部门控网络，通过动态地为来自两个专家的每个样本的表示产生权重来平衡泛化和个性化。这三个模型构成了一个MOE体系结构。来自MOE的加权混合表示然后由本地异构大模型的预测头部处理以提取个性化预测信息。MOE的三个模型和头部以端到端的方式同时训练。更新后的同构被上传到服务器，而、被客户端保留。

(3) 服务器通过加权平均来聚合接收到的本地齐次特征提取器，以产生新的全局齐次特征提取器。

上述过程迭代，直到所有本地异构完整模型（MOE和预测头部）收敛。在FL的最后，使用本地异构的完全模型进行推理。pFedMoE的详细信息见算法1（附录A）。

4.1 MoE Training

在MOE中，每个本地数据样本被馈送到全局专家中以产生广义表示，并且同时馈送到本地专家中以产生个性化表示，

每个局部数据样本也被馈送到本地门控网络中以产生两个专家的权重，请注意，不同的客户端可以拥有异构门控网络 H𝑘 (𝜑𝑘 )，其输入维度 𝑑 与本地数据样本 𝒙 相同，输出维度 ℎ = 2。为方便讨论，我们对所有客户端使用相同的门控网络 H(𝜑𝑘 )。

然后，我们将两个专家的表示与门控网络产生的权重混合，

为了实现上述表示混合，我们要求同构小特征提取器和异构大特征提取器的最后一层维度相同。混合表示然后由本地个性化预测头处理（同构和异构头都是允许的，我们在本研究中使用同构头）以产生预测，

我们计算预测和标签之间的硬损失（例如交叉熵损失[56]）：

然后，我们通过梯度下降同时更新所有模型（例如，SGD优化器[39]），

其中分别是同构小特征提取器、异构大模型和门控网络的学习率。为了实现稳定收敛，我们设置 𝜂𝜃 = 𝜂𝜔 。

4.2 Homogeneous Extractor Aggregation

经过本地训练后，𝑘 将其本地同质小特征提取器 𝜃𝑡 𝑘 上传到服务器。然后服务器通过加权平均将它们聚合以生成新的全局特征提取器：

问题的重新表述。不同客户端的本地个性化门控网络动态地产生两个专家对局部非IID数据的每个样本的表示的权重，基于本地数据分布平衡概括和个性化。因此，pFedMoE在细粒度数据层上增强了模型异构个性化FL的个性化。因此，等式(2)可以指定为：

表示两个专家的权重·是点积（即：在逐元素乘法之后求和）。

4.3 Gating Network Design

局部门控网络 H(𝜑𝑘 ) 将每个数据样本 𝒙𝑖 ∈ 𝐷𝑘 作为输入，并输出两个权重 [𝛼G𝑘,𝑖,𝛼F𝑘𝑘,𝑖 ]（总和为 1），作为两个专家的表示，如公式 (4) 所定义。线性网络是实现这些功能的最简单模型。因此，我们为 pFedMoE 定制了一个专用的轻量级线性门控网络，如图 3 所示。

线性层。pFedMoE 按批次训练模型。在处理一批彩色图像样本时，输入维度为 [𝑙𝑒𝑛𝑔𝑡ℎ, 𝑤𝑖𝑑𝑡ℎ, 𝑐ℎ𝑎𝑛𝑛𝑒𝑙 = 3, 𝑏𝑎𝑡𝑐ℎ𝑠𝑖𝑧𝑒]。在将其输入门控网络之前，我们将其展平为具有 [(𝑙𝑒𝑛𝑔𝑡ℎ · 𝑤𝑖𝑑𝑡ℎ · 3, 𝑏𝑎𝑡𝑐ℎ𝑠𝑖𝑧𝑒]) 像素的向量。给定较大的输入向量，仅具有一个包含 2 个神经元的线性层的门控网络可能无法有效捕获局部数据知识，并且由于参数容量有限，可能容易过度拟合。因此，我们对门控网络采用了 2 个线性层：第一层有 𝑚 个神经元（𝑙𝑒𝑛𝑔𝑡ℎ · 𝑤𝑖𝑑𝑡ℎ · 3 · 𝑚 个参数），第二层有 2 个神经元（𝑚 · 2 个参数）。

规范化。深度神经元网络中通常采用规范化技术进行正则化，以提高模型泛化能力并加速训练。常用方法包括批量、实例和层规范化。最近，开关规范化 [30] 整合了这些典型方法的优点，可以有效处理具有不同特征的批量数据 [6]。在平坦化输入之后，我们在将其输入到第一个线性层之前应用开关规范化层。为了利用广泛采用的批量规范化的优势，我们在两个线性层之后添加了批量规范化层。

激活函数。激活函数增加非线性以改善深度网络表达，减轻梯度消失或爆炸。常用的激活函数有 Sigmoid、ReLU、Softmax 等，每个函数都有各自的取值范围。由于门控网络的输出权重在 0 到 1 之间，因此我们在第一层线性层之后添加一个 Sigmoid 激活层，将其输出限制在 (0, 1) 内。我们在第二层线性层之后添加一个 Softmax 激活层，以确保产生的两个权重之和为 1。

4.4讨论

在此，我们进一步讨论pFedMoE的以下几个方面。

隐私. 客户端共享同构的小型特征提取器以进行知识交换。本地异构大型模型和本地数据保留在客户端，从而保护了客户端的隐私。

通信. 在服务器和客户端之间只传输同构的小特征提取器，这比在FedAvg中传输完整模型产生更低的通信成本。

计算。“除了训练局部异构大模型外，客户端还训练小型同构特征提取器和轻量级线性门控网络。然而，由于它们的尺寸小于异构大特征提取器，因此计算成本是可以接受的。此外，MOE和预测报头的同时训练减少了训练时间。

6 EXPERIMENTAL EVALUATION

为了评估pFedMoE的有效性，我们使用Pytorch实现了pFedMoE和7个最先进的基线，并在4个NVIDIA GeForce RTX 3090 GPU上的2个基准数据集上进行了比较。

数据集。我们在CIFAR-10和CIFAR-100 1 [22]影像分类基准数据集上评价了pFedMoE和基线。CIFAR 10包括10个类别的6000张32 × 32彩色图像，其中5000张图像在训练集中，1000张图像在测试集中。CIFAR-100包含100类彩色图像，每类500幅训练图像和100幅测试图像。为了构建非IID数据集，我们采用了两种数据划分策略：

（1）病理学：根据[42]，我们在CIFAR-10上为每个客户端分配2个类，并使用Dirichlet分布为不同客户端生成同一类的不同计数，表示为（非IID：2/10）。我们在CIFAR-100上为每个客户端分配了10个类，标记为（非IID：10/100）。

(2)实用性：根据Qin et al. [37]，我们将所有类分配给每个客户端，并利用Dirichlet分布（）来控制每个类在客户端的比例。𝛾在非IID划分之后，每个客户端的本地数据集以8：2的比例被划分为训练集和测试集，以确保两个集遵循相同的分布。