ClusterFL: A Similarity-Aware Federated Learning System forHuman Activity Recognition

主要贡献总结如下:

  • 我们提出了ClusterFL,一个相似感知的联邦学习系统,通过支持相似节点之间的协作学习来实现高模型精度。与现有方法相比,ClusterFL还通过基于学习到的集群结构的分簇离散者退出和基于相关性的节点选择来帮助降低总体通信开销。
  • 为了理解ClusterFL核心的可聚性的影响,我们分析了两个公共HAR数据集和四个由总共184个用户的数据组成的新数据集。我们发现聚类关系在用户的HAR数据中广泛表现出来,可以利用聚类关系来提高联邦学习的模型精度。
  • 我们收集了四个新的具有显著动态的HAR数据集,包括使用Android应用程序收集的大规模数据集和在室内环境中收集的三个HAR数据集
  • 我们使用四个新的HAR数据集在NVIDIA边缘测试平台上进行了广泛的实验。我们展示了在动态系统配置和各种数据集下,与几个最先进的基线相比,ClusterFL的优越性能。

3.1 HAR数据的可聚性

不同用户的活动往往表现出一定程度的相似性,这可能源于被试者的生物特征(如性别、身高、体重等)、物理环境(如被试者的活动地点),甚至是传感器的偏差[6,23,64]。我们调查了表1中列出的六个实词HAR数据集的数据相似度,包括基于智能手机的公共人类活动识别(SHAR)数据集[5],公共异构HAR (HHAR)数据集[51];以及我们自己收集的4个新数据集(Depth, IMU, UWB, HARBox数据集)(见第7节)。

具体来说,我们使用来自不同用户的数据的霍普金斯统计量[17]来展示这些HAR数据集的聚类性,这是一个在0到1之间的统计度量,通过测量给定数据集由均匀分布产生的概率来量化数据的聚类趋势。霍普金斯统计值越高,意味着数据的聚类性越强。表1显示了每个数据集的霍普金斯统计量,该统计量是对同一活动的数据进行计算,然后在不同活动之间进行平均。这表明,所有六个HAR数据集的Hopkins统计量都超过0.5,这意味着它们在不同主题的数据之间表现出聚类关系。特别是SHAR、HHAR、Depth和HARBox数据集具有较强的聚类倾向,Hopkins统计值大于0.7。

在使用主成分分析将特征维数降至2D后,我们通过绘制HHAR数据集中的“行走”数据来进一步可视化数据分布。如图1所示,不同受试者的数据之间存在明显的聚类关系,同一型号智能手机的数据被归为同一个聚类。

3.2聚类性对学习的影响

在本节中,为了激发利用用户的聚类关系的方法,我们设计了一种称为“集中式聚类”的方法,其中我们使用𝐾-means以基于训练数据的集中式方式对主题进行聚类,然后使用属于该集群的所有主题的数据为每个集群训练一个模型。我们将集中式聚类的准确性与四种典型的机器学习范式进行了比较:局部学习,集中式单模型学习(集中-单一),联邦平均(FedAvg)和联邦迁移学习(FTL)使用HHAR数据集。在局部学习中,每个节点使用自己的数据训练一个模型,由于局部数据有限,可能会出现过拟合。在集中式学习中,服务器从所有节点收集数据并学习单个全局模型,这通过共享原始用户数据而带来了重大的隐私问题。FedAvg是谷歌[9,49]提出的一种经典的FL方法,节点只向服务器上传模型权重,通过平均模型权重生成一个模型。联邦迁移学习[12,15]是一种最先进的FL方法,旨在通过根据不同用户自己的数据对学习到的单个FL模型进行个性化来提高FedAvg的性能。我们使用来自HHAR数据集的9名受试者的数据评估了上述方法,该数据集使用三种型号的智能手机收集。这项任务是利用加速度计和陀螺仪对六种人类活动进行分类。表2总结了使用4层神经网络的平均精度。

首先,我们观察到FedAvg不能收敛到集中模型,并且表现得比局部学习还要差。这并不奇怪,因为FedAvg本质上是集中式学习的分布式近似,当节点的数据是异构的时,它的性能很差[36,50]。此外,尽管联邦迁移学习(FTL)旨在为异构用户定制不同的模型,但由于没有明确考虑某些节点的相似性,精度提高(0.94%)仍然有限。集中式单模型学习比上述三种方法表现更好,因为它在从所有科目收集的数据中进行了最大数量的训练。最后,集中式聚类方法的平均准确率达到73.17%,优于集中式单一方法。尽管这种方法需要访问所有数据,并且在分布式环境中不实用,但它证明了利用节点的聚类关系来提高准确性的好处。该案例研究还提出了两个主要观点。首先,如果可以以分布式的方式捕获节点的集群关系,那么自然需要一个高效的FL范式共享数据相似性的节点将在学习中协作,减轻来自其他节点的噪声/异常值的影响。另一个关键优势是集群关系提供了减少通信开销的机会,因为在分布式学习过程中,可以提前删除与其他无关的离群值,以避免冗余通信。

方法

我们现在介绍ClusterFL,这是一个实用的联邦学习系统,旨在利用一些节点之间的内在相似性来提高人类活动识别的模型准确性和通信效率。我们首先简要讨论了ClusterFL的应用场景,然后描述了系统架构。

应用程序场景。ClusterFL是为广泛的应用程序设计的,在这些应用程序中,用户活动以连续和纵向的方式被跟踪。例如,在阿尔茨海默氏症患者监测场景中[33,62],可穿戴式和环境传感器持续跟踪患者的日常活动,如室内/室外时间、睡眠等,这些都是早期阿尔茨海默氏症诊断的重要数字生物标志物[1]。其他具有代表性的应用包括健身跟踪[28]、家庭日常监测[8]和社交距离检测[57]。在这些应用中,个人设备可以积累一定时间的数据,并使用它来训练机器学习模型进行活动识别。对于此类场景下的每个协作分布式训练会话,设备上的ClusterFL可以通过云进行通信,学习个性化的本地模型。由于用户活动的数据分布和特征可能会随着时间的推移而变化,因此ClusterFL可以定期(例如,每天)运行,以使用最近积累的数据更新本地模型。

系统架构。ClusterFL具有一种新颖的相似性感知联邦学习框架,可以最大限度地减少学习模型的经验训练损失,同时自动捕获不同节点数据之间的内在聚类结构1。具体而言,我们通过引入表示节点相似度的聚类指标矩阵,提出了一个新的聚类多任务联邦学习问题,并提出了一种分布式解决方案,使用交替优化技术迭代更新节点的模型权重和聚类指标矩阵。通过该框架,同一集群中的节点将通过最大化模型相关性来协作提高性能,并且服务器将能够在少量迭代中学习节点之间的集群关系。其次,基于学习到的簇结构,ClusterFL将利用两种新的机制,即基于簇的离散者退出机制和基于相关性的节点选择机制,在保持局部模型准确性的同时减少通信开销。具体来说,服务器将丢弃每个集群中收敛速度比其他节点慢的离散节点。此外,服务器将删除同一集群中与其他节点关联较小的节点。在这种情况下,与服务器交互的节点将更少,从而可以减少总体通信时间,同时保留“更重要”的节点来执行ClusterFL。

图2显示了ClusterFL的整体系统架构。具体而言,每一轮通信由以下步骤组成:(1)节点将上传其当前模型权重和更新服务器的训练损失。(2)服务器将通过优化框架使用聚类指标矩阵量化模型权重之间的关系。因此,在联邦学习的早期阶段,服务器可以动态地将节点分组为具有联合数据分布的集群。(3)服务器根据学习到的聚类指标矩阵,更新协同学习变量供节点更新模型使用,删除每个集群内收敛速度较慢的离散节点和相互关系较低的节点,以降低通信开销。(4)将服务器学习到的聚类指标矩阵、协同学习变量和一个drop指标发送回每个节点。(5)节点将根据接收到的信息更新模型,并根据drop指示器决定是否在下一轮继续学习。

上述步骤将迭代运行,直到收敛,即聚类多任务联邦学习问题的目标函数变化不大。如前所述,为了适应用户活动的动态变化,这种分布式训练过程可以使用最近收集的数据周期性地重复(例如,每天)。

5、相似感知联邦学习框架

ClusterFL的设计基于一个关键的观察,即在人类活动识别中,许多应用程序的数据由于受试者的生物特征、物理环境甚至传感器偏差而具有固有的聚类关系,可以利用这些聚类关系来提高整体模型的精度。因此,我们的目标是捕捉节点之间的聚类关系,并为同一聚类中的节点聚合模型权重,以提高精度。

5.1问题的制定

ClusterFL采用了一种新颖的联邦学习框架,可以最大限度地提高学习模型的准确性,同时通过引入聚类指标矩阵自动捕获不同节点数据之间的内在相似性。具体来说,我们提出了一个聚类多任务联邦学习问题:

•M为总涉及节点数,𝑁𝑖为节点i中的训练数据样本数,𝛼和𝛽为超参数,𝛼≥𝛽>0.

(x𝑟𝑖,𝑦𝑖𝑟)∈R𝐷×R是𝑟-th培训一双𝑖-th节点;W = [au:], w𝑀]𝑇∈R𝑀×𝐷是待估计的权值矩阵,其中每个局部模型是一个活动分类器;𝑙为局部模型的损失函数。

•F∈R𝑀×𝐾为正交聚类指标矩阵,如果节点i属于第j个聚类,则𝐹𝑖,𝑗= 1√𝑁𝑗,否则𝐹𝑖,𝑗= 0。其中𝐾是集群的数量,𝑁𝑗表示第j个集群中的节点数量。我们强调,在我们提出的优化框架中,我们不需要知道K,因为在第5.3节中,F的离散约束将被放松以获得它的连续解。

在上述公式中,第一项是所有节点上活动识别的经验误差之和;第二和第三项可以写成(𝛼−𝛽)𝑀𝑖= 1 | | w𝑖| 2 | 2 +𝛽𝐾𝑗= 1 𝑣∈年代𝑗| | w𝑣−w𝑗| 2 | 2,由模型L2-norm正规化的权重,以防止过度学习和𝐾-means集群整个星团内的距离模型重量降到最低。与FedAvg仅为所有异构数据节点提供一个模型相比,我们的公式将为每个节点定制一个模型,同时保留同一集群中节点的模型权重的相似性。在这种情况下,每个节点的模型将根据其本地数据并参考其他节点的模型进行更新,这将通过在集群内协作学习来显著提高个体性能。

交替优化。在联邦学习设置下,我们在问题(1)中有两个变量W和F需要求解。很容易看出(1)不是wr t W和f的联合凸,同时求解它们是非常困难的。为了解决这一挑战,我们建议使用交替优化方法[7]来解决(1)。在这种情况下,我们将为每次优化的外部迭代固定W或F,并更新另一个变量,在这两个变量的优化之间交替,直到收敛。算法1显示了节点和服务器之间交替优化的集中视图。在第5.2节和第5.3节中,我们将分别介绍如何分布式优化节点的模型权重W以及如何在联邦设置中学习它们的集群结构F。

5.2优化模型权值

当F固定时,问题(1)w.r.t W等价于:

在这里,我们建议使用乘法器的交替方向法(ADMM)方法[10]更新w𝑖(i = 1,…, M)在不共享数据样本信息的情况下分布在节点上。ADMM的思想是在增宽的拉格朗日L𝜌中固定两个变量,并更新剩余的变量,这将以交替或顺序的方式运行。我们注意到,尽管ADMM被广泛用于统计学习问题的分布式优化,但在联邦设置中应用它来优化模型权重W并不是一件简单的事情。

特别地,我们首先需要制定一个新问题,其中两个决策变量受线性约束,以保持一致使用标准ADMM配方。因此,我们定义Ω = F𝑇W∈R𝐾×𝐷,将问题(1)重新表述如下:

而且,在联邦学习设置中,嵌入在𝑓𝑖(w𝑖)中的经验损失函数需要根据不同节点的数据(x𝑖,y𝑖)进行局部计算。因此,我们必须将W的最小化步骤分解为局部模型权值W的更新组合𝑖(i = 1,…, M),以保持数据的局部性。最后,ADMM更新的迭代t+1包括以下步骤:

  • 节点更新(算法1中的第4-5行):每个节点将基于其本地数据(x𝑖,y𝑖)、集群结构F和来自服务器的协作学习变量Ω, U并行优化(例如,使用梯度下降方法)其模型权重w𝑖。

  • 服务器更新(算法1中的第6-10行):服务器将进一步利用新更新的节点W的模型权重和集群结构F(在5.3节中进行了优化)来更新协作学习变量Ω, u,对于j = 1,…,K:

因此,在节点与服务器的一轮通信中,节点需要将更新后的模型权值w𝑖上传到服务器,服务器将权值聚合后向所有节点广播F, Ω, U。这里U𝑗∈R1×𝐷(𝑗= 1,…,𝐾)是ADMM增广拉格朗日引入的对偶变量。

5.3了解集群结构

当W固定时,问题(1)w.r.t F可以看作是一个关于节点模型权值W的𝐾-means聚类问题(以矩阵形式表示)。在服务器上使用节点的模型权值学习节点的聚类关系时,存在两个挑战:如何量化模型权值的相似性,以及如何在不知道集群K个数的情况下动态优化集群结构。

模型权重的相似性。如[16,25,45]所示,基于距离的聚类方法仅适用于具有凸损失函数的模型,在对机器学习模型的相似性建模方面存在严重的局限性。因此,对于一般具有非凸损失函数的DNN模型,我们选择使用Kullback-Leibler divergence (KLD)来度量节点模型的相似度。KLD[30]用于度量一个概率分布与另一个概率分布的不同程度,广泛应用于知识蒸馏[20,40]、模型自适应[58,59]和相似性度量[13,21,52]。两个DNN模型(w𝑖,w𝑗)的KLD可表示为:

其中Φ(w𝑖,x𝑟𝑜输入数据)表示模型w𝑖在x𝑟𝑜上的预softmax输出。节点i和节点j的KL散度越小,说明模型之间的关系越密切。然后我们计算任意两个模型之间的KL散度,从而得到KL散度矩阵

优化集群关系。接下来,服务器将使用节点的KL发散矩阵D模型学习集群指标矩阵F。根据5.1节定义,F满足约束𝐹𝑖,如果节点i属于第j个集群,则𝑗= 1√𝑁𝑗,否则𝐹𝑖,𝑗= 0。这个约束定义了一个离散可行集,它不仅需要已知的簇总数K,而且使得寻找最优F NP-hard[41]。因此,我们选择放松F的这个约束,得到一个连续解,量化所有节点之间的相关性,然后恢复F。根据[14],主成分是𝐾-means聚类的离散聚类成员指标的连续解。设节点间共有M个簇,则P = Q𝑀−1Q𝑇𝑀−1∈R𝑀×𝑀为F的连续解,其中Q𝑀−1 = (v1,…, v𝑀−1)使用主成分分析(PCA)收集D的𝑀−1主成分。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值