7. 基于数据分布的聚类联邦学习_常黎明

最新推荐文章于 2024-07-12 14:39:11 发布

Dataer__

最新推荐文章于 2024-07-12 14:39:11 发布

阅读量3.2k

点赞数 5

分类专栏： # 研一下文章标签：聚类机器学习算法

本文链接：https://blog.csdn.net/weixin_43676735/article/details/130041506

版权

研一下专栏收录该内容

10 篇文章

订阅专栏

文章提出了FedDK框架，针对非独立同分布数据导致的联邦学习模型精度下降问题，通过DeepSets进行特征提取，K-Means聚类分配相似数据分布的节点到同一组，每组训练单独模型，从而提高精度和效率。此外，文章探讨了将差分隐私加入通信过程的可能性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

- 总结：

总结：

0. Three questions

文章在解决什么问题?

传统的联邦学习应用到非独立同分布数据上时，模型精度较低。

实验证明，当联邦学习的各节点的数据分布差异过大时，训练出来的模型精度会大大降低。
用了什么方法 (创新方法) ?

提出聚类联邦学习框架 FedDK：先将用户分入不同的聚簇，然后为每一个聚簇训练一个模型。

该方法面临的挑战是，用户的聚类标识未知。确认用户的聚类标识，需要解决两个问题：
- 标识每个用户的集群成员关系
- 在分布式条件下优化每一个聚类模型
解决以上两个问题的思路：

1）使用 DeepSets 对工作节点的本地数据进行特征提取，生成一个代表本地数据分布的特征描述符。

2）接下来使用 K-Means 聚类算法对特征描述符进行分组，将具有相似数据分布的工作节点分入同一个组（聚簇），最后每一个组（聚簇）中的所有工作节点共同训练一个模型。
效果如何？

FedDK 有效降低了数据非独立同分布给模型精度带来的影响。模型预测的精确度有较大提升，且需更少的计算量。
一句话总结创新点

在no-IID的工作节点中，通过将数据分布相似的工作节点分到同一个组（组中节点数据被认为是IID的）并训练同一个模型的方法来解决非独立同分布数据带来的问题；实质：通过聚类算法把 no-IID的工作节点划分为多组 IID的工作节点。
在此基础上我的想法

可以在工作节点与服务器通信时，添加差分隐私。