【联邦学习】IID与非IID数据

最新推荐文章于 2024-12-23 21:06:27 发布

想变厉害的大白菜

最新推荐文章于 2024-12-23 21:06:27 发布

阅读量5.6k

点赞数 3

分类专栏：机器学习文章标签：概率论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44211968/article/details/123438348

版权

机器学习专栏收录该内容

47 篇文章

订阅专栏

本文探讨了联邦学习环境中独立同分布（IID）和非独立同分布（非IID）的概念。在传统的机器学习中，通常假设数据为IID，但在联邦学习中，由于数据分散在各个设备上，非IID现象更为常见。非IID数据可能导致模型训练偏差，因为每个客户端的数据分布可能因用户行为而异。联邦学习必须应对这种挑战，以确保模型在非IID数据上的鲁棒性和有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、引言
二、什么是IID、非IID
三、联邦学习下的IID与非IID
参考链接

一、引言

在联邦学习系统中，来自不同参与方的数据可能会导致出现 非独立同分布 的情况。并且不同的参与方可能有数量不均的训练数据样本，这可能导致联邦模型产生偏差，甚至会使联邦模型训练失败。

在联邦学习系统中，因为数据是由用户自己收集的，可能各自相差很大。但是如果数据非独立同分布就会影响训练。所以联邦学习中存在数据是IID还是非IID的讨论。

二、什么是IID、非IID

数据独立同分布（Independent Identically Distribution，IID）：数据与数据之间都是独立的，但满足同一个分布。（独立：一个数据的出现不会影响另一个数据）

当随机变量集合中的每个随机变量都具有相同的概率分布时，则该集合是独立的、同分布的，即IID。
在所有其他情况下，数据都是非独立的、同分布的，即非IID。

三、联邦学习下的IID与非IID

在联合学习的背景下，当 每个样本在每个客户机上出现的可能性相等 时，数据就是IID。

事实上，IID 永远不会发生，因为数据是由客户生成的，因此客户将影响包含特定样本的概率。这在联邦学习中是不可避免的。
由于数据不会被聚合，而且训练只发生在主要由个人创建的本地数据上，因此这些数据不可避免地会包含由他们的行为导致的某些模式。结果是，数据并不是独立且相同地分布的，我们将这种情况称为非IID数据。

传统的机器学习技术假设数据的IID。研究表明，机器学习的范式发生了转变，从假设IID数据转变为假设非IID数据。

参考链接

论文：Robustness of FederatedAveraging for Non-IID Data

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。