【联邦学习】IID与非IID数据

本文探讨了联邦学习环境中独立同分布(IID)和非独立同分布(非IID)的概念。在传统的机器学习中,通常假设数据为IID,但在联邦学习中,由于数据分散在各个设备上,非IID现象更为常见。非IID数据可能导致模型训练偏差,因为每个客户端的数据分布可能因用户行为而异。联邦学习必须应对这种挑战,以确保模型在非IID数据上的鲁棒性和有效性。
摘要由CSDN通过智能技术生成


一、引言

在联邦学习系统中,来自不同参与方的数据可能会导致出现 非独立同分布 的情况。并且不同的参与方可能有数量不均的训练数据样本,这可能导致联邦模型产生偏差,甚至会使联邦模型训练失败。

在联邦学习系统中,因为数据是由用户自己收集的,可能各自相差很大。但是如果数据非独立同分布就会影响训练。所以联邦学习中存在数据是IID还是非IID的讨论。


二、什么是IID、非IID

数据独立同分布(Independent Identically Distribution,IID):数据与数据之间都是独立的,但满足同一个分布。(独立:一个数据的出现不会影响另一个数据)

当随机变量集合中的每个随机变量都具有相同的概率分布时,则该集合是独立的、同分布的,即IID。
在所有其他情况下,数据都是非独立的、同分布的,即非IID。


三、联邦学习下的IID与非IID

在联合学习的背景下,当 每个样本在每个客户机上出现的可能性相等 时,数据就是IID。

事实上,IID 永远不会发生,因为数据是由客户生成的,因此客户将影响包含特定样本的概率。这在联邦学习中是不可避免的。
由于数据不会被聚合,而且训练只发生在主要由个人创建的本地数据上,因此这些数据不可避免地会包含由他们的行为导致的某些模式。结果是,数据并不是独立且相同地分布的,我们将这种情况称为非IID数据。

传统的机器学习技术假设数据的IID。研究表明,机器学习的范式发生了转变,从假设IID数据转变为假设非IID数据。


参考链接

  1. 论文:Robustness of FederatedAveraging for Non-IID Data
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值