非独立同分布 Non-IID与独立同分布IID

“同分布”和“独立”都是统计学里的概念。“它们是研究对象产生样本或者研究人员挑选样本时会使用的两个假设。因此,这里首先说个应用场景,然后介绍“同分布”和“独立”。

IID是数据独立同分布(Independent Identically Distribution,IID),显然,Non-IID意思就是数据之间非独立,非同分布。

IID指:输入空间X的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立地从这个分布上采样而得。在概率论与统计学中,独立同分布是指一组随机变量中每个变量的概率分布都相同,且这些随机变量互相独立。一组随机变量独立同分布并不意味着它们的样本空间中每个事件发生概率都相同。例如,投掷非均匀骰子得到的结果序列是独立同分布的,但掷出每个面朝上的概率并不相同。

所有的事物都是具有一定结构的系统,而我们常听说的“研究”,都以构建研究对象的模型为目的。“模型”指的是描述事物结构或运行机制所用的文字、公式、图形等等。如图2-1,是一种建模方式的工作流程:我们会在系统的某些位置添加传感器,然后获取观测数据。观测数据是对系统的一种间接而粗略的描述,可以支持我们在这个基础上对系统内部发生的事情进行推测。

那么,为什么要假设数据是独立和相同分布(i.i.d)呢?其实这个假设让maximization在数学上非常容易计算,也更顺理成章。。。(哈哈哈,你懂的)。

因为独立同分布数据,说明我们用来训练的样本点具有较好的总体代表性。我们要从已有的数据(经验) 中总结出规律来对未知数据做决策,如果获取训练数据是不具有总体代表性的,就是特例的情况,那规律就会总结得不好或是错误,因为这些规律是由个例推算的,不具有推广的效果。通过独立同分布的假设,就可以大大减小训练样本中个例的情形。

非数据独立同分布(Non - Independent Identically Distribution,Non-IID)

Non-IID的意思即数据之间非独立,或者非同分布。但现实数据一般都是独立的。数据与数据之间都是独立的,但不满足同一个分布。

实场景中不同设备的数据的质和量都不尽相同,数据很难满足 IID 的前提假设。

值得一提的是,现在的研究也开始着眼于Non-iid场景了。

参考资料:

联邦学习概念知识1-什么是联邦学习

联邦学习概念知识2—联邦学习的分类

联邦学习概念知识3- Non-IID与IID

联邦学习概念知识4:FL模型训练的分类

联邦学习概念知识5:隐私求交PSI

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值