如何从非独立同分布数据中学习？

最新推荐文章于 2024-08-04 15:41:38 发布

猫咪钓鱼

最新推荐文章于 2024-08-04 15:41:38 发布

阅读量3.5k

点赞数 5

分类专栏：翻译文章标签：联邦学习非独立同分布大数据

原文链接：https://xzhu0027.gitbook.io/blog/ml-system/sys-ml-index/learning-from-non-iid-data

版权

翻译专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

从非 iid 数据中学习

从非 iid 数据中学习

IID 是什么意思？

非正式地，同分布意味着没有总体趋势-分布不会波动，样本中的所有项目都来自同一个概率分布。独立意味着样本项都是独立的事件。换句话说，它们之间没有任何联系。

IID 统计数据的一个更具技术性的定义是:

Each $x^{(i)} \sim \mathcal{D}$ (Identically - Distributed)
$\forall i \ne j \, \, \, p(x^{(i)}, x^{(j)}) = p(x^{(i)})p(x^{(j)})$ (Independently Distributed)

联邦学习中的非 iid 数据

联邦学习的统计模型包括两个采样层次: 访问一个数据点需要首先采样一个客户端 $\sim \mathcal{Q }$ ，可用客户端的分布，然后从该客户端的本地数据分布绘制一个示例 $\sim \mathcal { P_i }(x，y)$ ，其中 x 是特征，y 是标签。

联邦学习中的非 iid 数据通常表示不同客户机 i 和 j 的 $\mathit{ P_i }$ 和 $\mathit{P_j}$ 之间的差异。

为了保证随机梯度是全梯度的无偏估计，对训练数据进行 IID 抽样是非常重要的。换句话说，在客户端拥有 IID 数据意味着用于客户端本地更新的每个小批量数据在统计学上与从整个培训数据集(即客户端所有本地数据集的联合)中统一抽取的样本相同(带有替换)。在实践中，假设每个边缘设备上的本地数据总是 IID 是不现实的。更具体地说:

违反独立性: 如果数据处理的顺序不够随机。(例如，按设备集合和/或按时间排序，则侵犯了独立性。此外，位于同一地理位置的设备可能具有相关数据。
违反同一性: 因为设备绑定到特定的地理区域，标签的分布在不同的分区之间变化。此外，不同的设备(分区)可以容纳大量不同的数据。

因此,

每个节点的数据由一个独特的分布 $\sim \mathcal{P _ t}$ 生成
每个节点上的数据点的数量也可能有很大的不同
可能存在一个底层结构，用于捕捉节点之间的关系及其相关分布。

大多数关于合成非 iid 数据集的实证研究都集中在标签分布倾斜上，即通过基于标签划分一个“扁平”的现有数据集来形成一个 non-iid 数据集。

注:

同样重要的是要注意，分布 $\mathcal{ Q}$ 和 $\mathcal{ P_i }$ 可能随着时间而变化，引入了“non-IIDness”的另一个维度。
更详细的分类，请参阅第3.1节。

实验

最近的一些工作表明，大多数分散学习算法在非 iid 数据分区上运行时会出现主要的模型质量损失(甚至发散)。然而，值得注意的是，BSP 对于 Non-IID 数据是健壮的。

▲ https://arxiv.org/pdf/1910.00189.pdf

结果表明，精确的数据分布，即数据分布的偏态性可能影响精度。更具体地说，偏态可以粗略地解释为每个客户端上的数据分布和人口分布之间的距离。此外，这样的距离可以用分布之间的地球中个体的距离(EMD)来计算。基于真实数据集的实验结果表明，超过一定的阈值时(EMD)方法的测试精度明显下降。

现有工作

虽然已经提出了几种解决方案来处理高度倾斜的非 iid 数据(例如数据共享和模型迁移) ，但是它们都有点不能令人满意。例如，一些现有的工作[1,2]提出了基于启发式的方法，通过共享本地设备数据或创建一些服务器端代理数据。然而，这些方法可能是不现实的: 除了给网络带宽带来负担外，向服务器发送本地数据违反了联合学习的关键隐私假设，向所有设备发送全球共享的代理数据需要认真生成或收集这类辅助数据。

一些想法

如果边缘设备具有在本地数据上运行训练的能力，那么训练一个单一的全局模型是最佳目标吗？当然，单一的全局模型也有其好处。例如，它可以向没有数据的客户提供模型，或者在部署之前允许手工验证和质量保证。然而，由于本地培训是可能的，因此每个客户都有一个定制的模型是可行的。本文作者认为，“定制模型的训练可以将非 iid 问题从一个 bug 转化为一个特征，几乎完全可以这么说，因为每个客户端都有自己的模型，客户端的身份有效地将模型参数化，使一些病态但退化的 non-iid 分布变得微不足道。”然而，这种方法存在过拟合问题。因此，我认为局部微调是最有希望的技术。它首先对单个模型进行联邦训练，然后将该模型部署到所有客户机，在推断之前对本地数据集进行额外的培训。(SEC19年的一篇论文也有类似的研究方向。)