GENERATIVE MODELS FOR EFFECTIVE ML ONPRIVATE, DECENTRALIZED DATASETS

最新推荐文章于 2024-07-29 00:03:11 发布

zhenshidehaoqi

最新推荐文章于 2024-07-29 00:03:11 发布

阅读量94

点赞数

文章标签：去中心化深度学习区块链

本文链接：https://blog.csdn.net/zhenshidehaoqi/article/details/133300684

版权

摘要

为了改进机器学习在现实世界中的应用，经验丰富的建模师对他们的数据集、模型以及两者如何交互发展直觉。手动检查原始数据——代表性样本、异常值和错误分类——是a）识别和修复数据中的问题，b）生成新的建模假设，以及c）分配或完善人工提供的标签的重要工具。然而，手动数据检查对于隐私敏感的数据集是有问题的，例如那些代表真实世界个人行为的数据集。此外，在日益重要的联合学习环境中，手动数据检查是不可能的，在这种环境中，原始示例存储在边缘，建模者只能访问聚合输出，如度量或模型参数。本文证明，使用联邦方法和形式差分隐私保证训练的生成模型可以有效地用于调试许多常见的数据问题，即使数据无法直接检查。我们在具有差异私有联合RNN的文本和使用差异私有联合GANs的新算法的图像的应用中探索了这些方法。

3、差分隐私联合生成模型

至关重要的是，所提出的任何挑战都不需要检查任何特定用户的数据。与ML一样，目标是发现一些有广泛意义的东西。因此，考虑使用合适的合成示例来代替真实的用户数据是很自然的。为此，我们可以利用基于深度神经网络的生成模型（或“深度生成模型”）。与判别模型相反，生成模型学习联合分布p（x；y），并可应用于数据合成。这种神经网络可以近似似然函数，也可以用作绘制样本的机制（即隐式分布）。各种形式的深度生成模型（Kingma&Welling，2013；Goodfellow等人，2014；Kumar等人，2019；Radford等人，2019）已经引起了相当多的研究兴趣，特别是对于显式建模难以解决的高维空间。应用领域包括文本、音频和图像。

为了处理去中心化数据，我们通过FL训练这些生成模型，确保原始用户数据永远不会离开边缘设备。相反，随机选择的设备子集下载当前模型，每个设备根据自己的数据本地计算模型更新。短暂的模型更新随后被发送回协调服务器，在那里它们被聚合并用于更新全局模型。这个过程重复了很多轮，直到模型收敛（有关更多信息，请参见McMahan等人（2017）和Bonawitz等人（2019））。FL是由移动领域承载的，在移动领域，隐私是最重要的，数据是去中心化的。移动域的隐私是这项工作的主要动力，我们将在本文中广泛使用FL。

与其他ML模型一样，深度生成模型倾向于记忆独特的训练示例，这导致了人们对它们可能泄露个人信息的担忧。差异隐私是防止这种记忆的有力工具。特别是，在本文中，我们将强调用户级DP的使用，该用户级DP是在FL上下文中通过每用户更新剪辑和聚合后高斯噪声的组合获得的，遵循McMahan等人（2018）；附录A回顾了用户级DP和FL。我们假设在建模人员访问经过训练的模型之前，FL基础设施实现了该机制。这种方法限制了建模者和参与FL轮次的设备的隐私损失。在我们的实验中，我们使用（；）上界来量化获得的隐私。

6 AN APPLICATION TO DEBUGGING DURING INFERENCE WITH GANS

DP Federated GANs for Generating Image Data。生成对抗性网络（GANs）（Goodfellow等人，2014）是一种最先进的深度生成模型，最近取得了许多成功，特别是在图像领域（Isola等人，2016；朱等人，2017；Karras等人，2018；2019；Brock等人，2019）。GANs通过交替训练两个网络来工作。一种是生成器，它将低维潜在空间中的随机输入向量映射为像图像一样的丰富、高维生成输出。另一个是鉴别器，它判断输入图像是“真实的”（源自实际图像的数据集）还是“伪造的”（由生成器创建）。每个网络都试图击败另一个网络；生成器的训练目标是创建鉴别器无法从真实内容中辨别的内容，而鉴别器的训练目标则是提高其从生成的内容中辨别真实内容的能力。

我们可以采用GAN训练框架，并将其适应FL和DP，类似于McMahan等人在FL和DP下的RNN训练。（2018）通过DP-FedAvg算法。这里的区别在于，通过交替最小化两个损失函数来更新两组模型参数。一个关键的见解是，只有鉴别器的训练步骤涉及真实用户数据的使用（私有且仅限于用户的设备）；生成器训练步骤不需要真实的用户数据，因此可以在协调服务器上通过传统的（非联邦的）梯度更新来计算。第二个见解是发电机的损耗是鉴别器的函数。如早期涉及DP-GAN的工作所观察到的，如果鉴别器是在DP下训练的，并且生成器仅通过鉴别器训练，那么生成器通过DP的后处理特性具有与鉴别器相同的隐私级别（Dwork&Roth，2014）。在应用生成器梯度更新时不需要额外的计算步骤（例如，剪裁、噪声处理）。

zhenshidehaoqi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GENERATIVE MODELS FOR EFFECTIVE ML ONPRIVATE, DECENTRALIZED DATASETS

如早期涉及DP-GAN的工作所观察到的，如果鉴别器是在DP下训练的，并且生成器仅通过鉴别器训练，那么生成器通过DP的后处理特性具有与鉴别器相同的隐私级别（Dwork&Roth，2014）。特别是，在本文中，我们将强调用户级DP的使用，该用户级DP是在FL上下文中通过每用户更新剪辑和聚合后高斯噪声的组合获得的，遵循McMahan等人（2018）；在我们的实验中，我们使用（；此外，在日益重要的联合学习环境中，手动数据检查是不可能的，在这种环境中，原始示例存储在边缘，建模者只能访问聚合输出，如度量或模型参数。
复制链接

扫一扫