Secure Federated Transfer Learning （论文翻译与拓展）

最新推荐文章于 2022-10-24 22:22:56 发布

妈妈咪咦

最新推荐文章于 2022-10-24 22:22:56 发布

阅读量1.5k

点赞数 5

分类专栏： paper 文章标签：联邦学习

本文链接：https://blog.csdn.net/weixin_44774630/article/details/97813389

版权

本文介绍了一种名为联邦迁移学习(FTL)的新框架，旨在在不侵犯用户隐私的情况下，利用联邦学习改善数据联合下的模型。FTL允许知识在不损害数据安全性的前提下共享，并在组织间传递。提出了安全的传输交叉验证方法以保护FTL的性能，同时最小化对现有模型结构的改动。该框架适用于多种安全的多方机器学习任务，且在准确性上与非隐私保护方法相当。

摘要由CSDN通过智能技术生成

Secure Federated Transfer Learning

安全联邦迁移学习
#论文链接 https://arxiv.org/pdf/1812.03337.pdf
（因数学符号无法正常表示，请参照原文的数学公式阅读）

一.摘要
机器学习依赖于大量训练数据的可用性。然而，在现实中，大多数数据分散在不同的组织中，无法在许多法律和实际约束下轻松集成。在本文中，我们引入了一种新的技术和框架，称为联邦迁移学习(FTL)，以改进数据联合下的统计模型。该联合允许在不损害用户隐私的情况下共享知识，并允许补充知识在网络中可以传输的。因此，目标域方可以利用来自源域方的丰富标签构建更灵活和更强大的模型。一种安全的传输交叉验证方法被提出来保护联合下的FTL性能。该框架需要对现有模型结构进行最小的修改，并提供与非隐私保护方法相同的精确度。该框架非常灵活，能够有效地适应各种安全的多方机器学习任务。

二.介绍
最近的人工智能(AI)成就一直依赖于大量标记数据的可用性。AlphaGo (Silver et al. 2016)使用了16万场实际比赛中的3000万步棋。ImageNet数据集(Deng et al. 2009)拥有超过1400万幅图像。然而，在不同的行业中，更多的应用领域只有很小或质量很差的数据。标记数据非常昂贵，尤其是在需要人类专业知识和领域知识的领域。此外，特定任务所需的数据可能不会保存在一个地方。许多组织可能只有未标记的数据，而其他一些组织的标记数量可能非常有限。这使得组织越来越难以合并它们的数据。例如，由欧盟提出的新法案《一般数据保护条例》(General Data Protection Regulation, GDPR) (EU 2016)实施了许多保护用户安全隐私的条款，禁止组织直接交换数据。如何在满足数据隐私、安全和监管要求的同时，让大量数据量小(样本和特性少)或监管薄弱(标签少)的企业和应用构建有效、准确的人工智能模型，是一个重大挑战。为了克服这些挑战，谷歌首先引入了一个联邦学习(FL)系统(McMahan et al. 2016)，其中一个全球机器学习模型由一个分布式参与者联盟更新，同时将他们的数据保存在本地。它们的框架要求所有贡献者共享相同的特性空间。另一方面，研究了基于特征空间数据分割的安全机器学习(Karr等，2004;Sanil等，2004;Gasc ’ on et al. 2016;杜，韩，陈，2004;Wan等，2007;Hardy等，2017;Nock等，2018)。这些现有方法只适用于联合下的公共特性或公共示例。然而，在现实中，一组共同实体可能很小，从而使联合的吸引力降低，并使大多数不重叠的数据受到损害。在本文中，我们针对这些挑战提出了一个可能的解决方案:联邦迁移学习(FTL)，利用迁移学习技术(Pan et al. 2010)为联邦下的整个样本和特征空间提供解决方案。我们的主要贡献如下:
1.我们在隐私保护设置中引入联邦迁移学习，以提供现有联邦学习方法范围之外的联邦问题的解决方案。
2.我们提供了一个端到端的解决方案，并证明了该方法的收敛性和准确性可与非隐私保护方法相媲美。
3.我们为多方计算和神经网络提供一个采用加法同态加密的新颖的方法,这样只需要对神经网络进行最少的修改而准确性几乎无损,而大多数现有的安全深度学习框架采用隐私保护技术时遭受精的损失。

三.相关工作
·联邦学习和安全的深度学习
近年来，关于加密机器学习的研究激增。例如
·谷歌引入了一种安全聚合方案，在其联邦学习框架下保护聚合用户更新的隐私(Bonawitz等，2017)。
·CryptoNets (Dowlin et al. 2016)采用神经网络计算来处理用同态加密的数据(Rivest、Adleman和Dertouzos 1978)。
·CryptoDL (McMahan等，2016)近似于激活函数在低阶多项式神经网络中实现较低的预测精度损失。
·深度安全学习 (Rouhani, Riazi, Koushanfar 2017)使用姚氏混淆电路协议代替HE（同态加密）进行数据加密。
所有这些框架都是为使用服务器端模型进行加密预测而设计的，因此只适用于推理。SecureML (Mohassel and Zhang 2017)是一种多方计算方案，它使用秘密共享(Rivest, Shamir, and Tauman 1979)和姚氏混淆电路，支持线性回归、逻辑回归和神经网络的协作训练，最近由(Mohassel和Rindal 2018)用三方计算扩展。差异隐私(Dwork 2008)是另一项隐私保护培训工作。它的缺点是原始数据可能被公开且无法对单个实体进行推理。
·迁移学习
迁移学习是一种功能强大的技术，可以为数据集较小或监控能力较弱的应用程序提供解决方案。近年来，将迁移学习技术应用于图像分类(Zhu等，2010)和情绪分析(Pan等，2010;Li等，2017)等多个领域的研究工作取得了长足的进展。迁移学习的性能取决于各领域之间的关联程度。直观地说，相同数据联合中的参与方通常是来自相同或相关行业的组织，因此更容易传播知识。