Secure Federated Transfer Learning (论文翻译与拓展)

Secure Federated Transfer Learning安全联邦迁移学习(论文翻译与笔记)·摘要机器学习依赖于大量训练数据的可用性。然而,在现实中,大多数数据分散在不同的组织中,无法在许多法律和实际约束下轻松集成。在本文中,我们引入了一种新的技术和框架,称为联邦迁移学习(FTL),以改进数据联合下的统计模型。该联合允许在不损害用户隐私的情况下共享知识,并允许补充知识在网络中可以传...
摘要由CSDN通过智能技术生成

Secure Federated Transfer Learning

安全联邦迁移学习
#论文链接 https://arxiv.org/pdf/1812.03337.pdf
(因数学符号无法正常表示,请参照原文的数学公式阅读)

一.摘要
机器学习依赖于大量训练数据的可用性。然而,在现实中,大多数数据分散在不同的组织中,无法在许多法律和实际约束下轻松集成。在本文中,我们引入了一种新的技术和框架,称为联邦迁移学习(FTL),以改进数据联合下的统计模型。该联合允许在不损害用户隐私的情况下共享知识,并允许补充知识在网络中可以传输的。因此,目标域方可以利用来自源域方的丰富标签构建更灵活和更强大的模型。一种安全的传输交叉验证方法被提出来保护联合下的FTL性能。该框架需要对现有模型结构进行最小的修改,并提供与非隐私保护方法相同的精确度。该框架非常灵活,能够有效地适应各种安全的多方机器学习任务。

二.介绍
最近的人工智能(AI)成就一直依赖于大量标记数据的可用性。AlphaGo (Silver et al. 2016)使用了16万场实际比赛中的3000万步棋。ImageNet数据集(Deng et al. 2009)拥有超过1400万幅图像。然而,在不同的行业中,更多的应用领域只有很小或质量很差的数据。标记数据非常昂贵,尤其是在需要人类专业知识和领域知识的领域。此外,特定任务所需的数据可能不会保存在一个地方。许多组织可能只有未标记的数据,而其他一些组织的标记数量可能非常有限。这使得组织越来越难以合并它们的数据。例如,由欧盟提出的新法案《一般数据保护条例》(General Data Protection Regulation, GDPR) (EU 2016)实施了许多保护用户安全隐私的条款,禁止组织直接交换数据。如何在满足数据隐私、安全和监管要求的同时,让大量数据量小(样本和特性少)或监管薄弱(标签少)的企业和应用构建有效、准确的人工智能模型,是一个重大挑战。为了克服这些挑战,谷歌首先引入了一个联邦学习(FL)系统(McMahan et al. 2016),其中一个全球机器学习模型由一个分布式参与者联盟更新,同时将他们的数据保存在本地。它们的框架要求所有贡献者共享相同的特性空间。另一方面,研究了基于特征空间数据分割的安全机器学习(Karr等,2004;Sanil等,2004;Gasc ’ on et al. 2016;杜,韩,陈,2004;Wan等,2007;Hardy等,2017;Nock等,2018)。这些现有方法只适用于联合下的公共特性或公共示例。然而,在现实中,一组共同实体可能很小,从而使联合的吸引力降低,并使大多数不重叠的数据受到损害。在本文中,我们针对这些挑战提出了一个可能的解决方案:联邦迁移学习(FTL),利用迁移学习技术(Pan et al. 2010)为联邦下的整个样本和特征空间提供解决方案。我们的主要贡献如下:
1.我们在隐私保护设置中引入联邦迁移学习,以提供现有联邦学习方法范围之外的联邦问题的解决方案。
2.我们提供了一个端到端的解决方案,并证明了该方法的收敛性和准确性可与非隐私保护方法相媲美。
3.我们为多方计算和神经网络提供一个采用加法同态加密的新颖的方法,这样只需要对神经网络进行最少的修改而准确性几乎无损,而大多数现有的安全深度学习框架采用隐私保护技术时遭受精的损失。

三.相关工作
·联邦学习和安全的深度学习
近年来,关于加密机器学习的研究激增。例如
·谷歌引入了一种安全聚合方案,在其联邦学习框架下保护聚合用户更新的隐私(Bonawitz等,2017)。
·CryptoNets (Dowlin et al. 2016)采用神经网络计算来处理用同态加密的数据(Rivest、Adleman和Dertouzos 1978)。
·CryptoDL (McMahan等,2016)近似于激活函数在低阶多项式神经网络中实现较低的预测精度损失。
·深度安全学习 (Rouhani, Riazi, Koushanfar 2017)使用姚氏混淆电路协议代替HE(同态加密)进行数据加密。

所有这些框架都是为使用服务器端模型进行加密预测而设计的,因此只适用于推理。SecureML (Mohassel and Zhang 2017)是一种多方计算方案,它使用秘密共享(Rivest, Shamir, and Tauman 1979)和姚氏混淆电路,支持线性回归、逻辑回归和神经网络的协作训练,最近由(Mohassel和Rindal 2018)用三方计算扩展。差异隐私(Dwork 2008)是另一项隐私保护培训工作。它的缺点是原始数据可能被公开且无法对单个实体进行推理。
·迁移学习
迁移学习是一种功能强大的技术,可以为数据集较小或监控能力较弱的应用程序提供解决方案。近年来,将迁移学习技术应用于图像分类(Zhu等,2010)和情绪分析(Pan等,2010;Li等,2017)等多个领域的研究工作取得了长足的进展。迁移学习的性能取决于各领域之间的关联程度。直观地说,相同数据联合中的参与方通常是来自相同或相关行业的组织,因此更容易传播知识。

四.问题定义
假设一个源域数据集DA:= {(xAi, yAi)}NA i=1,其中xAi∈Ra和yAi∈{+1,;1}是第i个标签,目标域DB:= {xBj}NB j=1,其中xBj∈Ra。DA、DB分别由两个私有方持有,不能相互公开。我们还假设在甲方:存在一组有限的共发生样本DAB:= {(xAi, xBi)}NAB i=1和一小组存在A方的标签B:Dc:= {(xBi, yAi)}Nc i=1,其中Nc为可用目标标签的数量。不失一般性,我们假设所有的标签都在A方,但是这里所有的推论可以在标签存在B方的情况下做调整 。我们可以通过加密技术例如RSA方案掩饰数据ID来找到共享样本ID设置 。这里我们假设A和B已经找到或者都知道它们的共享样例ID。在上述背景下&#

  • 5
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值