联邦学习攻击与防御综述

联邦学习攻击与防御综述

吴建汉1,2, 司世景1, 王健宗1, 肖京1

1.平安科技(深圳)有限公司,广东 深圳 518063

2.中国科学技术大学,安徽 合肥 230026

摘要随着机器学习技术的广泛应用,数据安全问题时有发生,人们对数据隐私保护的需求日渐显现,这无疑降低了不同实体间共享数据的可能性,导致数据难以共享,形成“数据孤岛”。联邦学习可以有效解决“数据孤岛”问题。联邦学习本质上是一种分布式的机器学习,其最大的特点是将用户数据保存在用户本地,模型联合训练过程中不会泄露各参与方的原始数据。尽管如此,联邦学习在实际应用中仍然存在许多安全隐患,需要深入研究。对联邦学习可能受到的攻击及相应的防御措施进行系统性的梳理。首先根据联邦学习的训练环节对其可能受到的攻击和威胁进行分类,列举各个类别的攻击方法,并介绍相应攻击的攻击原理;然后针对这些攻击和威胁总结具体的防御措施,并进行原理分析,以期为初次接触这一领域的研究人员提供详实的参考;最后对该研究领域的未来工作进行展望,指出几个需要重点关注的方向,帮助提高联邦学习的安全性。

关键词 联邦学习 ; 攻击 ; 防御 ; 隐私保护 ; 机器学习

0274688cf25321e3b5ce1d5f940cded0.jpeg

论文引用格式:

吴建汉, 司世景, 王健宗, 等. 联邦学习攻击与防御综述[J]. 大数据, 2022, 8(5): 12-32.

WU J H, SI S J, WANG J Z, et al. Threats and defenses of federated learning: a survey[J]. Big Data Research, 2022, 8(5): 12-32.

a2e8eae60b4449b388e408211c3ffe76.jpeg

0 引言

随着数字技术进入高速发展期,数据多元化、信息化和多样化成为当今时代的主题。打破“数据孤岛”并充分利用数据已成为当下的热门话题。传统的中心服务器统一训练方式已经显现出众多安全问题。联邦学习(federated learning, FL)是一种安全的分布式机器学习,可以在数据不离开本地的前提下共同训练全局模型,达到保护隐私的目的。联邦学习的主要特征包括:允许模型在不同的公司、设备和云之间进行通信;使用数据而不窥探数据隐私。其具体框架如图1所示,实现过程是:首先将联邦学习的全局模型发送给本地客户端进行训练,随后客户端将更新的模型参数上传至中央服务器,服务器进行一系列安全聚合处理后更新全局模型,再发送给客户端,从而使用户能够享受经过强大数据集中训练的全局模型,同时还能保证自身的隐私不被泄露。这些特征使联邦学习符合许多安全规则,例如《通用数据保护条例》(GDPR)。

f8761c68917c7e0249d63005dc1694ca.jpeg

图1   联邦学习框架

联邦学习于2016年被首次提出,主要用来对联合存储在多个终端(如手机)中的数据进行中心化模型训练,主要应用在输入法改进等场景。如谷歌的Gboard能够在用户多次使用相关词汇之后,在输入时为用户推荐单词和表情,与传统推荐系统不同,这是在不获取用户隐私的前提下,在极大程度上依赖移动设备自身完成的训练。随着数据安全问题频繁出现,联邦学习日益流行,学术界和产业界开始研究整个技术系统,越来越多的公司开始尝试把联邦学习作为打通多方数据的解决方案。随后出现了许多实用的联邦学习案例,如腾讯的Angel、百度的PaddleFL和平安科技的“蜂巢”等。

根据数据的存储分布和用户的重叠程度,联邦学习可分为横向联邦学习、纵向联邦学习和联邦迁移学习。横向联邦学习针对的是数据特征重叠较多而用户重叠较少的情况。例如,某一地区的银行和另一地区的银行一般不能在没有用户许可的情况下共享两个地区的用户数据,如果要使用双方的数据联合训练机器学习模型,使数据得到充分利用,横向联邦学习可以很好地实现数据的安全利用。纵向联邦学习针对的是数据特征重叠较少而用户重叠较多的情况。例如对于同一区域中的银行和保险数据,纵向联邦学习能够达到协同利用此类数据的目的。联邦迁移学习针对数据特征和用户都没有太多重叠的情况。在联邦迁移学习中,来自不同特征空间的特征会被迁移到同一个隐表示空间中,然后利用不同参与方收集的标注数据中的标签进行训练。联邦学习将数据保存在用户本地的做法可以在一定程度上保护隐私,但在具体实践和研究中仍然存在许多隐患,需要进一步的研究与发展。

现有的联邦学习攻击与防御综述大多基于特定攻击对象和性质进行分类与分析,这样分类往往要求读者了解联邦学习的基础知识,从而给初次接触联邦学习的读者带来一定的困难。与之前的联邦学习攻击与防御综述文献不同,本文对联邦学习框架的各个层面进行分类,对联邦学习可能受到的攻击及相应的防御措施进行详实的分析,这不仅可以使读者清楚地了解联邦学习框架,还可以更加清晰地了解联邦学习的攻击和防御。

本文的主要贡献如下:

● 以一种比较新颖的分类方法详细地介绍了联邦学习可能受到的攻击及相应的防御措施,并对联邦学习攻击与防御的典型方法和最新方法进行了介绍;

● 以图片的形式形象地呈现了联邦学习可能受到的攻击,并对相应的防御措施进行了详实的介绍和分析;

● 根据联邦学习的特性与现状,本文对联邦学习进行了多方位的展望,并对一些具体问题提出解决思路。

1 联邦学习中的攻击类型

联邦学习提供一种新的范式来保护用户隐私,能够大规模执行机器学习任务,与传统的机器学习不同,根据其独特的结构,联邦学习系统应该抵御4个层面的潜在攻击者:客户端、聚合器、局外人或窃听者、服务器。本节根据这4个层面的潜在攻击者对联邦学习可能受到的攻击进行分类,分别为数据中毒、模型攻击、推理攻击、服务器漏洞,并对这些攻击进行剖析。

1.1 数据中毒

数据中毒是指攻击者将部分恶意数据或篡改数据添加到训练数据集中,使训练后的模型符合攻击者的期望,达到破坏模型或篡改模型结果的目的。数据中毒示意图如图2所示,其中∆w为本地模型参数。根据攻击者是否更改数据标签,可将数据中毒分为两类:干净标签中毒攻击和脏标签中毒攻击。干净标签中毒攻击是一种不会修改数据标签的攻击,只添加部分恶意数据,其是针对性的攻击。由于中毒数据的标签不会被修改,中毒数据可以很容易地被模型接受并训练,因此这种攻击的成功率比较高。但是,要想获得良好的攻击效果,就需要精心设计攻击数据。参考文献提出一种基于数学优化的方法来设计中毒攻击,并设计实验证明了在迁移学习框架中,只需要一种类别的中毒数据就可以使分类器出现错误。脏标签中毒攻击是指攻击者通过恶意篡改数据的标签来达到攻击目的,攻击者只需将其希望篡改的目标类别数据与干净数据混为一体,然后集中训练即可进行脏标签中毒攻击。脏标签中毒攻击的一个典型例子是标签翻转攻击,即一类干净训练样本的标签被翻转到另一类,而数据的特征保持不变。例如,系统中的恶意客户端可以通过将所有1转换为7来毒化数据集,攻击成功后,模型将无法正确分类1。参考文献中的实验表明,在训练数据集中加入约50个中毒样本,就能使深度网络无法进行正确分类。此外,参考文献提出一种利用标签翻转攻击实现针对某种类别标签的攻击,即只对受到攻击的类别标签有很大的影响,而基本不影响未受到攻击的类别标签。这种攻击手段可以避免很多防御措施,且危害性极大,作者在CIFAR-10和Fashion-MNIST数据集上进行了效果展示,实验表明,当存在20%的恶意用户进行攻击时,就可使分类精度和召回率明显下降。

8cb06c673a502212b69d706fc128d859.jpeg

图2   数据中毒示意图

还有一种常见的攻击为数据后门中毒攻击,攻击者修改原始训练数据集的单个特征或小区域,然后将其作为后门嵌入模型中。如果输入中包含后门特征,模型就会根据攻击者的目标运行,而中毒模型在干净输入数据上的性能不受影响,这导致攻击更难被发现,攻击成功率较高。参考文献在CIFAR-10数据集上展示了它的攻击效果,结果表明,即使在联邦安全平均算法的条件下,也可以在恶意参与者较少的情况下嵌入后门攻击。

值得注意的是,任何联邦学

  • 0
    点赞
  • 64
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值