【全文翻译】Preserving Data Privacy via Federated Learning: Challenges and Solutions


摘要-数据一直是各种规模企业的主要优先事项。 随着数据本身随着技术的发展而激增,企业倾向于增强其在数据上下文中的能力并从中汲取新的见解。 联邦学习是保护隐私的机器学习技术的一种特殊形式,可以将数据关联起来。 这是一种分散式培训方法,用于私下收集和培训位于不同地理位置的移动设备提供的数据。 此外,用户可以从获得训练有素的机器学习模型中受益,而无需将其隐私敏感的个人数据发送到云中。 本文重点介绍与通过联合学习保护数据隐私相关的最重大挑战。 讨论了有价值的攻击机制,并针对相应的攻击突出了相关的解决方案。 此外,还讨论了几个研究方面,以及通过联合学习的有希望的未来方向和应用。

作为人类生命的推动力,数据引发了科学技术革命的新潮流。 通过对消费者数据的分析,公司可以预测客户的需求,制定消费圈子,确保更大范围营销利益,使营销更加顺畅。 不知不觉中,人工智能(AI)已渗透到我们生活的方方面面,这促使数据分析成为帮助企业识别机会并避免风险的强大领域。

一些公司甚至建立了专业的数据分析平台,为其他机构提供有效的数据解决方案。 但是,数据似乎是一把“双刃剑”,如果客户,工业或公共数据使用不当和维护不当,也会带来各种个人信息泄露风险。1,2因此,许多组织都强调数据安全性并部署了新的 处理数据类型变化的策略。 例如,欧盟的通用数据保护要求(GDPR)和美国的加州消费者隐私法(CCPA)成功地制定了通过规范企业行为来加强对个人数据和隐私保护的规则。

DATA AND PRIVACY DILEMMA IN AI

如图1所示,“数据岛”的困境和对数据隐私和安全的强调是AI面临的两个新挑战。3这两个挑战是联合学习的原因,这就是联邦学习的分散式训练方法。 前面将讨论图2和3中显示的适合其分辨率的功能和应用。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Data Islands Dilemma

人工智能在其开发过程中经历了某些低点,因此由于缺乏出色的算法和计算能力。 在大数据浪潮的推动下,人工智能已经达到了下一个发展高峰,这就是本应出现在各个行业中的大数据驱动AI实例。当事情变得异常激时,“数据隔离岛”意味着数据在不同部门中被存储,维护和彼此隔离。 在大多数情况下,“数据孤岛”是整合分散在各个组织中的数据的巨大挑战,而且成本可能很高。

Privacy-Preserving Dilemma

随着大数据的发展,专注于数据已成为全球共识隐私和安全。 在经济优势的推动下,公司通常会从许多来源捕获客户数据,例如直接询问客户,跟踪客户并将其他客户数据源附加到自己的数据源中。 然后将数据分析并转化为知识。 在大数据时代,个人在互联网上的行为沉淀为数据,而这些数据的收集最终可能导致个人隐私的泄露。 关于频繁的个人数据泄露事件,个人数据权和机构数据权是不平等的,其中消费者是被动的,而企业是主动的。 这些问题可以通过严格的数据隐私法规来解决。 随着传统的机器学习暴露出越来越多的弊端,寻找新的安全有效的数据收集方法变得至关重要。

PRELIMINARIES OF FEDERATED LEARNING

与使用集中式方法的传统机器学习相比,联邦学习是一种去中心化的训练方法(例如,拆分学习和大批量同步随机梯度下降(SGD)等),这使智能手机可以位于不同的地理位置 协作学习机器学习模型的位置,同时将可能包含私人信息的所有个人数据保留在设备上。 现有的联合学习可以分为三种类型,即水平(或基于样本)联合学习,垂直(或基于特征)联邦学习和联邦转移学习。垂直联邦学习和联合转移学习具有类似类型的原始列-至少涉及两个参与者,并且可以用于保护隐私的机器学习算法。

表一说明了分散式训练方法之间的差异。 同时,引入图4来描述通用机器学习和联合学习之间的差异。 简而言之,联邦学习继承了通用机器学习的大多数功能,但分散式培训却有所不同。另一个区别是,联合学习通过不将敏感数据上载到仅用于共享全局更新的集中式服务器来维护用户的隐私。 通过将培训过程分散到许多设备上,此功能还可以提高效率。 下一节简要介绍了联邦学习的要求和体系结构。
在这里插入图片描述
在这里插入图片描述

Requirements of Federated Learning

联邦学习允许设计机器学习系统而无需直接访问训练数据。 类似于进化从大型机到客户端-服务器设置的计算,联邦学习默认情况下将机器学习分散在隐私的环境中。 联合学习的关键特征:1)通过增加数据来提高性能,2)可以有意义地组合模型,3)边缘设备可以在本地训练模型。

System Architecture of Federated Learning

在联邦学习中,每个边缘设备都会在本地使用其数据训练模型,并将较小的更新发送到中央服务器。 以水平联邦学习技术3为例,如图5所示,详细信息如下:

(1)在服务器中训练全局模型。
(2)将全局模型部署到边缘设备。
(3)从每个边缘设备优化模型。
(4)上传本地训练的模型更新。
(5)对更新值求平均值,并将平均值应用于全局模型。
(6)重复步骤2至步骤5

模型中的更新包含参数和相应的权重,然后将来自各个用户的所有这些更新取平均以改善共享的全局模型。

Two Approaches of Sending Updates

将更新发送到服务器是联合学习成功的第一步。 目前,主要有两种实现方法:联合随机梯度下降(FedSGD)和联邦平均(FedAvg)

FedSGD. FedSGD受SGD的启发,这是统计优化领域中公认的方法。 FedSGD是扩展的SGD,它假设有k个训练数据参与者Pj(j 2½1; k),并且在形成全局目标函数时输入数据中有n个元素。 使用FedSGD时,每个边缘设备都需要将梯度或参数发送到服务器,服务器将梯度或参数取平均值并应用于新参数。 请注意,FedSGD比FedAvg天真,但是需要设备与服务器之间频繁的通信。
FedAvg。 在FedSGD中,每个客户端都使用本地数据对部署的模型执行梯度下降,然后服务器计算所得模型的平均值。 FedAvg的设计是通过为每个应用添加更多计算客户。 具体来说,FedAvg在平均步骤之前多次迭代本地更新。 与FedSGD不同,FedAvg使每个边缘设备能够通过迭代使用梯度下降来训练和更新参数。 因此,即使FedAvg对边缘设备有更高的要求,但与FedSGD相比,其性能也会更好。

在这里插入图片描述

CHALLENGES AND SOLUTIONS

联邦学习通过将培训数据留在源头,从而在分布式机器学习中插入了最明显,最明显的安全问题。它针对各种情况以不同的方式保护用户数据的隐私,例如通过使用不同的隐私和同态加密。许多研究人员3致力于更好地理解要考虑的挑战,并将重点放在效率和准确性上。

Challenge: How to Hide Updates?

在联邦学习中,仅将全局更新发送到中央服务器。 但是,云不受信任,仍然允许从数据所有者那里窃取敏感信息。 例如,Phong等人[4]证明,即使由恶意云获得的梯度中的一小部分,这些部分泄漏的有用信息仍然足以被恶意云利用。 攻击通常会增加神经元和模型中的噪音。
解决方案:完全同态加密(FHE)是应对这一挑战的理想解决方案,其目的是保留密码的结构,例如在加密后可以执行加法和乘法运算。 除了激活函数,神经网络中的所有操作都是求和和乘积运算,可以使用FHE进行编码。 激活函数可以通过高阶多项式,泰勒级数,标准或修正的切比雪夫多项式来近似,然后将其实现为同态加密方案的一部分。 在实践中,FHE似乎是理论上的,并且加性同态加密5被广泛用于评估机器学习算法中的非线性函数,这些算法需要平衡数据隐私和预测精度之间的折衷。 最近,Phong等人4建立了一个增强的系统,以确保没有信息泄漏到服务器。 受4的启发,可以使用某种同态加密来加密所有异步随机梯度并将其存储在云服务器上。 然后,可以将加密的梯度应用于神经网络,其中同态属性(加法和乘法)可实现跨梯度的计算。

Challenge: How to Optimize Communication and Computation Complexity?

在联邦学习中,在智能手机用户编写消息时为他/她预测下一个单词是经典方案之一。 在联邦学习模型中,数百万个动态更新值出现在移动设备之间,并用作神经网络中的参数。 但是,在保证其健壮性的同时,预测和分类用户参与每个更新的过程是一个具有挑战性的问题。

主要原因是移动设备只能偶尔访问电源和网络连接。 另外,难以在移动设备之间建立直接且稳定的通信信道,并且难以本地认证由服务提供商负责的其他设备。 因此,如何减少通信和计算开销决定了在解决功耗与本地训练之间的权衡时,是否可以在实践中采用联合学习。

解决方案:Bonawitz等人[6]讨论了利用安全聚集协议的精神在联合学习中计算多方和的问题。 受到6的工作的启发,得出的结论是,多方计算(MPC)和FHE是联邦学习的两种重要方法,并且上述联邦学习中的挑战可以通过基于FHE的MPC来解决。 具体而言,与基于Garbled Cir Cuit的MPC相比,可以在有限的回合中执行基于FHE的MPC。 因此,为了减少通信和计算开销,可以通过组合轻量级密码原语(例如,秘密),在针对半诚实对手的通用参考字符串模型下,设计基于恒定(最多3个)回合阈值FHE的MPC协议 共享,经过身份验证的加密以及某些FHE。

此外,FHE可以保证更新的私密性和机密性,阈值FHE可以保证该方法可以容忍用户在恢复阶段退出协议(请参见图6)。
在这里插入图片描述

Challenge: How to Defend Inference Attacks?

不管通过联合学习进行有希望的合作,某些攻击已证明机器学习模型的修复过多,以致无法保护用户的隐私。 推理攻击是这些攻击之一。 这意味着攻击者可以通过使用普遍的常识和授权的查询结果来推断其没有授予访问权限的敏感信息。 针对协作学习的推理攻击的概述如图7所示。最近,新的推理攻击[8,9]的出现还很少,这表明有关单独训练数据的信息也可以从模型本身中推断出来。 而最间接的方式只需要能够多次查询模型。
在这里插入图片描述

值得注意的是,Orekondy等人[8]提出了两种针对分散学习的链接能力攻击,以学习模型更新中的通用用户特定模式。 这是将用户个人资料与模型更新相关联的识别攻击,是将两个模型更新彼此相关联的匹配攻击。 此外,Melis等人[9]设计并评估了几种针对协作学习的推理攻击。作者表明,对手可以推断出但是,对于训练数据的某些子集,精确数据点的存在会导致敏感信息的暴露。

解决方案:为了应对上述推理挑战,最常用的方法是差异隐私10,该差异隐私提供了有效和统计上的保证,可防止广告商学习广告。 利用差异隐私的常见做法是在数据中添加噪音,以掩盖敏感项目,以使另一方无法区分个人信息。 因此,不可能恢复原始数据,这意味着推理攻击变得无效。 值得注意的是,训练数据的优先权与所得模型的准确性之间的特定于应用程序的权衡是一个悬而未决的问题,因此,如何选择参数(例如“”)来控制这种权衡是一个中心问题,但是 如本文所述,记录级“差异隐私”是构成成员推断成功的障碍的优雅方法,而不能阻止属性推断。 为了减轻可链接性攻击的风险,根据Orekondy等人[8]的各种策略,要求通过使用校准的特定领域数据增强来减少模型更新中的区别性。 这样的技术可以在对公用事业造成最小影响的情况下提供实现隐私的有希望的结果。

Challenge: How to Prevent Model Poisoning Attacks?

根据这项研究,一个严峻的挑战是存在以下错误行为:客户会引入后门功能,11进行Sybil攻击,12或标签翻转攻击13来毒害全局模型(通常被称为中毒攻击)。 很难断定哪种中毒攻击是最具威胁性的攻击,因为它们会在不同情况下发生。 与推论攻击相反,中毒攻击是在对手将错误数据注入模型的训练池中并有机会了解一些本不该做的事情时发生的。 中毒攻击最常见的结果是模型的后移以某种方式移动(请参见图8)。 实际上,Bagdasaryan等人11证明,可以在联合学习中将隐身后门功能引入全局模型,并基于模型替换设计了一种新方法。 图9中描述了这种攻击的想法。具体地说,攻击者com承诺一个或几个参与者。 使用其新的约束和缩放技术在后门数据上训练模型; 提交结果模型。 在FedAvg之后,全局模型将替换为攻击者的后门模型。
在这里插入图片描述

在这里插入图片描述

解决方案:有多种解决方案可防止模型中毒攻击。 特别是,为了防止后门攻击,Bagdasaryan等人11是具有竞争力的,他分析并评估了几种防御措施,通过将异常检测,耐拜占庭的梯度下降和参与者级别的差异具体结合起来,提出了联合学习的方法 优先权。 同时,为了抵御Sybil攻击,Fung等[14]提出了一种新的防御方法来进行联合学习,并将其命名为FoolsGold。 另外,为了防御模型中毒,Bonawitz等[6]建议使用安全聚合,因为每个参与者的更新对于聚合者都是不可见的。 但是,为减轻已知风险,上述解决方案仅针对在不同地方发生的一种特定类型的攻击。 因此,很难说服哪种解决方案是最好的。 此外,将这些解决方案集成到自动可预测模型中以防止根据实际情况发生中毒攻击是一个悬而未决的问题。检测攻击的类型并相应地确定准确的解决方案可能是一个不错的策略。

为了抵御基于Sybil的中毒攻击,建议采用一种已知的防御措施,即假定可以明确观察到训练数据或可以控制患者。 但是如何根据这些假设将其应用于联邦学习是另一个问题,因为服务器仅触摸每个参与者交互中的更新。 为了防止后门攻击,这似乎是一个候选解决方案,可以将其后门攻击限制在一定范围内,但以牺牲模型性能为代价。 为了防止数据中毒攻击,强烈建议采用参与者级别的差分隐私方法。 具体来说,用于联合学习的参与者级别的差异性隐私在很大程度上依赖于两项先前的工作:FedAvg算法(在用户划分的数据上训练深层网络)以及Abadi等人(15)提供了紧密的组成部分的即时信息。 保证了高斯机制与通过采样放大相结合的重复应用。 参与者级差异性隐私的另一个功能是为每个参与者提供所需的隐私级别。

PROMISING RESEARCH DIRECTIONS

联邦学习非常适合资源受限的移动设备,物联网(IoT),工业传感器应用程序以及其他对隐私敏感的用例。 图10显示了一些通过联合学习实现的有关数据完整性和隐私性的有前途的开放问题,以及基本的研究方向。
在这里插入图片描述

主要研究方面包括基于设备项排名,下一词预测以及基于联邦学习的内容建议等受保护数据的应用。 最近,Google发布了其第一个生产级联合学习平台,以保护隐私的方式操作敏感数据,该方法涵盖了许多基于联合学习的应用程序。 但是,性能和安全性之间的许多折衷都在等待我们探索。 一个快速的问题是如何在用户不需要为了保护更好的服务而牺牲自己的隐私权的情况下训练数据而又不依靠计算资源。 一旦解决,立即且有意义的应用就是在分散环境下为全基因组关联研究(GWAS)和配备FHE的智能医疗保健节省计算成本的隐私。

联邦学习可用于智慧城市的建设。例如,各种政府机构建立了不同的信息系统或数据平台,大型企业,尤其是国有企业,积累了各种海量数据。 建设智能城市,建立信用信息系统是这一过程中的重要里程碑,但需要联邦政府和大型企业的数据共同完成。 特别是,考虑到政府和企业数据的保密性,在政府与企业之间的联合建模中使用联邦学习可以建立完整的信用体系。

此外,通过基于FHE的MPC技术对金融应用程序进行联合学习是另一个研究方向。3特别是,金融行业可以形成需要所有金融机构共同努力的金融数据联盟。但是,重要的障碍之一是,没有人希望以单身的方式共享他/她的数据,而他/她还希望与其他金融机构合作机构。 因此,如何在使用基于FHE的MPC协议保持个人敏感信息的同时进行协作可能是一个重要的方向。

此外,借助5G及更高版本的现代网络,边缘云集成无疑可以帮助更轻松地部署联邦学习机制。 但是,随着5G或更高版本的不同功能的可用性,需要确定服务器的位置以及规划可容纳全局更新的功能。

CONCLUSION

联邦学习正在彻底改变机器学习模型的训练方式。 在本文中,研究了联邦学习中的现有挑战,并为每个问题额外提供了相应解决方案的详细信息。 讨论了针对联邦学习中的相关挑战的几种解决方案,例如如何隐藏更新,如何优化通信和计算复杂性,如何防御推理攻击以及如何防止模型中毒攻击。 可以按照通用方法进行讨论,以构建成熟的解决方案,以通过联邦学习来解决数据的隐私保护。与物联网生态系统,基因组研究,智慧城市和通过联邦学习进行金融应用相关的某些应用程序可能是未来工作的候选领域。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值