联邦元学习综述

联邦元学习结合联邦学习和元学习的优势,旨在解决数据隐私、异构性及通信受限问题。它允许在不交换数据的情况下训练个性化模型,适应不同设备间的数据不平衡。文章介绍了联邦学习的基本概念、训练过程和挑战,以及元学习的定义和分类。联邦元学习算法主要分为面向数据异构、资源挑战和隐私保护的解决方案。应用案例包括信用卡欺诈检测、分布式通信设备数据处理和个性化推荐系统。未来的研究将关注数据异构、隐私保护和通信环境的挑战,以及元学习在联邦学习中的更深度融合。
摘要由CSDN通过智能技术生成

联邦元学习综述

张传尧1,2, 司世景1, 王健宗1,肖京1

1 平安科技(深圳)有限公司,广东 深圳 518063

2 中国科学技术大学,安徽 合肥 230026

摘要随着移动设备的普及,海量的数据在不断产生。数据隐私政策不断细化,数据的流动和使用受到严格监管。联邦学习可以打破数据壁垒,联合利用不同客户端数据进行建模。由于用户使用习惯不同,不同客户端数据之间存在很大差异。如何解决数据不平衡带来的统计挑战,是联邦学习研究的一个重要课题。利用元学习的快速学习能力,为不同数据节点训练不同的个性化模型来解决联邦学习中的数据不平衡问题成为一种重要方式。从联邦学习背景出发,系统介绍了联邦学习的问题定义、分类方式及联邦学习面临的主要问题。主要问题包括:隐私保护、数据异构、通信受限。从联邦元学习的背景出发,系统介绍了联邦元学习在解决联邦学习数据异构、通信受限问题及提高恶意攻击下鲁棒性方面的研究工作,对联邦元学习的工作进行了总结展望。

关键词联邦学习 ; 元学习 ; 数据异构 ; 联邦元学习 ; 隐私保护

cd67ef2338a79662c56884e1f07f28e7.jpeg

论文引用格式:

张传尧, 司世景, 王健宗, 等. 联邦元学习综述[J]. 大数据, 2023, 9(2): 122-146.

ZHANG C Y, SI S J, WANG J Z, et al. Federated meta learning: a review[J]. Big Data Research, 2023, 9(2): 122-146.

4f288fb5652ad8aba82844dfcfa0df24.jpeg

0 引言

随着移动设备的普及,海量的数据在不断产生,合理有效地利用这些数据成为重点研究方向。由于隐私政策的保护,很多数据不能被轻易地获取,数据间相互隔离,形成了一个个数据“孤岛”。如何建立数据“孤岛”间沟通的桥梁,打破数据之间的界限,成为一个热点问题。联邦学习为解决该问题提供了一个新的方向。

联邦学习在满足数据隐私要求、保护数据安全、遵守政府法规的前提下,进行数据的使用和建模,即通过只在各节点间传递模型参数,而不分享节点间数据的方式训练一个共享的数据模型。许多早期的研究旨在在数据不公开的情况下分析和利用分布在不同所有者手中的数据。早在20世纪80年代,对加密数据进行计算的研究就已经展开,直到2016年,谷歌研究院正式提出联邦学习这一术语,对分布式数据的隐私保护研究才开始归于一类。联邦学习成为解决数据隐私保护问题的一个有力工具。

在传统的机器学习中,通常需要大量的数据样本进行训练,才能获得一个较好的模型。例如在神经网络中,需要大量的标签数据进行模型训练,才能使模型具有良好的分类效果,并且一个训练好的神经网络模型往往只能解决某一类问题。在某些情况下,数据本身是稀缺的,大量的有标签数据是不容易获得的,往往只有少量的样本能够进行数据训练。人类可以通过少量的某一类动物的图片学习到这种动物的概念,再见到这种动物时能够很快地识别出来。这种通过少量样本图片快速学习到新概念的能力,对应机器学习中元学习的概念。元学习的训练目标是训练一个模型,这个模型只需要通过少量的数据和迭代训练就可以快速适应新的任务,即训练一个具有很强适应能力的模型。元学习能够很好地解决训练数据不足的问题。元学习算法由两个部分构成:基础学习者和元学习者。基础学习者在单个任务的水平上工作,其特征在于只有一小组标记的训练图像可用。元学习者从几个这样的情节中学习,目的是提高基础学习者在不同情节中的表现。一般认为元学习系统应当具有以下3个特征:拥有一个基础学习子系统;具有能够利用先前的经验获取知识的能力;能够动态地选择学习偏差。

元学习的早期研究工作主要集中在教育科学相关的领域,主要研究并控制自身的学习状态。随着机器学习的发展,元学习开始进入机器学习领域。元学习的第一个例子出现在20世纪80年代,参考文献提出了一个描述何时可以动态调整学习算法归纳偏差,从而隐式地改变其假设空间元素顺序的框架。参考文献提出具有两个“嵌套学习层”的元学习方法。元学习可以跨越多个问题进行经验的积累,以适应基础假设空间。

考虑联邦学习在解决异构数据训练方面的需求和元学习在多任务模型上的良好表现,利用元学习训练一个个性化的联邦学习算法成为一种选择。现有的联邦学习主要是利用不同的数据节点联合训练一个统一的全局模型,这种统一的全局模型不利于解决数据的非独立同分布问题。联邦元学习为不同的数据节点训练单独的数据模型,这种多模型的训练方式可以直接捕捉客户端间的数据不平衡关系,使它们很适合解决联邦学习的数据不平衡问题。

1 联邦学习简介

1.1 问题定义

联邦学习在满足数据隐私要求、保护数据安全、遵守政府法规的前提下,进行数据的使用和建模,即通过只在各节点间传递模型参数,而不分享节点间数据的方式训练一个共享的数据模型。联邦学习不需要交换各数据节点间的数据,各节点间仅交换共享数据模型的参数,以保护用户的隐私安全。

定义n个数据拥有者{ f1,f2,…,fn},不同数据拥有者 fi的本地目标用Fi(ω)表示,它们各自拥有自己的数据{ D1,D2,…,Dn},并希望利用这些数据训练机器学习模型。传统的机器学习方法是利用数据D=D1D2∪…∪Dn 训练一个机器学习模型ωsum。在联邦学习中,服务器端使用聚合函数G(·)聚合来自不同数据拥有者的模型参数。数据拥有者在保护自身数据安全、互相不交换本地数据的情况下共同训练一个模型ωfed。联邦学习的全局目标定义如式(1)所示:

d641546dde69b6bd4040be62a6ee90d0.png

模型ωfed的精度vfed应当非常接近模型ωsum的精度vsum。如果存在非负实数δ使得式(2)成立:

88dbfd735c2946e843ac905a0527566e.png

则称联邦学习算法具有δ精度损失。

1.2 联邦学习的训练过程

随着联邦学习研究的开展,各种各样的联邦学习框架被开发出来。例如微众银行的FATE已经覆盖了3种联邦学习:横向联邦学习、纵向联邦学习、联邦迁移学习。谷歌开源的Tensor/IO已经可以较好地支持横向联邦学习。尽管不同的算法框架(例如PySyft、FFL-ERL、CrypTen、LEAF、TFF)对联邦学习的支持不同,但是联邦学习的主要训练过程均可以分为以下4步。①中心服务器将最新的模型分发给各数据节点;②各数据节点利用本地数据更新模型;③各训练节点将更新的模型参数加密传送给中心服务器,中心服务器聚合各节点的参数,得到新的模型参数;④中心服务器将更新后的模型参数发送给各节点,节点更新本地模型参数,并进行下一轮训 练。联邦学习训练过程如图1所示。

e0331469cb6ae9dded1d2378f02341ac.jpeg

图1   联邦学习训练过程

1.3 联邦学习特点

联邦学习与传统机器学习存在很大不同,具体见表1。联邦学习的分布式环境设置导致不同数据节点的地理位置可能不同,用户的使用习惯存在差异,从而影响数据的分布。不同数据节点间是非独立同分布的,任何一个数据节点都不能代表整个数据集的分布。设备环境是否稳定也是影响联邦学习的一个重要因素,有限的网络通信速率要求找到一种合适的方式提高设备间的通信效率,同时还要避免因环境不稳定导致的设备随机加入与退出。隐私保护是联邦学习最基本的属性要求,当中间结果与数据结构一起暴露时,可能造成数据的泄露。因此如何解决数据非独立同分布问题,提高通信效率,如何进行隐私保护成为联邦学习的关键。

246b55838f282c5e0642407b52934841.png

1.3.1 数据隐私保护

隐私性是联邦学习的基本属性,如果不能做到对数据的隐私进行有效保护,联邦学习将失去可靠性,不同的数据“孤岛”也不会将自己的数据贡献出来用于数据训练。联邦学习在参数更新过程中,交换了工作的中间结果,因此不同数据方更容易受到推理攻击,敌对的参与方可以推断出训练数据子集的相关属性。在数据交换时,隐私保护的方式有很多种,例如在机器学习期间通过加密机制下的参数交换来保护用户数据隐私,或者使用差分隐私的方式保护数据。安全多方计算、安全聚合也是常用的隐私保护手段。其中,使用差分隐私方式保护数据隐私的方法通过向数据加入噪声的方式掩盖真实的数据,但是加入的噪声可能会影响最终结果的准确度。如何确定加入的噪声量是一个值得研究的问题,加入的噪声太多会导致计算结果失去准确性,加入的噪声不足则导致隐私保护效果不好。

1.3.2 数据非独立同分布

身份、性格、环境的差异导致由用户产生的数据集可能存在很大的差异,训练样本并不是均匀随机地分布在不同的数据节点间的。不平衡的数据分布可能导致模型在不同设备上的表现出现较大偏差。因此在进行联邦学习前,如何选取有效的数据集进行数据处理是一个重要的问题。要解决联邦学习中的数据非独立同分布问题,主要的思路有两种,一种是通过优化模型聚合的方法降低数据不平衡带来的影响,另一种是通过优化本地模型的更新过程解决联邦学习的统计挑战问题。参考文献提出了一种基于迭代模型平均的深层网络联合学习方法,该方法对于不平衡和非独立同分布是稳健的。参考文献提出通过每个设备上的类别分布和人口分布之间的地球移动者距离来量化数据集间的差异,并创建一个在所有边缘设备之间全局共享的数据子集来改进对非独立同分布数据的训练。

1.3.3 通信环境受限

在联邦学习中,中心服务器与计算节点间的物理距离很远,通信成本较高,且由于计算节点环境的不稳定性,可能随时存在计算节点加入和退出的情况,因此联邦学习一般应选取网络环境稳定免费且计算节点空闲时进行。通信成本成为制约联邦训练的主要因素,因此如何对设备间的通信进行压缩是一个值得研究的问题,可以通过减小客户端传送到服务器的对象的大小、减小从服务器向客户端广播的模型大小、客户端从全局模型开始培训本地模型等方法降低对通信链路的要求。参考文献中给

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值