联邦学习算法综述

点击上方蓝字关注我们

联邦学习算法综述

王健宗1 ,孔令炜1 ,黄章成1 ,陈霖捷1 ,刘懿1 ,何安珣1 ,肖京2 

1. 平安科技(深圳)有限公司,广东 深圳 518063

2. 中国平安保险(集团)股份有限公司,广东 深圳 518031

摘要近年来,联邦学习作为解决数据孤岛问题的技术被广泛关注,已经开始被应用于金融、医疗健康以及智慧城市等领域。从3个层面系统阐述联邦学习算法。首先通过联邦学习的定义、架构、分类以及与传统分布式学习的对比来阐述联邦学习的概念;然后基于机器学习和深度学习对目前各类联邦学习算法进行分类比较和深入分析;最后分别从通信成本、客户端选择、聚合方式优化的角度对联邦学习优化算法进行分类,总结了联邦学习的研究现状,并提出了联邦学习面临的通信、系统异构、数据异构三大难题和解决方案,以及对未来的期望。

关键词联邦学习, 算法优化, 大数据, 数据隐私

论文引用格式:

王健宗,孔令炜,黄章成, 等. 联邦学习算法综述[J]. 大数据, 2020, 6(6): 64-82.

WANG J Z, KONG L W, HUANG Z C, et al. Research review of federated learning algorithms[J]. Big Data Research, 2020, 6(6): 64-82.


1 引言

随着数字化技术进入高速发展期,大数据和人工智能等技术迎来爆发式发展,这一方面为传统业态带来了升级变革的新机遇,另一方面不可避免地给数据和网络安全带来了全新的挑战,而数据孤岛问题是关键挑战之一。纵向来看,行业顶尖的巨头公司垄断了大量的数据信息,小公司往往很难得到这些数据,导致企业间的层级和差距不断拉大;横向来看,同一层级不同行业的公司,由于系统和业务的闭塞性与阻隔性,很难实现数据信息的交流与整合,联合建模需要跨越重重壁垒。

针对上述人工智能行业目前面临的痛点,联邦学习给出了答案。联邦学习是由谷歌研究院在2016年率先提出的概念。该技术可在数据不共享的情况下完成联合建模。具体来讲,各个数据拥有者(个人/企业/机构)的自有数据不会离开本地,通过联邦系统中加密机制下的参数交换方式(即在不违反数据隐私法规的情况下)联合建立一个全局的共享模型,建好的模型在各自的区域只为本地的目标服务。尽管联邦学习和分布式机器学习有部分相似的地方,但是在应用领域、系统设计、优化算法方面,联邦学习有自己的特征。在数据量庞大、所需计算资源较高时,分布式机器学习(如参数服务器)有明显的优势,它将独立同分布(independently identically distribution,IID)的数据或模型参数存储在各个分布式节点上,中心服务器调动数据和计算资源,联合训练模型。因客户端的地理、时间等分布差异,联邦学习经常要处理非独立同分布(nonIID)的数据。本文结合联邦学习的现状,对联邦学习系统进行分层,按模块整理联邦学习目前取得的相关成果。

联邦学习算法结构如图1所示。

为了整合多个来源的数据,当前比较普遍的做法是通过数据预处理ETL(extracttransform-load)工具将不同源的数据移动到关系数据库中,将具有庞大计算量的任务部署到多台机器上,以提升计算效率,减少任务耗能。

图1   联邦学习算法结构

2 联邦学习概述

2.1 联邦学习的定义

2016年,谷歌研究院在解决面向用户个体的键盘输入法优化问题时,提出了联邦学习这一全新的人工智能解决方案。联邦学习面向的场景是分散式多用户 ,每个用户客户端拥有当前用户的数据集 。传统的深度学习将这些数据收集在一起,得到汇总数据集,训练得到模型MSUM。联邦学习方法则是由参与的用户共同训练一个模型MFED,同时用户数据Di保留在本地,不对外传输。如果存在一个非负实数δ,使得MFED的模型精度VFED与MSUM的模型精度VSUM满足如下不等式:

则称该联邦学习算法达到δ-精度损失。联邦学习允许训练模型存在一定程度的性能偏差,但是为所有的参与方提供了数据的安全性和隐私保护。联邦学习常用的框架有两种,一种是客户端-服务器架构,另一种是对等网络架构。在客户端-服务器架构中,联邦学习的训练方式是让各个数据持有方根据自己的条件和规则在本地训练模型,然后将脱敏参数汇总到中央服务器进行计算,之后再下发回各个数据持有方更新自己本地的模型,直至全局模型稳健为止。在对等网络架构中进行联邦学习训练时,参与方之间可以直接通信,不需要借助第三方,安全性得到了进一步提高,但是需要更多的计算操作进行加密和解密。目前的研究更多的是基于第三方服务器的框架。因此本文着重介绍客户端-服务器架构的联邦学习流程。

2.2 客户端-服务器架构的联邦学习流程

在物理层面上,联邦学习系统一般由数据持有方和中心服务器组成。各数据持有方的本地数据的数量或特征数可能并不足以支持一次成功的模型训练,因此需要其他数据持有方的支持。而联邦学习中心服务器的工作类似于分布式机器学习的服务器,其收集各数据持有方的梯度,并在服务器内进行聚合操作后返回新的梯度。在一次联邦学

  • 9
    点赞
  • 160
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值