联邦学习概述

《联邦学习实战》(杨强等著)读书笔记

在过去很长的一段时间里,数据的价值主要体现在作为一种“燃料”,为人工智能模型提供大量的样本训练数据,帮助提升模型的效果。但随着移动互联网的快速发展,数据的规模变得越来越庞大、复杂,数据的价值已经不再局限于训练数据,而是以资产的形式服务于企业,并给企业带来经济收益。

这种经济收益可以体现在两个方面:一方面是数据作用于产品或者业务,间接帮助提高产品的收益,比如各运营商或者社交网络服务商都拥有丰富的用户数据,因此可以基于用户的行为数据、位置信息等,为每个客户构建完善的用户画像,帮助企业深入了解客户行为偏好和需求;另一方面,数据直接与企业收益相关,比如各金融机构有用户的历史逾期数据,一个有效的对逾期客户的识别模型,能够大大降低金融机构的贷款风险,减少潜在的经济损失。数据的资产属性也催生了一种新的商品交易模式:大数据交易。

正是因为数据具有资产的属性,政府、企业乃至个人,都越来越重视数据。但由于相互之间的竞争,各方的数据很难进行共享,导致数据呈现出割裂的状态,影响了极度依赖数据的人工智能的发展。为了满足日益增长的算法设计需要,越来越多的机构开始创建和开源大型的数据集项目。通过这些开源的数据集,一方面能够为深度学习算法设计提供重要的数据“燃料”,另一方面提供了一个较为公平的算法对比基准。

大型的数据集建设虽然对深度学习的发展起到了非常重要的作用,但在现实生活中,像ImageNet这样规模的数据量通过人工标注并众包上传是很困难、甚至是无法实现的。这主要是由于,在现实生活中能够获得的数据,要么规模较小,要么缺少重要信息(如缺少标签信息或者缺少部分特征数值)。这些数据通常不能直接使用,需要进行大量的预处理操作。因此,要获取数量大且质量高的训练数据通常非常困难。

此外,人们对于用户隐私和数据安全的关注度也在不断提高。用户开始更加关注个人隐私信息的使用是否经过本人许可。在法律法规层面,立法机构和监管机构正在考虑出台新的法律来规范数据的管理和使用。

由于前述各方面原因,使得我们过去使用的大数据正面临着严重的数据割裂问题,并呈现出“数据孤岛”的现状,导致在进行人工智能模型训练时无法有效利用各参与方的数据,阻碍了算法模型的效果提升。

为此,人们开始寻求一种方法,它不必将所有数据集中到一个中心存储点就能够训练机器学习模型。一种可行的方法就是:每一个拥有数据源的机构利用自身的数据单独训练一个模型,之后各机构的模型彼此之间进行交互,最终通过模型聚合得到一个全局模型。为了确保用户隐私和数据安全,各机构间交换模型信息的过程会被精心设计,使得没有机构能够猜测到其他任何机构的隐私数据内容。同时,在构建全局模型时,其效果与数据源被整合在一起进行集中式训练的效果几乎一致,这便是联邦机器学习提出的动机和核心思想。

联邦学习时利用分散在各参与方的数据集,通过隐私保护技术融合多方数据信息,协同构建全局模型的一种分布式训练方式。在模型训练过程中,模型的相关信息(如模型参数、模型结构、参数梯度等)能够在各参与方之间交换(交换方式可以是明文、数据加密、添加噪声等),但本地训练数据不会离开本地。这一交换不会暴露本地的用户数据,降低了数据泄露的风险。训练好的联邦学习模型可以在各数据参与方之间共享和部署使用。

联邦学习的设计模式带来了许多益处。它不需要各参与方直接进行数据交换,将模型的训练计算交给了边缘端设备,从而最大化地保障了用户的隐私和数据安全。此外,联邦学习不是单点的训练,而是联合各参与方来协同地训练一个机器学习模型。因此,在通常情况下,全局模型的效果比基于本地数据训练的本地模型效果更好。

根据不同的数据拥有者的数据特征空间和样本ID空间的重叠关系不同,可以将联邦学习划分为横向联邦学习、纵向联邦学习、联邦迁移学习。

联邦学习的主要目的是在保证数据不出本地的前提下,协调各客户端共建模型,因此一项很重要的工作是,如何有效协调数据参与方协同构建模型。根据协调方式的不同,我们可以将它分类为集中式拓扑架构和对等网络拓扑架构。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值