联邦学习入门(一)-Advances and Open Problems in Federated Learning详解

本文主要是联邦学习的入门级笔记,主要参考了论文Advances and Open Problems in Federated Learning和微众银行的联邦学习白皮书,笔者作为初次接触该领域的小白,对感觉必要的知识做一个总结和记录。

本文首发于我的个人博客
原文请点击这里!!!!!

定义

联邦学习(Federated Learning简称FL)是一种机器学习设置,其中多个实体(客户端)在中央服务器或服务提供商的协调下协作解决机器学习问题。每个客户的原始数据都存储在本地,并且不会交换或转移;从而代替了用于立即聚合的有针对性的更新用于实现学习目标。

分类(Yang分类):

  • 横向联邦学习
  • 纵向联邦学习
  • 迁移联邦学习

另一种分类方式:

  • 跨设备:Gboard移动硬盘
  • 跨孤岛:医疗数据联邦学习

典型过程

  1. 客户端选择: 服务器从一组符合资格要求的客户端中采样。例如,为避免影响设备用户,移动电话可能仅在未计量的wi-fi连接上插入且处于空闲状态时才签入服务器。
  2. 传播: 选定的客户端从服务器下载当前模型权重和训练程序。
  3. 客户端计算: 每个选定的设备都通过执行训练程序在本地计算对模型的更新,例如,可以在本地数据上运行SGD(如联邦平均)。
  4. 聚合: 服务器收集设备更新的汇总。为了提高效率,一旦有足够数量的设备报告了结果,用户就可以在此处放散手。此阶段也是许多其他技术的集成点,这些技术将在后面讨论,可能包括:用于增加隐私的安全聚合,为了通信效率而对聚合进行有损压缩,以及针对差分隐私的噪声添加和更新限幅。
  5. 模型选择: 服务器根据从参与当前轮次的客户端计算出的聚合更新在本地更新共享模型。

客户端计算,聚合和模型更新阶段的分离并不是对联邦学习的一个严格要求,并且确实排除了某些种类的算法,例如异步SGD,其中每个客户端的更新在应用之前都会立即应用于模型与其他客户端的更新进行汇总。这样的异步方法可以简化系统设计的某些方面,并且从优化角度来看也是有益的(尽管这一点尚有争议)。

联邦学习面临的挑战

1.非独立同分布的数据

2.有限通信带宽

3.不可靠和有限的设备

什么是Non-IID非独立同分布数据?

下面列举了数据偏离同分布的一些常见方式,即对于不用的客户端 i i i和客户端 j j j的分布不同 P i ≠ P j P_i \not= P_j Pi=Pj。我们将 P i ( x , y ) P_i(x,y) Pi(x,y)重写为 P i ( y ∣ x ) P i ( x ) P_i(y|x)P_i(x) P

### 回答1: 联邦学习中的进展和开放问题包括以下几个方面: 1. 安全性:如何保证在联邦学习过程中数据的隐私和安全性,防止数据泄露和恶意攻击。 2. 通信效率:如何在保证数据隐私的前提下,提高联邦学习的通信效率,减少通信成本和延迟。 3. 模型聚合:如何在联邦学习中进行模型聚合,使得各个参与方的模型能够合理地融合,提高模型的准确性和泛化能力。 4. 联邦学习框架:如何设计更加通用和灵活的联邦学习框架,以适应不同的应用场景和数据类型。 5. 联邦学习应用:如何将联邦学习应用到更多的实际场景中,如医疗、金融、物联网等领域,解决实际问题。 ### 回答2: 联邦学习种新兴的分布式学习方式,它可以在保护隐私的前提下,通过联合多个参与者的本地数据来训练机器学习模型。当前,联邦学习面临着些挑战和未解决问题,以下是联邦学习中不断发展的前沿和未解决的问题: 1. 隐私保护:隐私保护直是联邦学习的核心问题,尤其是数据安全性和安全性是实验室研究和实际企业需求的主要问题,寻找能够在不破坏隐私的情况下改进联邦学习的方法是十分必要的。 2. 模型聚合:在联邦学习中,各个参与设备的本地模型都需要被集成起来,进行全局模型的更新。如何有效地聚合来自不同设备的模型参数是个重要的问题,目前常用的方法是简单地平均模型参数,但这种方法可能会受到数据分布不均衡的影响,并且权重配置方面面临挑战,所以应该针对现有的问题考虑更好的聚合算法。 3. 非IID数据:个常见的情况是存在非独立的数据来源,这种情况下,数据分布可能会因为在不同设备上出现了较大变化,从而影响联合学习的性能。处理非独立同分布数据的联邦学习算法是个挑战,需要通过更好地定义合适的数据模型,或者使用分层或聚合方法,才能提高模型的泛化能力。 4. 模型安全性:在联邦学习过程中,参与者将模型参数传输到中央服务器中,这可能会受到安全问题的影响。为了保持安全,需要使用更好的隐私保护技术和安全学习算法来保护参与者的数据和模型。 5. 扩展性:联邦学习模型需要大量的计算能力和通信带宽。随着参与者数量的增加,交通瓶颈和计算压力可能会成为瓶颈,因此,需要开发高效的算法以实现扩展性。 总之,在联邦学习领域存在许多挑战和问题,同时也有许多发展前景和潜力,只有通过不断的研究和发展,联邦学习的应用才能为更广泛的场景提供价值。 ### 回答3: 联邦学习种新型的机器学习方法,在保障数据隐私和数据安全的前提下,利用分散在不同地方的终端设备与机器学习模型进行协作学习。和传统的机器学习方法相比,联邦学习弥补了中央服务器需要收集所有数据的缺陷,使得隐私数据在不暴露的情况下可以让多个节点进行共享学习,具有广泛的应用价值。但是随着应用场景的不断拓展和实践的不断探索,《联邦学习》也面临着很多开放性的问题和挑战。 1. 如何保证数据隐私和安全 联邦学习的最大优势就是在保护数据隐私和数据安全的基础上完成机器学习任务,因此,研究如何更好地保护数据隐私和安全成为了联邦学习研究的关键问题。在当前的模型训练过程中,大多数方案利用加密的方式来保证数据安全,但是加密后的计算过程会增加计算和通讯的负载,有可能会导致学习效率变低。 2. 如何解决异构设备之间的差异 联邦学习的另个难点就是异构设备的差异性问题。由于参与训练的设备数量较多,设备类型也有很大的差异,这就导致了设备之间的异构性,如何在异构设备之间实现高效的模型训练成为个需要解决的问题。 3. 模型的选择和设计 在联邦学习过程中,模型的选择和设计对于整个模型训练的效果也有着非常大的影响,如何有效地选择模型并进行合适的设计,是联邦学习领域需要探讨的方向之。 4. 增量式学习的实现 联邦学习中也存在个非常重要的问题,就是如何支持增量式学习。大多数情况下,模型的升级需要重新训练,如果训练数据无法全部集中到个地方,则需要修改算法来解决这个问题。 总之,随着联邦学习的进步发展,应用场景的拓展,联邦学习面临的问题也将更加的复杂多样。虽然当前已有的技术手段已经获得了非常好的效果,但是我们仍需要更多的研究和创新来解决新的难题,为这项技术的长足发展提供支撑。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值