1 联邦学习的前生今世
1.1 联邦学习的由来
大数据时代,公众对数据隐私更为敏感:
(1)数据孤岛和隐私问题的出现
(2)各组织、机构和企业拥有的海量数据 又有极大的潜在应用价值
所以,保护隐私和数据安全的联邦学习技术应运而生。
1.2 联邦学习的发展历程
单机
无法完成单机无法很好地完成数据庞大、计算复杂高的大模型训练,从而出现了分布式机器学习技术。
分布式机器学习
使用大规模的异构计算设备和多机多卡集群进行训练,目标
是协调和利用各分布式单机完成模型的快速迭代训练。但是,传统的分布式机器学习技术面临着数据管理方数据泄露的风险。
联邦学习技术
在数据不出本地的前提下对多方模型进行联合训练,既保证数据安全,又实现分布式训练。
(1)联邦学习本质上属于一种分布式机器学习技术/框架延伸。
(2)联邦学习运用了许多数据隐私保护领域的研究。
(3)联邦学习正处于成长阶段。
1.3 联邦学习的规范与标准
IEEE P3652.1《Guide for Architectural Framework and Application of Federated Machine Learning》
1.4 联邦学习的社区与生态
字节跳动相关团队2020年出在GitHub开源联邦学习平台Fedlearner
,训练模型以神经网络模型训练、树模型训练`为主。
1.5 小结
分布式学习解决了传统机器学习面临的大数据困境,在此基础上,加入隐私保护计划的联邦学习,保证了分布式学习过程中的数据安全。
写在最后:
本人研究方向和兴趣点大致为自然语言处理、大数据医疗、数据分析和跨境电商,刚开始学习研究,本专题为读书笔记,希望能坚持做下去,欢迎有兴趣或者研究方向差不多的朋友一起交流讨论。