联邦学习的模型训练涉及模型的本地迭代更新和模型参数的传输两大过程,模型计算和通信传输成为影响联邦学习效率的两大因素。联邦学习是分布式机器学习的一种实现形式,很多分布式的加速方案依旧适用该场景。
在计算和通信两大因素中,通信效率的优化显得比计算性能的优化复杂和困难得多,因为从计算机系统的角度看,边缘端设备的算力水平在不断提高,如今的深度学习训练往往采用GPU甚至TPU这样的高性能专业芯片。但网络通信,一方面受网络带宽的影响,另一方面由于联邦学习的客户端分布具有跨地域的特点,使得格客户端之间的通信延迟提高,设备间通信失败的风险比一般的分布式学习大。因此,当前联邦学习效率的优化趋势是将尽可能多的计算放在边缘端设备中进行,以尽可能减少各参与者之间的数据传输。
联邦学习加速方法
于 2022-01-28 22:40:48 首次发布