ICML2023论文学习_Dynamic Regularized SAM in FL: Approaching Global Consistency and Smooth Landscape

最新推荐文章于 2024-09-24 15:50:33 发布

idkmn_

最新推荐文章于 2024-09-24 15:50:33 发布

阅读量949

点赞数 16

分类专栏： Federated Learning 文章标签：算法机器学习人工智能深度学习神经网络笔记

本文链接：https://blog.csdn.net/xbn20000224/article/details/137514687

版权

文章链接：Link

摘要：在联邦学习(FL)中，由于多次本地更新和non-i.i.d.数据集，客户端容易过度拟合到局部最优，偏离全局目标，影响性能。以往的研究大多从优化的角度出发，只注重增强局部目标与全局目标的一致性(FedLin, FedDyn…)，以缓解client drift。文章提出了一种新的通用算法FedSMOO，将优化目标和泛化目标结合起来，有效地提高了FL的性能。FedSMOO采用动态正则化器来保证局部最优点向全局目标靠近，同时通过全局锐度感知最小化(sharp Aware Minimization, SAM)优化器对其进行修正，以搜索一致的平坦最小值。理论分析表明，FedSMOO具有较快的 $\mathcal{O}(\frac{1}{T})$ 收敛速度和较低的泛化界。
Main Contributions:
(1) 相较于FedSAM只寻找local flatness，FedSMOO通过迭代更新局部扰动 $s_i$ 促进global generality
(2) 类似于FedDyn，增加了一个正则化项来保证global consistency
Motivation:
(1) Sharp Aware Minimization, SAM: 旨在优化一个极小-极大问题
$\min _w\left\{f_s(w) \triangleq \max _{\|s\| \leq r} f(w+s)\right\}$
SAM采用近似方式求解此问题，通过在 $w$ 处进行一阶泰勒展开，此时 $w$ 处最优的 $s$ 取值易得
$s^*(w) \approx \underset{\|s\| \leq r}{\arg \max }\left\{f(w)+s^{\top} \nabla f(w)\right\} =r \cdot \nabla f(w) /\|\nabla f(w)\|$
故SAM可被视作用于寻找当前损失"flat landscape"的基于GD/SGD的改进optimizer，在集中式设置下基于SGD的更新流程如下( $t$ -round)：
Perform a SGD step with batch $\xi_t$ – Find the parameter $w+r\frac{\nabla f(w)}{\| \nabla f(w) \|}$ – Calculate the SGD gradient then update

(2) SAM拓展到联邦设置(FedSAM)时存在的问题
当拓展到联邦设置下，由于non-i.i.d.数据，局部的pertubation的聚合并不等于全局(基于所有设备本地数据分布)的pertubation，即局部的flat minima聚合后不一定对于全局损失的flat minima，使得模型聚合后得到的并不一定对应全局平坦值，泛化能力的提升是不确定的
$\frac{1}{m}\sum_{i=1}^{m}s_i \ne s$
Methodology
1.为解决global flat landscape问题，即保证local pertubation趋向于global pertubation，文章首先重构优化问题：（这一步相当于解决inner level的极大化问题，即促进global generality）
$\begin{array}{r} \min _w\left\{\mathcal{F}(w)=\frac{1}{m} \sum_{i \in[m]} \mathcal{F}_i(w)\right\}, \\ \mathcal{F}_i(w) \triangleq \max _{\|s\| \leq r} f_i(w+s), \end{array}$
引入约束，上述问题可进一步重写为