优化算法中的零次优化详解

最新推荐文章于 2024-07-05 18:05:21 发布

pinn山里娃

最新推荐文章于 2024-07-05 18:05:21 发布

阅读量4.1k

点赞数 14

分类专栏：梯度下降相关算法文章标签：算法人工智能深度学习

本文链接：https://blog.csdn.net/weixin_45521594/article/details/104770582

版权

梯度下降相关算法专栏收录该内容

6 篇文章 2 订阅

订阅专栏

零次优化公式算法收敛

无梯度优化
在这里插入图片描述
$m i n f (x)$
无梯度方法适用于梯度难以得到、获得昂贵

传统无梯度方法：

基于直接搜索的方法：坐标搜索，广义模式搜索和网格自适应直接搜索
基于模型的方法：隐式过滤，信任区域方法
贝叶斯方法

通过随机梯度估计的零次优化：

模仿一阶方法，但使用函数值的有限差分来估计梯度
优点：易与操作、收敛保证、函数查询效率

黑箱攻击的基本问题：

收敛
查询无效

ZOO方法综述：
在这里插入图片描述

Unconstrained ZOO

在这里插入图片描述
梯度估计（ZOO）：

One-point gradient estimate
$\hat{\nabla} f(\mathbf{x})=(d / \mu)[f(\mathbf{x}+\mu \mathbf{u})-f(\mathbf{x})] \mathbf{u}$
其中 $u$ 是从单位球的球面均匀绘制的随机向量，有些地方 $u$ 来着标准高斯分布，在这里，使用均匀分布可确保在有界空间而不是高斯所需的整个实际空间中定义ZO梯度估计，并且 $µ > 0$ 是一个小的步长，称为平滑参数
Two-point gradient estimate
$\begin{aligned} &g_{\mu}(x)=\frac{f(x+\mu u)-f(x)}{\mu} \cdot B u\\ &\hat{g}_{\mu}(x)=\frac{f(x+\mu u)-f(x-\mu u)}{2 \mu} \cdot B u \end{aligned}$
上式第一项称为Forward difference，第二项称为Central difference
Gradient sign estimate
$\operatorname{sign}\left(\frac{f(x+\mu u)-f(x)}{\mu} u\right) \quad \text { (use sign as descent direction) }$
梯度符号的估计对梯度估计噪声更鲁棒。例如 $g=[5,-0.5]^{T}, \hat{g}=[0.5,-5], \text { but } \operatorname{sign}(g)=[1，-1]=\operatorname{sign}(\hat{g})$

Unconstrained ZOO: Optimality Measures
在ML应用中，最大程度地减少经验平均损失
$\underset{x \in R^{d}}{\operatorname{minimize}} f(x)=\frac{1}{n} \sum_{i=1} f_{i}(x), \quad f_{i}(x):=f\left(x ; w_{i}\right)$

$\in R^{d}$ 指优化变量， $w_{i}$ 第i个数据样本， $f_{i}(x)$ 是cost函数单数非凸

对于凸问题，将追踪
$h_{T}:=\mathbb{E}\left[f\left(x_{T}\right)\right]-f^{*} \leq \epsilon$
对于非凸问题，将追踪
$\tilde{h}_{T}:=\mathbb{E}\left[\left\|\nabla f\left(x_{T}\right)\right\|^{2}\right] \leq 6$

讨论收敛速度
在这里插入图片描述
Sign-Based Methods能更快收敛，而为什么？
$\mathbf{x}_{k+1}=\mathbf{x}_{k}-\delta_{k} \operatorname{sign}\left(\hat{\mathbf{g}}_{k}\right), \quad \text { where } \operatorname{sign}(\mathbf{x}) \text { takes element-wise signs of }\mathbf{x}$

符号算子导致了自适应学习率， $\delta_{k} \operatorname{sign}\left(\widehat{\boldsymbol{g}}_{k}\right)=\delta_{k} \widehat{\boldsymbol{g}}_{k} \cdot /\left|\widehat{\boldsymbol{g}}_{k}\right|, \delta_{k} /\left|\widehat{\boldsymbol{g}}_{k}\right|$ 指自适应率，其中 $\widehat{\boldsymbol{g}}_{k}=\nabla_{\boldsymbol{x}=\boldsymbol{x}_{\mathbf{k}}} f_{i}(\boldsymbol{x})$
梯度算子对nosie有更大的容错性

总结：

ZO-SGD相比于ZO-signSGD收敛有更好的准确性（loss更小），但ZO-signSGD能更快收敛。
而后面提到ZO-AdaMM能包含ZO-SGD和ZO-signSGD两种情况（这两种为ZO-AdaMM的特殊情况）

Constrained ZOO

在这里插入图片描述
（上图中Unconstrained改为constrained）
Constrained ZOO:

Alternating direction method of multipliers (ADMM): A general optimization solver
ZO Stochastic Projected Gradient Descent (ZO-SPGD)
ZO Adaptive Momentum Method (ZO-AdaMM)类似于Adam方法（结合了Momentum和自适应学习率）

总结：
在这里插入图片描述

Min-max ZOO

在这里插入图片描述

总结

在这里插入图片描述
ZOO 优化总结：

使用客观评估估算梯度信息
收敛到解决方案的可能邻域（消除在随机环境设置的随机小批量所产生的偏差）

Zeroth Order for Adversary ML

零次攻击(Zeroth Order Optimization (ZOO) Attack)
在这里插入图片描述
ZO by Natural Evolution Strategy (NES)

ZO-AdaMM：

ZO-AdaMM作为一种特殊情况涵盖了ZO-signSGD
ZO-AdaMM具有自适应学习率和梯度平均的优势

Data poisoning attacks:

injecting poisoned data (eg, with designed backdoor trigger) into training phase

零次优化方法对于梯度为以下的问题很有用：
不可用：黑匣子攻击（主要是这一点）
不可计算：封闭形式不可计算的梯度，例如AutoML中的超参数优化
不方便：梯度可计算，但其形式评估成本很高，例如，涉及梯度计算中矩阵求逆，通过梯度或曲率正则化进行对抗防御的资源管理
隐私权要求：隐私权保护条件，例如，隐私权保护的分布式计算

总结

当没有梯度时，ZO方法是一阶方法的通用替代方法
收敛速度受尺寸依赖的减慢效应的影响，但是如果具有适当的最小批处理大小，则它对一阶方法具有竞争力
ZO优化在数据挖掘，机器学习，计算机视觉尤其是对抗性鲁棒性中的新兴应用

传统的derivative-free optimization(DFO)方法可以分为

基于直接搜索的方法和基于模型的方法。两种方法都都是迭代方法区别在于，基于直接搜索的方法直接基于查询的函数值来优化其搜索方向，而基于模型的方法则建立一个模型，该模型逼近要优化的函数并基于该模型更新搜索方向

pinn山里娃

关注

14
点赞
踩
36

收藏

觉得还不错? 一键收藏
打赏
3
评论
优化算法中的零次优化详解

零次优化公式算法收敛无梯度优化minf(x)minf(x)minf(x)无梯度方法适用于梯度难以得到、获得昂贵传统无梯度方法：基于直接搜索的方法：坐标搜索，广义模式搜索和网格自适应直接搜索基于模型的方法：隐式过滤，信任区域方法贝叶斯方法通过随机梯度估计的零次优化：模仿一阶方法，但使用函数值的有限差分来估计梯度优点：易与操作、收敛保证、函数查询效率黑箱攻击的基本问题：...
复制链接

扫一扫