优化|一类非光滑分式规划问题的求解_非光滑优化文献-CSDN博客

本文链接：https://blog.csdn.net/weixin_53463894/article/details/145819323

在这里插入图片描述

原文信息: A min-max reformulation and proximal algorithms for a class of structured nonsmooth fractional optimization problems https://arxiv.org/abs/2501.02254

原文作者: Junpeng Zhou, Na Zhang, Qia Li

编者按：

分式规划是一类常见的优化问题，在经济学、机器学习以及无线通信等领域均有广泛的应用，如何高效的求解这类问题具有重要意义。求解分式规划的常用方法主要有： Dinkelbach 方法和二次转化方法等，但这两类方法都依赖于问题的结构，有一定的局限性(前者主要用于求解单比率的分式规划问题，后者则更多的用于求解最大化的分式规划问题)，因此对于一些本身结构较为特殊的优化问题来讲并不适用. 本文主要考虑基于稀疏信号恢复问题引出的一类分式规划问题，针对该类问题设计了有效的求解算法并进行的详细的理论分析.

一、问题介绍

这篇文章考虑的是一类非光滑最小化分式规划问题，可以被描述为以下形式：
$\min \left\{\frac{f(x)}{g(x)}+h(x):x\in \Omega\cap\mathcal{C}\right\}\quad \quad \quad (1)$
其中 $f,g:\mathbb{R}^{n}\rightarrow [0,+\infty)$ 和 $\mathbb{R}^{n}\rightarrow \mathbb{R}$ 均为适当闭函数， $\mathcal{C}\subseteq\mathbb{R}^{n}$ 是闭集， $\Omega:=\left\{x\in \mathbb{R}^{n}:g(x)\neq 0\right\}$ 且 $\mathcal{C}\cap \Omega \neq \emptyset$ .

假设1：

$f $在 $\Omega$ 上局部 Lipschitz 连续，
$g$ 是 $\mathbb{R}^{n}$ 上的凸函数，
$h = h_{1}-h_{2}$ ，其中 $h_{1}:\mathbb{R}^{n}\rightarrow \mathbb{R}$ 关于 $x\in \Omega $ 是局部 Lipschitz 连续的， $h_{2}:\mathbb{R}^{n}\rightarrow \mathbb{R}$ 是 $\mathbb{R}^{n}$ 上的凸函数.

关于问题(1)的求解，首先我们将这一分式规划问题转化为了一个非分式的问题，进而基于转化后的问题设计邻近点类算法进行求解. 本文的主要有以下几部分构成：第二节和第三节中介绍了一些和极小极大化问题相关的背景知识并分析了原问题和转化后问题的解之间关系；第四部分介绍了文章提出的算法介绍以及相关的算法收敛性分析；最后介绍了一个数值实验，说明算法的有效性.

二、 Min-max 问题

考虑如下的一个极小极大化问题：
$\min _{x\in \mathcal{F}_{X}}\max_{y\in \mathcal{F}_{Y}}\Phi(x,y)$
其中 $\mathcal{F}_{X},\mathcal{F}_{Y}$ 均为非空集合且目标函数 $\Phi：\mathbb{R}^{n}\times\mathbb{R}^{m}\rightarrow\mathbb{R}$ 是连续的. 对于极小化变量 $x$ , 该函数是非凸的, 而关于极大化 $y$ , 该函数是凹函数, 因此上述问题又称为非凸-凹的极小极大化问题. 我们假设对于可行域内所有的 $x$ 有： $\text{arg max}_{y\in \mathcal{F}_{Y}}\Phi(x,y)\neq \emptyset$ , 并且定义 $\varphi:\mathcal{F}_{X}\rightarrow\mathbb{R}$ 为：
$\varphi(x):=\max_{y\in \mathcal{F}_{Y}}\Phi(x,y)$
对于点 $(x^{*},y^{*})\in\mathcal{F}_{X}\times\mathcal{F}_{Y}$ ，如果它满足不等式
$\Phi(x^{*},y)\leq \Phi(x^{*},y^{*})\leq \Phi(x,y^{*})， \quad \forall x\in\mathcal{F}_{X}, ~y \in \mathcal{F}_{Y},$
则称它为上述极小极大化问题的鞍点(saddle point).

注：对于非凸-凹的极小极大化问题，鞍点不一定存在. 因此关于极大极小化问题有如下的极小极大点(min-max point)的定义.

定义2.1：(全局极小极大点) 如果 $y^{*}$ 是 $\Phi(x^{*},\cdot)$ 的全局极大值点， $x^{*}$ 是 $\varphi$ 的全局极小值点，则称 $(x^{*},y^{*})\in\mathcal{F}_{X}\times\mathcal{F}_{Y}$ 是上述 min-max 问题的全局极小极大点；即该点满足以下关系：
$\begin{cases} \varphi(x^{*})\leq \varphi(x),\quad \forall x\in \mathcal{F}_{X}\\ \Phi(x^{*},y^{*})\geq \Phi(x^{*}),\quad \forall y\in \mathcal{F}_{Y}. \end{cases}$
定义2.2：(局部极小极大点) 如果 $y^{*}$ 是 $\Phi(x^{*},\cdot)$ 的局部极大值点，且存在一个 $\epsilon_{0}>0$ 使得对于所有的 $\epsilon\in (0,\epsilon_{0}]$ , $x^{*}$ 是函数 $\varphi_{\epsilon}:=\max\{\Phi(x,y):y\in \mathbb{R}^{n},\|y-y^{*}\|_{2}\leq \epsilon\}$ 的局部极小值点, 则称 $(x^{*},y^{*})\in\mathcal{F}_{X}\times\mathcal{F}_{Y}$ 是上述 min-max 问题的局部极小极大点.

三、最优性理论

这篇文章通过引入一个新的变量，将原始的分式规划目标重新表述为了一个非分式的极小极大化问题：
$\min_{x\in \Omega\cap\mathcal{C}}\max_{c\in \mathbb{R}}\quad 2cf(x)-c^{2}f(x)g(x)+h(x).\quad\quad \quad (2)$
接下来我们证明问题 (2) 在和问题 (1) 在最优点处是等价的. 为了方便理论说明，引入下面两个函数：
$\begin{cases}\frac{f(x)}{g(x)}+h(x),\quad if\ x\in \Omega\cap\mathcal{C},\\ +\infty\quad \quad \quad ,\quad else, \end{cases}$
$\widetilde{F}(x,c):=2cf(x)-c^{2}f(x)g(x)+h(x)+l_{\Omega\cap\mathcal{C}}(x),$
其中 $l$ 是指示函数. 通过简单的计算，很容易可以观察到：
$F(x)-\widetilde{F}(x,c) = f(x)g(x)(\frac{1}{g(x)}-c)^{2}, \quad \forall x\in \Omega\cap\mathcal{C}, ~c \in \R.\quad\quad\quad(3)$
由 $f, g$ 的非负性，可知对于任意的 $ x\in \Omega\cap\mathcal{C} $和$ c\in \mathbb{R}$，有 $\geq \max_{c\in \mathbb{R}} \widetilde{F}(x,c)$ . 结合 $F$ 和 $\widetilde{F}$ 的定义，可得：
$\max_{c\in \mathbb{R}} \widetilde{F}(x,c),\quad\quad\quad(4)$
其中 $c$ 可取 $\frac{1}{g(x)}$ . 因此，问题 (2) 在和问题 (1) 在最优点处是等价的.

进一步地，我们可以推出以下两个命题：

命题3.1：(两个问题极小极大值点的关系)

如果 $x^{*}$ 是问题 (1) 的全局(局部) 最小值点，那么 $\left(x^{*},\frac{1}{g(x^{*})}\right)$ 就是问题 (2) 的一个全局(局部) 极小极大值点；反之，如果 $\left(x^{*},c_{*}\right)$ 是问题 (2) 的一个全局(局部)极小极大值点，那么 $x^{*}$ 就是问题 (1) 的全局(局部)最小值点.

除此之外，本文还考虑了问题 (1) 和 (2) 的稳定点之间的关系，如下：

命题3.2：(两个问题稳定点(stationary point)的关系)

如果 $0\in \hat{\partial}F(x^{*})$ ，则对于 $c_{*} = \frac{1}{g(x^{*})}$ 来讲，有（5）成立：
$\begin{cases}0\in \hat{\partial}_{x}\widetilde{F}(x^{*},c_{*}),\\ 0 = \nabla_{c}\widetilde{F}(x^{*},c_{*}). \end{cases}\quad\quad \quad (5)$
同样，当（5）成立时有 $0\in \hat{\partial}F(x^{*})$ , 其中 $\hat{\partial}(\cdot)$ 为 Frechet 次微分.

根据 命题3.2 的结论，能够得到关于问题 (1) 的一阶必要性条件：

推论3.1：如果 $0\in \hat{\partial}F(x^{*})$ ，那么当 $c_{*} = \frac{1}{g(x^{*})}$ 时有：
$\in \hat{\partial}(c_{*}f+l_{\mathcal{C}})(x^{*})-c^{2}_{*}f(x^{*})\partial g(x^{*})+\nabla h_{1}(x^{*})-\partial h_{2}(x^{*}). \quad \quad \quad (6)$
如果 $g$ 和 $h_{2}$ 在 $x^{*}$ 处是可微的，则 $0\in \hat{\partial}F(x^{*})$ 和 (6) 在 $c_{*} = \frac{1}{g(x^{*})}$ 处等价.

定义3.1：当 $c_{*} = \frac{1}{g(x^{*})}$ 时，我们将满足 (6) 的可行解 $x^{*}$ 称为函数 $F$ 的临界点(critical point).

四、算法介绍

4.1 交替最大化邻近下降算法(AMPDA)

在证明了 (1) 和 (2) 在最优解处的等价性之后，就可以基于 (2) 进行算法设计，但由于 (2) 中 $-c^{2}f(x)g(x) $包含非凸项和非光滑项，常见的求解 M in - ma x 问题的算法不太适用 . 这篇文章利用 M aj or i z a t i o n - minimi z a t i o n (MM) 技术，找到了$ \widetilde F$ 的一个上界，然后再进行算法设计.

首先我们引入如下函数，定义 $Q(x,y,z,c):\mathbb{R}^{n}\times\mathbb{R}^{n}\times\mathbb{R}^{n}\times\mathbb{R}\rightarrow(-\infty,+\infty]:$
$\begin{cases} l_{\mathcal{c}}(x)+2cf(x)+c^{2}f(x)(g^{*}(x)-\left\langle x,y\right\rangle)+h_{1}(x)+h_{2}^{*}(x)-\left\langle x,z\right\rangle,if\ (y,z)\in dom(g^{*})\times dom(h_{2}^{*})\\ \quad \quad \quad \quad \quad \quad \quad \quad \quad +\infty, \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad\quad \quad \quad otherwise\end{cases}\ (7)$
根据上文的定义，对于所有 $x\in \Omega\cap\mathcal{C},(y,z)\in dom(g^{*})\times dom(h_{2}^{*})$ 以及 $c_{x} = \frac{1}{g(x)}$ , 有以下的关系成立：
$\widetilde{F}(x,c_{x})\leq Q(x,y,z,c_{x})$
这里的第一个等式来源于 (4), 第二个不等关系是根据 Fenchel-Young 不等式得到的.

利用函数 $Q$ , 我们可以执行如下的 AMPDA 算法。

注：这里的 (1.1) 即上文中的 (1)

关于AMPDA 算法，我们在这里对 $c_{k}$ 的更新和子问题 (4.4) 的形式作出一些解释。

$c_{k}$ 的更新

回顾第三节，我们知道对于任意的 $ x\in \Omega\cap\mathcal{C} $和$ c\in\mathbb{R}$，有 $\geq \max_{c\in \mathbb{R}} \widetilde{F}(x,c)$ ，并且不等式在 $\frac{1}{g(x)}$ 时取等. 因此我们在算法中令 $c_k = \frac{1}{g(x_k)}$ , 此时对关于 $c$ 的函数 $\psi_k(c) :=\widetilde F(x^k,c)$ ，我们取到了它的全局最大解。

子问题 (4.4)

Step2 中 $\hat{x}^{k}$ 的迭代对最小化问题 $\min\{\widetilde{F}(x,c):x\in \mathbb{R}^{n}\}$ 采用了Majorization-minimization(MM) 技术，具体如下：

记本文引入的 $\widetilde{F}(x,c)$ 的替代函数为 $\mathcal{M}(\cdot|x^{k},c_{k})$ :
$\mathcal{M}(x|x^{k},c_{k}) = (2c_{k}-c^{2}_{k}g(x^{k}))f(x)+\langle\nabla h_{1}(x^{k})-c_{k}^{2}f(x^{k})y^{k}-z^{k},x-x^{k}\rangle + \\ \quad \quad \left(c^{2}_{k}L_{f,k}\|y^{k}\|_{2}+\frac{L_{\nabla h_{1},k}}{2}\right)\|x-x^{k}\|_{2}^{2}+h(x^{k})+l_{\mathcal{C}}(x)$
( $L_{f,k},L_{\nabla{h}_{1}}$ 分别是和 $f,\nabla{h}_{1}$ 有关的Lipschitz 常数). 根据 $f,h_{1}$ 的 Lipschitz 连续性以及 Cauchy-Schwarz 不等式，可以证明： $\widetilde{F}(x,c_{k})\leq\mathcal{M}(x|x^{k},c_{k})$ . 但由于实际中 Lipschitz 常数不好估计，所以在算法设计中考虑用 $\frac{1}{2\alpha}$ 来替代 $\left(c^{2}_{k}L_{f,k}\|y^{k}\|_{2}+\frac{L_{\nabla h_{1},k}}{2}\right)$ ， $\alpha$ 是通过线搜索得到的步长. 所以关于 $x_{k}$ 的子问题如下：
$x^{k+1} \in \text{argmin} \left\{c_{k}f(x)+\langle\nabla h_{1}(x^{k})-c_{k}^{2}f(x^{k})y^{k}-z^{k},x-x^{k}\rangle+\frac{1}{2\alpha}\|x-x^{k}\|_{2}^{2}:x\in \mathcal{C}\right\}$
显然就是上面 (4.4)的迭代格式.

4.2 收敛性分析

假设2： $F (x)$ 的水平集 $\mathcal{X}:=\left\{x\in \text{dom}(F):F(x)\leq F(x^{0})\right\}$ 是紧集.

在 假设2 成立的条件下，论文中证明了算法的良定义性质和充分下降性(对应论文中命题4.3)，并进一步得到了以下的收敛结论：

命题4.1：在 假设2 成立的条件下：由算法AMPDA产生的序列 $\left\{(x^{k},y^{k},z^{k},c_{k}):k\in\mathbb{N}\right\}$ 是有界的；有 $F_{\infty}:=\lim_{k\rightarrow\infty}F(x^{k})$ 存在且
$\lim_{k\rightarrow\infty}\|x^{k+1}-x^{k}\|_{2} = 0.$
定理4.1 证明了算法 AMPDA 的子序列收敛性质，如下：

定理4.1：已知假设2 成立，则由算法AMPDA产生的任意序列 $\left\{x^{k}:k\in \mathbb{N}\right\}$ 的聚点都在水平集 $\mathcal{X}$ 中，并且是 $F$ 的临界点.

上述定理说明了算法的子序列收敛性质. 进一步的在 Kurdyka-Lojasiewicz (KL) 条件成立的情况下，本文考虑了算法 AMPDA 产生的整个序列的收敛性. 为了更强收敛性证明，首先需要介绍以下定义：

定义4.1：（KL性质）$\varphi:\mathbb{R}^{n}\rightarrow(-\infty,+\infty] $是适当函数，如果在 $x\in\text{dom}(\partial\varphi)$ 处存在 $\epsilon\in (0,+\infty], \delta>0$ 和连续凹函数 $\phi:[0,\epsilon)\rightarrow[0,+\infty)$ 满足以下关系，则称 $\varphi$ 在 $x$ 处满足 KL 性质：

（i） $\phi(0) = 0$ ;

（ii） $\phi$ 在 $(0,\epsilon)$ 上连续可微并且 $\phi'>0$ ;

（iii）对于任意 $z\in \mathcal{B}(x,\delta)$ 满足 $\varphi(x)<\varphi(z)<\varphi(x)+\epsilon$ 的 $z\in \mathcal{B}(x,\delta)$ ,有以下不等式成立
$\phi'(\varphi(z)-\varphi(x))\text{dist}(0,\partial\varphi(z))\geq 1.$
注：

定理4.2：假设2 成立，如果(7) 中定义的函数 $Q$ 是一个适当闭的 KL 函数，则由算法 AMPDA 产生的序列 $\left\{x^{k}:k\in \mathbb{N}\right\}$ 收敛到问题 (1) 的临界点(critical point).

五、数值实验

在数值实验部分，本文关注鲁棒信号恢复问题，通过比较所提出算法 AMPDA 和梯度下降流算法(gradient descent flow algorithm (GDFA)) 对同一模型的不同数值表现 (时间、迭代次数、目标函数值以及恢复误差)，说明了本文算法的有效性.

数值实验的模型之一为：
$\min \left\{\frac{\|x\|_{1}}{\|x\|_{2}}+\frac{\lambda}{2}\text{dist}^{2}(Ax-b,\mathcal{S}_{\mu}):x\neq 0,x\in \mathbb{R}^{n}\right\}$
其中 $A\in\mathbb{R}^{m\times n}$ 是观测矩阵， $b\in \mathbb{R}^{m}$ 是可能的噪声测量， $\mathcal{S}_{\mu}:=\left\{z\in \mathbb{R}^{m}:\|z\|_{0}\leq \mu\right\}$ ，其中 $\mu $是一个非负整数. 数值结果如下：

参考文献

[1] Junpeng Zhou, Na Zhang, Qia Li. A min-max reformulation and proximal algorithms for a class of structured nonsmooth fractional optimization problems.