优化｜Lp范数优化方法总结

运筹OR帷幄

于 2025-04-26 04:59:31 发布

阅读量856

点赞数 24

文章标签：算法人工智能

本文链接：https://blog.csdn.net/weixin_53463894/article/details/147157652

版权

在这里插入图片描述
$l_p$ 范数是数学和工程领域广泛应用的一种度量工具，其中p取不同的值具有不同的应用含义，也可能导致优化函数非凸。本文将总结不同p取值时优化问题的近似求解方法。

一、范数问题定义

在凸优化领域，范数问题在“逼近和拟合”概念 $^{[1]}$ 中提到，其中，最为基础的范数逼近问题可以表述为如下形式的无约束优化问题：
$\mathop {\min }\limits_{\bf{x}} \ \left\| {{\bf{Ax}} - {\bf{b}}} \right\|$
其中， ${\bf{A}} \in {\mathbb{R}^{M \times N}},{\bf{b}} \in {\mathbb{R}^M},{\bf{x}} \in {\mathbb{R}^N}$ $，$ $\left\| \cdot \right\|$ 表示 ${\mathbb{R}^M}$ 上的一种范数。从上式也可以看出，范数逼近问题的目标是用 ${\bf{A}}$ 的列的线性组合，尽可能准确地对向量 $\bf{b}$ 进行逼近或者拟合。设向量 ${\bf{r}} = {\bf{Ax}} - {\bf{b}}$ 为这个问题的残差，该问题也可以表示为：
$\mathop {\min }\left\{ \left\| {\bf{r}} \right\|: {\bf{r} = \bf{Ax-b}}, {\bf{x}} \in {\mathbb{R}^N} \right\}$

二、范数问题的求解方法

2.1 ${l_1}$ 范数( $p = 1$ )

$l_1$ 范数问题也称为残差和逼近问题，可以表示为：
$\mathop {\min }\limits_{\bf{x}} \ \left\| {{\bf{Ax}} - {\bf{b}}} \right\| = \left| {{r_1}} \right| + \cdots + \left| {{r_M}} \right|$
该问题可以转换为如下形式的线性规划问题求解：
$\begin{array}{l} \mathop {\min }\limits_{{\bf{x}},{\bf{t}}} \ {{\bf{1}}^T}{\bf{t}}\\ \text{s.t.} \ - {\bf{t}} \le {\bf{Ax}} - {\bf{b}} \le {\bf{t}},{\bf{t}} \in {\mathbb{R}^M} \end{array}$
$l_1$ 范数在稀疏表示等领域有广泛应用，比如，在Lasso回归（Least Absolute Shrinkage and Selection Operator Regression）中， $l_1$ 范数用于正则化，以促进模型的稀疏性，比如 $\mathop {\min }\limits_{\bf{x}} {\rm{ }}f\left( {\bf{x}} \right) + \lambda {\left\| {\bf{x}} \right\|_1}$ 。

2.2 $l_2$ 范数( $p = 2$ )

$l_2$ 范数是欧几里得距离，广泛用于衡量向量之间的几何距离。该优化问题又称为最小二乘逼近问题，它可以表示为：
$\mathop {\min }\limits_{\bf{x}} \ \left\| {{\bf{Ax}} - {\bf{b}}} \right\|_2^2 = r_1^2 + \cdots + r_M^2$
其目标函数是残差的平方和。假设 $\bf A$ 的列向量是独立的，则该问题总有唯一解:
${\left( {{{\bf{A}}^T}{\bf{A}}} \right)^{ - 1}}{{\bf{A}}^T}{\bf{b}}$

2.3 ${l_\infty }$ 范数( $p=\infty$ )

${l_\infty }$ 范数问题又称为极小极大逼近问题，可以表示为：
$\mathop {\min }\limits_{\bf{x}} \ {\left\| {{\bf{Ax}} - {\bf{b}}} \right\|_\infty } = \max \left\{ {\left| {{r_1}} \right|, \cdots ,\left| {{r_M}} \right|} \right\}$
该问题可以转换为如下形式的线性规划问题求解：
$\begin{array}{l} \mathop {\min }\limits_{{\bf{x}},t} \ t\\ \text{s.t.}\ - t{\bf{1}} \le {\bf{Ax}} - {\bf{b}} \le t{\bf{1}},t \in \mathbb{R} \end{array}$
${l_\infty }$ 范数在信号处理和控制理论中常用于衡量最大误差，在鲁棒优化中可以用来分析最坏条件下的约束条件。

2.4 $l_p$ 范数( $\le p < \infty$ )

更广义的 $l_p$ 范数 ($2 \le p < \infty $) 问题可以表示为：
$\mathop {\min }\limits_{\bf{x}} \ {\left\| {{\bf{Ax}} - {\bf{b}}} \right\|_p} = \left( {\sum\limits_{m = 1}^M {{{\left| {{r_m}} \right|}^p}} } \right)^{1/p}\Leftrightarrow \mathop {\min }\limits_{\bf{r}} {\rm{ }}\sum\limits_{m = 1}^M {{{\left| {{r_m}} \right|}^p}}$
对于该优化问题，可以采用 majorization-minimization (MM) 算法 $^{[2]}$ 架构迭代求解。

为了求解简单，我们可以对向量 $\bf{r}$ 中的每一个元素 $r$ 都构建一个二次形式的局部逼近函数（local approximation function）来近似 ${\left| r \right|^p}$ 。假设 $f\left( r \right) = {\left| r \right|^p},p \ge 2,r \in \left[ {0,t} \right)$ ，其中 $t$ 是给定的常数。对于任意 ${r_0} \in \left[ {0,t} \right)$ 处的主函数（majorization function） $h\left( r \right)$ 应满足：

$\begin{array}{l} h\left( {{r_0}} \right) = f\left( {{r_0}} \right),{r_0} \in \left[ {0,t} \right)\\ h\left( r \right) \ge f\left( r \right),r \in \left[ {0,t} \right)\\ h'\left( {{r_0}} \right) = f'\left( {{r_0}} \right),{r_0} \in \left[ {0,t} \right)\\ h\left( r \right)\,{\rm{ is \, continuous, }}\,r \in \left[ {0,t} \right) \end{array}$

因此， $f\left( r \right) = {\left| r \right|^p},p \ge 2,r \in \left[ {0,t} \right)$ 可以用以下二次函数近似：
$a{\left| r \right|^2} + \left( {p\left| r_0 \right|^{p - 1} - 2a{\left| r_0 \right|}} \right)\left| r \right| + a\left| r_0 \right|^2 - \left( {p - 1} \right)\left| r_0 \right|^p,$

其中，
$\frac{{{t^p} - \left| r_0 \right|^p - p\left| r_0 \right|^{p - 1}\left( {t - {\left| r_0 \right|}} \right)}}{{{{\left( {t - {\left| r_0 \right|}} \right)}^2}}}.$

具体推导思路如下：对于任意的 ${r_0} \in \left[ {0,t} \right)$ ，Taylor展开可以表示为：

$g\left( {r\left| {{r_0}} \right.} \right) = f\left( {{r_0}} \right) + f'\left( {{r_0}} \right)\left( {r - {r_0}} \right) + a{\left( {r - {r_0}} \right)^2},$

其中， $a > 0$ ，并且满足 $f\left( {{r_0}} \right) = g\left( {{r_0}\left| {{r_0}} \right.} \right)$ 。如果令函数 $g\left( {{r}\left| {{r_0}} \right.} \right)$ 作为 $f\left( {{r}} \right)$ 在区间 $\left[ {0,t} \right]$ 上 ${r_0}$ 处的主函数，需要对于所有的 $\in \left[ {0,t} \right],r \ne {r_0}$ 满足 $f\left( r \right) \le g\left( {r\left| {{r_0}} \right.} \right)$ ，即：

$\ge \frac{{f\left( r \right) - f\left( {{r_0}} \right) - f'\left( {{r_0}} \right)\left( {r - {r_0}} \right)}}{{{{\left( {r - {r_0}} \right)}^2}}},r \in \left[ {0,t} \right],r \ne {r_0}.$
定义：
$A\left( {r\left| {{r_0}} \right.} \right) = \frac{{f\left( r \right) - f\left( {{r_0}} \right) - f'\left( {{r_0}} \right)\left( {r - {r_0}} \right)}}{{{{\left( {r - {r_0}} \right)}^2}}},r \ne {r_0}$
则 $A\left( {r\left| {{r_0}} \right.} \right)$ 的导数为：
$A'\left( {r\left| {{r_0}} \right.} \right) = \frac{{f'\left( r \right) + f'\left( {{r_0}} \right) - 2\left( {f\left( r \right) - f\left( {{r_0}} \right)} \right)/\left( {r - {r_0}} \right)}}{{{{\left( {r - {r_0}} \right)}^2}}}$
由于 $f'\left( r \right) = p{r^{p - 1}},r \in \left[ {0,t} \right],p \ge 2$ 是凸函数，则：
$\begin{align} \frac{{f\left( r \right) - f\left( {{r_0}} \right)}}{{r - {r_0}}} &= \int_0^1 {f'\left( {{r_0} + \tau \left( {r - {r_0}} \right)} \right)d\tau } \nonumber\\ &\le \int_0^1 {\left( {f'\left( {{r_0}} \right) + \tau \left( {f'\left( r \right) - f'\left( {{r_0}} \right)} \right)} \right)d\tau } \nonumber\\ & = \frac{1}{2}\left( {f'\left( r \right) + f'\left( {{r_0}} \right)} \right)\nonumber \end{align}$
这意味着 $A'\left( {r\left| {{r_0}} \right.} \right) \ge 0,r \in \left[ {0,t} \right],r \ne {r_0}$ ，所以 $A\left( {r\left| {{r_0}} \right.} \right)$ 在区间 $\in \left[ {0,t} \right]$ 上单调递增，在 $r = t$ 处取得最大值。所以最小的 $a$ 可以选择：
$\begin{align} a &= \mathop {\max }\limits_{r \in \left[ {0,t} \right],r \ne {r_0}} A\left( {r\left| {{r_0}} \right.} \right)\nonumber\\ &= \frac{{{r^p} - r_0^p - pr_0^{p - 1}\left( {t - {r_0}} \right)}}{{{{\left( {t - {r_0}} \right)}^2}}}\nonumber \end{align}$
在迭代优化求解 $l_p$ 范数($2 \le p < \infty $) 问题时，如果$ r $取值区间的最大值$ t $不能显而易见地得到，可以根据第$ k $次迭代求得的$ {\bf{r}}^{\left( k \right)} $分析出在第$ \left( {k + 1} \right)$次迭代时的目标函数满足：
$\sum\limits_{m = 1}^M {{{\left| {{r_m}} \right|}^p}} \le \sum\limits_{m = 1}^M {{{\left| {r_m^{\left( k \right)}} \right|}^p}} \Rightarrow \left| {{r_m}} \right| \le {\left( {\sum\limits_{m = 1}^M {{{\left| {r_m^{\left( k \right)}} \right|}^p}} } \right)^{\frac{1}{p}}}$
所以， $r$ 取值区间的最大值可以是：
${\left( {\sum\limits_{m = 1}^M {{{\left| {r_m^{\left( k \right)}} \right|}^p}} } \right)^{\frac{1}{p}}}$

2.5 $l_p$ 范数( $\leq 1$ )

$l_p$ 范数($0 <p \le1 $) 相比于$ l_1 $范数更具有稀疏性，其求解更困难。采用和 2.4 节相似的方法，我们需要找到一个具有二次形式的主函数$ h\left( {{r}} \right) = br^2 + c $来近似求解$ f\left( r \right) = {\left| r\right|^p},0 <p \le1 $问题，其中系数$ b $和$ c$应满足以下条件：
${\left| r_0 \right|^p} = b{r_0^2} + c$
${\mathop{\rm sgn}} (r_0)p{\left| r_0 \right|^{p - 1}} = 2br_0$
其中， ${\mathop{\rm sgn}} \left( \cdot \right)$ 表示符号函数，具体定义为：
$${\mathop{\rm sgn}} \left( r \right) = \left{ \begin{array}{l}
1,r > 0\
0,r = 0\

1,r < 0
\end{array} \right. $通过求解上述条件，可以得到以下二次函数：$ h\left( {r\left| {{r_0}} \right.} \right) = \frac{p}{2}{\left| {{r_0}} \right|^{p - 2}}{r^2} + \left( {1 - \frac{p}{2}} \right){\left| {{r_0}} \right|^p}$$

观察函数 $h\left( {r\left| {{r_0}} \right.} \right)$ 可以发现 ${r_0} \ne 0$ ，因为当 ${r_0}= 0$ 时，系数 $b=\frac{p}{2}{\left| {{r_0}} \right|^{p - 2}}$ , $0 <p \le1 $没有意义。

为了定义在 ${r_0}= 0$ 处的函数，一种常用的方法是定义如下函数：
$$h\left( {r\left| {{r_0} = 0} \right.} \right) = \left{ \begin{array}{l}

\infty ,r \ne 0\
0,r = 0
\end{array} \right.$$
在迭代优化求解中，上式表示当第 $k$ 次迭代的结果 ${r^{\left( k \right)}} = 0$ 时，下一次迭代的结果也为0，即 ${r^{\left( k+1 \right)}} = 0$ 。

另一种常见的方法是引入一个扰动误差项 $\varepsilon > 0$ ，即：
$\frac{p}{2}{\left( {{{\left| {{r_0}} \right|}^2} + \varepsilon } \right)^{\frac{{p - 2}}{2}}}$
另一种用二次函数在零附近平滑近似（smooth approximation）不可微函数 $f\left( r \right) = {\left| r \right|^p}$ ,$0 <p \le1 $的方法是按如下函数形式引入扰动误差项$ \varepsilon > 0$：
${f^\varepsilon }\left( r \right) = \left\{ \begin{array}{l} \frac{p}{2}{\varepsilon ^{p - 2}}{r^2},\left| r \right| \le \varepsilon \\ {\left| r \right|^p} - \left( {1 - \frac{p}{2}} \right){\varepsilon ^p},\left| r \right| > \varepsilon \end{array} \right.$

2.6 $l_0$ 范数

$l_0$ 范数用于衡量向量中非零元素的数量，即衡量向量的稀疏性， $l_0$ 范数问题可以表示为：
$\mathop {\min }\limits_{\bf{x}} \ {\left\| {{\bf{Ax}} - {\bf{b}}} \right\|_0} = \sum\limits_{m = 1}^M {{\mathop{\rm sgn}} \left( {\left| {{r_m}} \right|} \right)}$
$l_0$ 范数问题是非凸的，且是离散的，其值只能取整数。为了近似 $l_0$ 范数，需要选取一些替代函数（surrogate function）来代替符号函数部分。典型的替代函数有以下三种 $^{[3]}$ ：
$\left( 1 \right)\,{g_p}\left( r \right) = {\left| r \right|^p},0 < p \le 1$
$\left( 2 \right)\,{g_p}\left( r \right) = \log \left( {1 + \left| r \right|/p} \right)/\log \left( {1 + 1/p} \right),p > 0$
$\left( 3 \right)\,{g_p}\left( r \right) = 1 - {e^{ - \left| x \right|/p}},p > 0$
因此， $l_0$ 范数可以被近似为连续函数
${\left\| {\bf{r}} \right\|_0} \approx \sum\limits_{m = 1}^M {{g_p}\left( {{r_m}} \right)}$
该连续函数可以用majorization-minimization (MM) 等方法近似为易于求解的二次函数形式。