$l_1$ 正则化问题的近端映射--软阈值函数（soft-thresholding function）

xy_optics

已于 2024-10-11 14:44:08 修改

阅读量1.1k

点赞数 21

分类专栏： optimization 文章标签：算法

于 2024-10-11 14:22:36 首次发布

本文链接：https://blog.csdn.net/xy_optics/article/details/142853026

版权

optimization 专栏收录该内容

22 篇文章

订阅专栏

文章目录

1.问题

给定一个闭凸函数 $g(\mathbf{u}) = \|\mathbf{u}\|_1$ （即 $l_1$ 范数），近端映射的定义为：

$\text{prox}_t(\|\cdot\|_1)(\mathbf{x}) = \arg\min_{\mathbf{u}} \left\{ \|\mathbf{u}\|_1 + \frac{1}{2t} \|\mathbf{u} - \mathbf{x}\|^2 \right\}.$

我们的目标是找到一个点 $\mathbf{u}$ ，使得上述表达式达到最小值。

为了简化分析，我们可以将优化问题分量化，即对每个分量 $x_i$ 单独考虑。优化问题可以被分解为：

$\min_{u_i} \left\{ |u_i| + \frac{1}{2t} (u_i - x_i)^2 \right\}.$

2.求解

我们将对不同的情况进行讨论，根据 $u_i$ 的符号，我们可以将绝对值函数 $u_i|$ 分解为不同的形式：

当 $u_i > 0$ 时， $u_i| = u_i$ ，优化问题变为：

$\min_{u_i > 0} \left\{ u_i + \frac{1}{2t} (u_i - x_i)^2 \right\}.$
当 $u_i < 0$ 时， $u_i| = -u_i$ ，优化问题变为：

$\min_{u_i < 0} \left\{ -u_i + \frac{1}{2t} (u_i - x_i)^2 \right\}.$
当 $u_i = 0$ 时，表达式的值为 $\frac{1}{2t} x_i^2$ 。

我们可以通过对这些情况下的函数求导来找到最优值。

当 $u_i > 0$ 时：

$\frac{d}{du_i} \left( u_i + \frac{1}{2t} (u_i - x_i)^2 \right) = 1 + \frac{1}{t} (u_i - x_i).$

令导数等于 0，得到：

$\frac{1}{t} (u_i - x_i) = 0 \implies u_i = x_i - t.$

当 $u_i < 0$ 时：

$\frac{d}{du_i} \left( -u_i + \frac{1}{2t} (u_i - x_i)^2 \right) = -1 + \frac{1}{t} (u_i - x_i).$

令导数等于 0，得到：

$\frac{1}{t} (u_i - x_i) = 0 \implies u_i = x_i + t.$

根据上面的求导结果，我们需要结合以下条件来得到最优解：

当 $x_i > t$ 时，最优解为 $u_i = x_i - t$ ；
当 $x_i < -t$ 时，最优解为 $u_i = x_i + t$ ；
当 $|x_i| \leq t$ 时，最优解为 $u_i = 0$ 。

这三种情况可以统一写成软阈值函数的形式：

$\text{prox}_t(\|\cdot\|_1)(x_i) = \text{sign}(x_i) \cdot \max(|x_i| - t, 0).$

3.直观理解

软阈值函数的作用是对每个分量进行“收缩”：

如果 $x_i$ 的绝对值大于阈值 $t$ ，那么它被缩小 $t$ 的量；
如果 $x_i$ 的绝对值小于或等于 $t$ ，那么它被直接置为 0。

4.例子

假设 $\mathbf{x} = (3, -1, 0.5)$ 且 $t = 1$ ，那么通过近端映射计算得到：

对于 $x_1 = 3$ ： $\text{prox}_1(\|\cdot\|_1)(3) = \text{sign}(3) \cdot (3 - 1) = 2$ 。
对于 $x_2 = -1$ ： $\text{prox}_1(\|\cdot\|_1)(-1) = \text{sign}(-1) \cdot (1 - 1) = 0$ 。
对于 $x_3 = 0.5$ ： $\text{prox}_1(\|\cdot\|_1)(0.5) = \text{sign}(0.5) \cdot \max(0.5 - 1, 0) = 0$ 。

因此，近端映射的结果是 $\text{prox}_1(\|\cdot\|_1)(\mathbf{x}) = (2, 0, 0)$ 。

在这个例子中，我们可以看到，对于给定的输入 $\mathbf{x} = (3, -1, 0.5)$ ，近端映射给出了唯一的输出 $(2, 0, 0)$ 。无论我们如何重复计算，给定相同的 $\mathbf{x}$ 和参数 $t$ ，结果总是相同的。这就是所谓的单值映射，即每一个输入只对应一个唯一的输出。