[卡内基梅隆大学]10-725: Optimization Fall 2012 -Lecture 17: October 23 构造对偶函数

最新推荐文章于 2021-06-20 23:01:17 发布

机器学习的小学生

最新推荐文章于 2021-06-20 23:01:17 发布

阅读量1k

点赞数

分类专栏：凸优化

本文链接：https://blog.csdn.net/raby_gyl/article/details/53188487

版权

凸优化专栏收录该内容

28 篇文章 6 订阅

订阅专栏

问题1：求解 $l_{1,\infty}$ 范数子问题。

即求解在文献2中，有公式(10):

min w 1 2 | | w - v | | 22 + λ^| | w | | \infty 问 题 1

$\min_{\mathbf w} \frac{1}{2} ||\mathbf w- \mathbf v||_2^2 +\hat{\lambda}||\mathbf w||_{\infty} \qquad 问题1$ 因为二次函数的共轭是仍然是二次函数，

l∞ $l_{\infty}$ 范数的共轭是

l1 $l_1$ 障碍函数。因此得到公式（10）的对偶形式为如下公式(11)：

min a 1 2 | | a - v | | 22 s . t . | | a | | 1 \leq λ^

$\begin{equation} \min_{\mathbf a}\frac{1}{2} ||\mathbf a-\mathbf v||_2^2 \\ s.t. ||\mathbf a||_1 \leq \hat \lambda \end{equation}$
其中

a=v−w $\mathbf a=\mathbf v-\mathbf w$ .
公式(10)到公式（11）是怎么推导的呢？（由于

α $\alpha$ 打不出矢量的形式（粗体），我们使用

a $a$ 代替）
疑问：一说到函数的对偶，一般就是拉格朗日对偶，即有约束的函数才有对偶形式，公式(10）是无约束的情况，如何求解其对偶函数呢？
突破口:将无约束的问题转换为有约束的问题。从题中可以看到，公式（11）多了一个等式条件：

a=v−w $\mathbf a=\mathbf v-\mathbf w$ .

解：
参照文献1中17.4.2 Dual construction via conjugates of pairs of functions
我们将公式(10)，引入约束 $\mathbf a=\mathbf v-\mathbf w$ ，则 $\mathbf w=\mathbf v-\mathbf a$ ,将其带入公式(10)中的第二个公式得到；

min w ， a 1 2 | | w - v | | 22 + λ^| | v - a | | \infty s . t . w = v - a

$\begin{equation} \min_{\mathbf w，\mathbf a} \frac{1}{2} ||\mathbf w- \mathbf v||_2^2 +\hat{\lambda}||\mathbf v-\mathbf a||_{\infty} \\ s.t. \mathbf w=\mathbf v -\mathbf a \end{equation}$
写成拉格朗日的形式为：

g (u) = min w ， a 1 2 | | w - v | | 22 + λ^| | v - a | | \infty + u T (v - w - a)

$\begin{equation} g(u)=\min_{\mathbf w，\mathbf a} \frac{1}{2} ||\mathbf w- \mathbf v||_2^2 +\hat{\lambda}||\mathbf v-\mathbf a||_{\infty} +\mathbf u^T(\mathbf v-\mathbf w -\mathbf a) \end{equation}$
进行变量的分解：

g (u) = min w 1 2 | | w - v | | 22 - u T w + min a λ^| | v - a | | \infty - u T (a - v)

$\begin{equation} g(u)={\color{red}{\min_{\mathbf w} \frac{1}{2} ||\mathbf w- \mathbf v||_2^2 -\mathbf u^T \mathbf w}}+{\color{blue}{\min_{\mathbf a}\hat{\lambda}||\mathbf v-\mathbf a||_{\infty} -\mathbf u^T (\mathbf a-\mathbf v)}} \end{equation}$
转换为求最大值：

g (u) = - max w u T w - 1 2 | | w - v | | 22 - max a u T (a - v) - λ^| | v - a | | \infty

$\begin{equation} g(u)={\color{red}{-\max_{\mathbf w} \mathbf u^T \mathbf w-\frac{1}{2} ||\mathbf w- \mathbf v||_2^2 }}-{\color{blue}{\max_{\mathbf a} \mathbf u^T (\mathbf a-\mathbf v)-\hat{\lambda}||\mathbf v-\mathbf a||_{\infty} }} \end{equation}$
进行变量的替换，化简第二项：

g (u) = - max w u T w - 1 2 | | w - v | | 22 - max a - u T (v - a) - λ^| | v - a | | \infty g (u) = - max w u T w - 1 2 | | w - v | | 22 - max w - u T (w) - λ^| | w | | \infty

$\begin{equation} g(u)={\color{red}{-\max_{\mathbf w} \mathbf u^T \mathbf w-\frac{1}{2} ||\mathbf w- \mathbf v||_2^2 }}-{\color{blue}{\max_{\mathbf a} -\mathbf u^T (\mathbf v-\mathbf a)-\hat{\lambda}||\mathbf v-\mathbf a||_{\infty} }}\\ g(u)={\color{red}{-\max_{\mathbf w} \mathbf u^T \mathbf w-\frac{1}{2} ||\mathbf w- \mathbf v||_2^2 }}-{\color{blue}{\max_{\mathbf w} -\mathbf u^T (\mathbf w)-\hat{\lambda}||\mathbf w||_{\infty} }} \end{equation}$
因此，由共轭函数的定义，上述可以表示成共轭形式，其中令

f1(w)=12||w−v||22 $f_1(\mathbf w)=\frac{1}{2}||\mathbf w-\mathbf v||_2^2$ ,

f2(a)=λ^||a||∞ $f_2(\mathbf a)=\hat \lambda ||\mathbf a||_{\infty}$ ：

max u g (u) = max u - f * 1 (u) - f * 2 (- u)

$\max_{\mathbf u}g(\mathbf u)=\max_{\mathbf u} -f_1^*(u)-f_2^*(-u)$
即为：

a r g min u g (u) = a r g min u f * 1 (u) + f * 2 (- u)

$arg\min_{\mathbf u}g(\mathbf u)=arg\min_{\mathbf u} f_1^*(u)+f_2^*(-u)$

由2范数的平方的共轭函数是其本身，范数的共轭函数是其对偶范数单位球的示性函数[参见凸优化102页，例3.26]。并且由范数的性质：

| | - x | | = | | x | |

$||-x||=||x||$
我们最终得到公式（11）。
还有一点是，函数

f(x)=||x|| $f(x)=||x||$ 的共轭函数是：

f * (y) = {0 \infty | | y | | * \leq 1 其 他 情 况

$\begin{equation} f^*(y)= \begin{cases} 0 &||y||_* \leq 1 \\ \infty & 其他情况 \end{cases} \end{equation}$
那么函数

f(x)=λ||x|| $f(x)=\lambda||x||$ 的共轭函数是:

f * (y) = {0 \infty | | y | | * \leq λ 其 他 情 况

$\begin{equation} f^*(y)= \begin{cases} 0 &||y||_* \leq \lambda \\ \infty & 其他情况 \end{cases} \end{equation}$
其可以通过参考： http://blog.csdn.net/raby_gyl/article/details/53178467
中的一维情况来理解（此时

y,λ $y,\lambda$ 均相当于线的斜率）。

问题2：求解 $l_{1,2}$ 范数子问题

即求解问题：

min w 1 2 | | w - v | | 22 + λ^| | w | | 2 问 题 2

$\min_{\mathbf w} \frac{1}{2}||\mathbf w-\mathbf v||_2^2 +\hat{\lambda}||\mathbf w||_2 \qquad 问题2$
可能可行的求解方法：上面是关于

w $\mathbf w$ 的二次函数，如果我们直接对

f(w) $f(\mathbf w)$ 关于

w $\mathbf w$ 求偏导，然后令其等于0.

\partial f ( w ) \partial w = w - v + λ^w | | w | | 2 = 0

$\frac{\partial f(\mathbf w)}{\partial \mathbf w}=\mathbf w-\mathbf v+\hat {\lambda} \frac{\mathbf w}{||\mathbf w||_2}=0$
显然，通过上的公式我们很难化简出来

w $\mathbf w$ .
可行的方法: 和上面类似，我们引入一个等式约束，然后利用求解带有等式约束的拉格朗日对偶函数。
等式约束：

a = v - w

$\mathbf a=\mathbf v-\mathbf w$
同上面类似，范数平方的共轭是其本身，而范数的共轭是对偶范数在单位球上的示性函数，并且将最大化问题转化为共轭的问题，因此转化为下面的优化问题：

min a 1 2 | | a - v | | 22 s . t . | | a | | 2 \leq λ^

$\begin{equation} \begin{aligned} \min_{\mathbf a}\frac{1}{2}||\mathbf a-\mathbf v||_2^2 \\ s.t. ||\mathbf a||_2 \leq \hat {\lambda} \end{aligned} \end{equation}$
其中

a=v−w $\mathbf a=\mathbf v-\mathbf w$ 。
很显然，如果

||v||2≤λ^ $||\mathbf v||_2 \leq \hat \lambda$ ，则

a=v $\mathbf a=\mathbf v$ ,则

w=v−v=0 $\mathbf w=\mathbf v-\mathbf v=\mathbf 0$ 。
在观察一下公式问题2，假定存在一个

w∗ $\mathbf w^*$ 使得问题2最小化，并且

w∗ $\mathbf w^*$ 与

v $\mathbf v$ 不共向，即不满足:

w * \neq k v

$\mathbf w^* \neq k \mathbf v$ ,则必然存在另外一个向量

w0 $\mathbf w_0$ ，其大小和

w∗ $\mathbf w^*$ 相同，方向和

v $\mathbf v$ 相同，即满足：

w 0 = v | | v | | 2 * | | w * | |

$\mathbf w_0=\frac{\mathbf v}{||\mathbf v||_2}*||\mathbf w^*||$ .
那么必有

f(w0)<f(w∗) $f(\mathbf w_0)<f(\mathbf w^*)$ ，与已知相矛盾，所以可得最优解

w∗ $\mathbf w^*$ 与

v $\mathbf v$ 同方向，即满足:

w * = k v

$\mathbf w^*=k\mathbf v$
那么

a $\mathbf a$ 也与

v $\mathbf v$ 同向，即满足:

a = k' v

$\mathbf a=k'\mathbf v$
这里写图片描述

如上图，向量b=c-a,令向量c代表v,向量a代表w,那么我们总能找到一个a’,其大小与a相同，方向与c同向，可知道|c-a’|<|c-a|=|b|.
现在我们已知的条件有:

min w 1 2 | | a - v | | 22 s . t . | | a | | 2 \leq λ^a = k' v

$\begin{equation} \begin{aligned} \min_{\mathbf w}\frac{1}{2}||\mathbf a-\mathbf v||_2^2 \\ s.t. ||\mathbf a||_2 \leq \hat {\lambda} \\ \quad \mathbf a=k'\mathbf v \end{aligned} \end{equation}$
我们可以通过画图的方式简单的求解：
这里写图片描述

点

v $\mathbf v$ 或者说向量

v $\mathbf v$ 到圆内最近投影肯定在圆的边界上，并且投影后的矢量与

v $\mathbf v$ 同向，即图中红色的点所示，其大小为圆的半径，其方向为

v $\mathbf v$ 的方向，因此有：

a = 尺 度 * 方 向 = λ^v | | v | | 2

$\mathbf a=尺度*方向=\hat \lambda \frac{\mathbf v}{||\mathbf v||_2}$
则

w=v−λ^v||v|| $\mathbf w=\mathbf v-\hat \lambda \frac{\mathbf v}{||\mathbf v||}$ .
因此最后的最优解为：

w * = ⎧ ⎩ ⎨ ⎪ ⎪ (1 - λ ^ | | v | | 2) v 0 | | v | | 2 > λ^| | v | | 2 \leq λ^

$\begin{equation} \mathbf w*= \begin{cases} \left ( 1- \frac{\hat \lambda}{||\mathbf v||_2} \right ) \mathbf v &||\mathbf v||_2 > \hat \lambda \\ \mathbf 0 & ||\mathbf v||_2 \leq \hat \lambda \end{cases} \end{equation}$

参考文献：
1. 10-725: Optimization Fall 2012
Lecture 17: October 23
Lecturer: Geoff Gordon/Ryan Tibshirani Scribes: Yifei Ma, Mahdi Pakdaman Naeini
2. Accelerated Gradient Method for Multi-Task Sparse Learning Problem

机器学习的小学生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[卡内基梅隆大学]10-725: Optimization Fall 2012 -Lecture 17: October 23 构造对偶函数

问题1：求解l1,∞l_{1,\infty}范数子问题。即求解在文献2中，有公式(10): minw12||w−v||22+λ^||w||∞问题1\min_{\mathbf w} \frac{1}{2} ||\mathbf w- \mathbf v||_2^2 +\hat{\lambda}||\mathbf w||_{\infty} \qquad 问题1因为二次函数的共轭是仍然是二次函数，l∞l_
复制链接

扫一扫