凸优化学习：无约束优化

最新推荐文章于 2023-06-05 17:45:51 发布

xholes

最新推荐文章于 2023-06-05 17:45:51 发布

阅读量1.1k

点赞数

分类专栏：数学文章标签：凸优化无约束梯度下降最速下降

本文链接：https://blog.csdn.net/xholes/article/details/79921875

版权

数学专栏收录该内容

7 篇文章 0 订阅

订阅专栏

无约束优化

模型

无约束优化的问题模型：

min f (x)

$\min f(x)$
其中

f(x) f ( x ) $f(x)$ 是二次可微凸函数。假定该问题存在最优点

x∗ x ∗ $x^*$ ,那么应该有：

\nabla f (x *) = 0

$\nabla f(x^*)=0$
因此，该问题等价于求解

n n $n$ 个变量的

n

$n$ 个方程。在一些特殊情况下，可以得到该问题的解析解；通常情况下，需要通过迭代的方式来获得该问题的数值解。

强凸性
如果存在 $m\gt0$ 使得 $\nabla ^2f(x)\ge mI$ 对任意的 $x\in S$ 都成立，则称 $f(x)$ 在 $S$ 上是强凸的。

以下讨论均假设目标函数具有强凸性。

下降方法

无约束的优化方法通常采用下降的迭代方法来获取最优值。通常是产生一个点列 $x^{(k)}$ ：

x (k + 1) = x (k) + t (k) Δ x (k), t (k) \geq 0

$x^{(k+1)} = x^{(k)}+t^{(k)}\Delta x^{(k)}, t^{(k)}\ge0$
其中，

Δx Δ x $\Delta x$ 是一个向量，称之为 搜索方向；标量

t(k) t ( k ) $t^{(k)}$ 称为步长。在下降法中，总有：

f (x (k + 1)) \leq f (x (k))

$f(x^{(k+1)}) \le f(x^{(k)})$

函数的二阶展开式：

f (x (k + 1)) = f (x (k)) + \nabla f (x (k)) T (f (x (k + 1)) - f (x (k))) + 1 2 (f (x (k + 1)) - f (x (k))) T \nabla 2 f (z) (f (x (k + 1)) - f (x (k))), z \in [f (x (k)), x (k + 1)]

$f(x^{(k+1)}) = f(x^{(k)}) + \nabla f(x^{(k)})^T(f(x^{(k+1)})-f(x^{(k)})) +\frac{1}{2} (f(x^{(k+1)})-f(x^{(k)}))^T\nabla^2f(z)(f(x^{(k+1)})-f(x^{(k)})) , z\in[f(x^{(k)}),x^{(k+1)}]$
对于强凸性函数，最后一项非负，因此第二项必须为负，即：

\nabla f (x (k)) T (f (x (k + 1)) - f (x (k))) = \nabla f (x (k)) T Δ x (k) < 0

$\nabla f(x^{(k)})^T(f(x^{(k+1)})-f(x^{(k)}))= \nabla f(x^{(k)})^T\Delta x^{(k)}\lt0$
也就是说，搜索方向应该与梯度方向成锐角才能使得函数值有所下降。称这样的方向为 下降方向。那么可以给出优化迭代的伪代码：
~—————————————下降算法伪码———————————-

给定初始迭代点（该点应该定义域内）
确定下降方向 $\Delta x$
选择步长 $t$ ，直线搜索
修改迭代点： $x:=x+t\Delta x$
检测终止条件，不满足则跳至第2步

~———————————————————————————————-

梯度下降法

令 $\Delta x = -\nabla f(x)$ ，则很容易满足下降条件。此方法称为梯度下降法。

~—————————————梯度下降算法伪码———————————-

给定初始迭代点（该点应该定义域内）
确定下降方向 $\Delta x= -\nabla f(x)$
选择步长 $t$ ，直线搜索
修改迭代点： $x:=x+t\Delta x$
检测终止条件，不满足则跳至第2步

~———————————————————————————————-

梯度下降法的收敛速度依赖于Hessian矩阵。

最速下降法

如果对函数进行一阶泰勒展开：

f (x + Δ x) \approx f (x) + \nabla f (x) T Δ x

$f(x+\Delta x)\approx f(x)+\nabla f(x)^T\Delta x$
称第二项为

f f $f$ 在

x

$x$ 处的方向导数，近似地给出了在方向

Δx Δ x $\Delta x$ 下的变化趋势。如果这一项为负，则该方向就是下降方向。方向导数是搜索方向的线性函数(x是已知的迭代点，那么其一阶导数也是已知的)，在下降方向上

Δx Δ x $\Delta x$ 越大该方向导数则越小。为了使其有意义，可以规范

Δx Δ x $\Delta x$ 的大小，此时的方向为规范化的最速下降方向：

Δ x n s d = a r g m i n {\nabla f (x) T Δ x | ∥ Δ x ∥ \leq 1}

$\Delta x_{nsd} = argmin \{\nabla f(x)^T\Delta x | \Vert {\Delta x}\Vert \le 1 \}$

~—————————————最速下降算法伪码———————————-

给定初始迭代点（该点应该定义域内）
计算最速下降方向 $\Delta x_{sd}$
选择步长 $t$ ，直线搜索
修改迭代点： $x:=x+t\Delta x_{sd}$
检测终止条件，不满足则跳至第2步

~—————————————————————————————————-
$\ell_1-范数的最速下降法是坐标下降法。$
二次 $P$ -范数的最速下降法等同于对问题进行了坐标变化 $\bar x =p^{1/2}后的梯度下降法。$

牛顿法

对函数进行二阶泰勒展开：

f (x + Δ x) \approx f (x) + \nabla f (x) T Δ x + 1 2 Δ x T \nabla 2 f (x) Δ x

$f(x+\Delta x) \approx f(x) + \nabla f(x)^T \Delta x+\frac{1}{2} \Delta x^T\nabla^2f(x) \Delta x$
右边是一个关于

Δx Δ x $\Delta x$ 的二次凸函数，由最优性条件可以得知，对其求导可得导数为0：

\nabla f (x) T + \nabla 2 f (x) Δ x = 0

$\nabla f(x)^T +\nabla^2f(x) \Delta x = 0$
解该方程得：

Δ x = - (\nabla 2 f (x)) - 1 \nabla f (x) T

$\Delta x = -(\nabla^2f(x) )^{-1}\nabla f(x)^T$
将该解带入原式可得：

f (x + Δ x) - f (x) \approx \nabla f (x) T Δ x + 1 2 Δ x T \nabla 2 f (x) Δ x = - \nabla f (x) T (\nabla 2 f (x)) - 1 \nabla f (x) - \nabla f (x) T (\nabla 2 f (x)) - T \nabla f (x) = - \nabla [(\nabla 2) - T + (\nabla 2) - 1] \nabla

$f(x+\Delta x) -f(x) \approx \nabla f(x)^T \Delta x+\frac{1}{2} \Delta x^T\nabla^2f(x) \Delta x = -\nabla f(x)^T (\nabla^2f(x) )^{-1}\nabla f(x) -\nabla f(x)^T (\nabla^2f(x) )^{-T}\nabla f(x) = -\nabla[(\nabla^2)^{-T}+(\nabla^2)^{-1}] \nabla$
由

∇2f(x) ∇ 2 f ( x ) $\nabla^2f(x)$ 的正定性可知，上式子在非最优值处均小于0。所以

Δx Δ x $\Delta x$ 方向为下降方向。此搜索方向称之为牛顿搜索方向。

~—————————————牛顿下降算法伪码———————————-

给定初始迭代点（该点应该定义域内）
计算牛顿方向 $\Delta x_{nt} = -(\nabla^2f(x) )^{-1}\nabla f(x)^T$
选择步长 $t$ ，直线搜索
修改迭代点： $x:=x+t\Delta x_{sd}$
检测终止条件，不满足则跳至第2步

~—————————————————————————————————-

实际上，牛顿搜索方向就是采用Hessian矩阵 $\nabla^2f(x)$ 定义的二次范数推导的最速下降法。

拟牛顿法

共轭梯度法

Reference

[1] 凸优化

xholes

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
凸优化学习：无约束优化

无约束优化模型无约束优化的问题模型： minf(x)minf(x)\min f(x) 其中f(x)f(x)f(x)是二次可微凸函数。假定该问题存在最优点x∗x∗x^*,那么应该有： ∇f(x∗)=0∇f(x∗)=0\nabla f(x^*)=0 因此，该问题等价于求解nnn个变量的nnn个方程。在一些特殊情况下，可以得到该问题的解析解；通常情况下，需要通过迭代的方式来获得该...
复制链接

扫一扫

专栏目录