人工智能数学课高等数学线性微积分数学教程笔记（7. 最优化）

本文链接：https://blog.csdn.net/yyywxk/article/details/127673941

本文介绍了最优化的基本概念，包括梯度下降法、牛顿法、坐标下降法等常见优化算法，并探讨了数值优化中遇到的问题及凸优化的相关理论。

前言

对人工智能数学课高等数学线性微积分数学教程的学习笔记。主要用于快速回忆已学的数学知识点，不适合基础学习。博客园中同步更新。

笔记目录

前言
7. 最优化

7. 最优化

- 基本概念

求 $f (x)$ 的极大值或极小值， $x$ 是优化变量，就是自变量， $f (x)$ 是目标函数，可能带有约束条件，满足约束并在定义域内的集合叫可行域；
$\max f(x) \Leftrightarrow\min f(x)\\ g_i(x)=0,\quad i=1,\cdots,m\\ h_j(x)\le 0\quad j=1,\cdots,n$
局部极小值：任意在 $x_0$ 的领域存在， $f(x)\ge f(x_0), \forall x\in \delta (x_0)$
通过大量实践发现在高维度的优化问题中，局部极小值 (local minimum)和全局极小值没有太大的区别，甚至有时候有更好的泛化能力。
为什么要迭代求解？(求导困难，求根困难)，(初始值，逼近)

- 梯度下降法

$\boldsymbol{x}_{k+1}=\boldsymbol{x}_k-\gamma \nabla f(\boldsymbol{x}_k)$

推导：

利用多元函数的泰勒展开公式： $f(\boldsymbol{x})-f(\boldsymbol{x}_0)\approx[\nabla f(\boldsymbol{x}_0)]^T(\boldsymbol{x}-\boldsymbol{x}_0)$
$X^TY=|X|\cdot|Y|\cdot\cos\theta$ ， $\cos\theta=-1$ 下降幅度最大
为了使得下降幅度最大，向量 $\boldsymbol{x}-\boldsymbol{x}_0$ (不一定是单位向量) 的方向和梯度方向相反： $\boldsymbol{v}=-\frac{\nabla f(\boldsymbol{x}_0)}{\left \| \nabla f(\boldsymbol{x}_0) \right \|}$
$\boldsymbol{x}=\boldsymbol{x}_0-\eta\frac{\nabla f(\boldsymbol{x}_0)}{\left \| \nabla f(\boldsymbol{x}_0) \right \|}$ ，分母是标量可并入 $\eta$ ，即 $\boldsymbol{x}=\boldsymbol{x}_0-\eta\nabla f(\boldsymbol{x}_0)$

$\eta$ 是步长，不能太大，否则不满足约等于条件。

- 牛顿法

$\boldsymbol{x}_{k+1}=\boldsymbol{x}-\boldsymbol{H}_k^{-1}\boldsymbol{g}_k$

思想：找梯度为0的点。

推导：

多元函数的泰勒展开公式展开二次以上的项
$f(\boldsymbol{x})=f(\boldsymbol{x}_0)+[\nabla f(\boldsymbol{x}_0)]^T(\boldsymbol{x}-\boldsymbol{x}_0)+\frac {1}{2}(\boldsymbol{x}-\boldsymbol{x}_0)^TH(\boldsymbol{x}_0)(\boldsymbol{x}-\boldsymbol{x}_0)+\boldsymbol{o}(\boldsymbol{x}-\boldsymbol{x}_0)$
取近似
$f(\boldsymbol{x})\approx f(\boldsymbol{x}_0)+[\nabla f(\boldsymbol{x}_0)]^T(\boldsymbol{x}-\boldsymbol{x}_0)+\frac {1}{2}(\boldsymbol{x}-\boldsymbol{x}_0)^TH(\boldsymbol{x}_0)(\boldsymbol{x}-\boldsymbol{x}_0)$
由于 $(\boldsymbol{w}^T\boldsymbol{x})'=\boldsymbol{w}$ ， $(\boldsymbol{x}^T\boldsymbol{A}\boldsymbol{x})'= (\boldsymbol{A}+\boldsymbol{A}^T)\boldsymbol{x}$ ，故有：
$\nabla f(\boldsymbol{x})\approx \nabla f(\boldsymbol{x}_0)+H(\boldsymbol{x}_0)(\boldsymbol{x}-\boldsymbol{x}_0)=\boldsymbol{g}+\boldsymbol{H}(\boldsymbol{x}-\boldsymbol{x}_0)$
令 $\nabla f(\boldsymbol{x})=0$ ，如果 Hessian 矩阵可逆，则有
$\boldsymbol{g}+\boldsymbol{H}(\boldsymbol{x}-\boldsymbol{x}_0)=0\\ \Rightarrow \boldsymbol{x}-\boldsymbol{x}_0=-\boldsymbol{H}^{-1}\boldsymbol{g}$

对比：
$\boldsymbol{x}_{k+1}=\boldsymbol{x}_k-\eta\cdot\boldsymbol{g}_k\\ \boldsymbol{x}_{k+1}=\boldsymbol{x}_k-\eta\cdot\boldsymbol{H}^{-1}_k\cdot\boldsymbol{g}_k$

牛顿法步长设定不好就有可能不收敛，不是迭代就一定使得函数值下降，一般用 line search 的技术，选择一些值如 $10^{-4},10^{-6}$ ，看哪个步长使得 $f(\boldsymbol{x}_{k+1})$ 更小。
牛顿法收敛更快。

- 坐标下降法

分治 (分而治之) 法的思想：保持其他不动，只优化其中一个，优化完了之后再回来重新优化。
计算量小

- 数值优化算法面临的问题

驻点不一定是极值点
局部极值问题；
鞍点问题，如 $x^3$ ，在这一点 Hessian 矩阵不定，

- 凸优化问题

前面数值优化面临两个问题，对这类问题进行限定：

优化变量的可行域必须是凸集；
优化函数必须是个凸函数。

同时满足这两个条件的叫凸优化问题，才能说局部极小值就是全局极小值。

- 凸集

定义：对于一个点的集合 $C$ ，有属于它的两个点 $x, y$ ，它们两点连线中任意一点也属于该集合： $\theta x+(1-\theta)y\in C,0\le\theta\le1$
典型的凸集：
- 欧式空间 $\mathbb{R}^n$ ： $\boldsymbol{x},\boldsymbol{y} \in \mathbb{R}^n\Rightarrow \theta \boldsymbol{x} +(1-\theta)\boldsymbol{y}\in \mathbb{R}^n$ ；很多可行域就是欧式空间，即凸集；
- 仿射子空间： $\left \{ \boldsymbol{x}\in\mathbb{R}^n:\boldsymbol{A}\boldsymbol{x}=\boldsymbol{b} \right \}$ ， $\boldsymbol{x}$ 是 $n$ 维欧式空间的向量，满足线性方程的解；所有等式约束构成的集合是凸集，不会构建非线性等式约束；
- 多面体： $\left \{ \boldsymbol{x}\in\mathbb{R}^n:\boldsymbol{A}\boldsymbol{x}\le\boldsymbol{b} \right \}$ ，线性不等式的解；一组线性不等式约束，也是凸集。
凸集的交集也是凸集 $\bigcap\limits_{i=1}^{k}C_i$ ，并集不一定是凸集。

- 凸函数

定义：函数上任意两点它们的连线 (即割线) 上的值比对应的函数上的值要大， $f(\theta x+(1-\theta )y)<\theta f(x)+(1-\theta )f(y)$
凸函数的证明：
1. 利用定义
2. 利用一阶导数：
  - 一元函数： $f(y)\ge f(x)+f'(x)(y-x)$
  - 多元函数： $f(\boldsymbol{y})\ge f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^T(\boldsymbol{y}-\boldsymbol{x})$
3. 二阶判别法：
  - 一元函数： $f''(x)\ge 0$
  - 多元函数：Hessian 矩阵半正定， $> 0$ 是严格凸函数
如果每个函数 $f_i(x)$ 都是凸函数，那么它们的非负线性组合 $f(x)=\sum\limits_{i=1}^{k}w_if_i(x),w_i\ge 0$ 也是凸函数。

- 凸优化的性质

目标函数是凸函数，可行域是凸集，则局部最优解一定是全局最优解。

证明：(反证法)

假设有一点 $x$ 是局部最小值，但不是全局最小值，则存在另一个点 $y$ 是全局最小值，这时 $f (y) < f (x)$ 。

证明 $x$ 的领域有一个点 $z$ 比 $x$ 小即可，取 $z=\theta y+(1-\theta)x,\theta=\frac{\delta}{2\|x-y\|_2}$ 即可。

- 凸优化一般的表述形式

$\min f(x),x\in C$

或者
$\min f(x)\\ c_i(x)\le0,i=1,\cdots,m\\ h_j(x)=0,j=1,\cdots,k$

- 拉格朗日乘数法

将一个有n 个变量与k 个约束条件的最优化问题转换为一个有n + k个变量的方程组的极值问题，其变量不受任何约束；

(1) 等式约束条件
$\min f(\boldsymbol{x})\\ s.t.\quad h_k(\boldsymbol{x})=0 \quad k=1,2,\cdots,l$
求解步骤：

定义拉格朗日函数：
$F(\boldsymbol{x},\boldsymbol{\lambda})=f(\boldsymbol{x})+\sum\limits_{k=1}^l\lambda_kh_k(\boldsymbol{x})$
解变量的偏导方程：
$\frac{\partial F}{\partial x_i}=0,\cdots,\frac{\partial F}{\partial \lambda _k}=0,\cdots$
或者说是分别对 $\boldsymbol{x}$ 和 $\boldsymbol{\lambda}$ 求梯度，然后解方程组
$\nabla_xf+\sum\limits_{k=1}^l\lambda_k\nabla_xh_k=0\\ h_k(\boldsymbol{x})=0$

(2) 带不等式约束条件

可参考KKT条件。

- 拉格朗日对偶

$\min f(x)\\ g_i(x)\le0,i=1,\cdots,m\\ h_j(x)=0,j=1,\cdots,k$

构建一个广义 (包括不等式约束) 的拉格朗日函数：
$L(x,\alpha,\beta)=f(x)+\sum\limits_{i=1}^m\alpha_ig_i(x)+\sum\limits_{j=1}^k\beta_ih_j(x),\alpha_i\ge 0$
问题转化为：
$p^*=\min_x \max_{\alpha,\beta,\alpha_i\ge 0}L(x,\alpha,\beta)=\min_x\theta_p(x)$
理解可参考：【数学】拉格朗日对偶，从0到完全理解

无论如何， $p^*$ 都不会小于 $\max\limits_{\alpha,\beta,\alpha_i\ge 0}L(x,\alpha,\beta)$ 。

- KKT 条件

$\min f(x)\\ g_i(x)\le0,i=1,\cdots,q\\ h_j(x)=0,j=1,\cdots,p$

$L(x,\lambda,\mu)=f(x)+\sum\limits_{j=1}^p\lambda_jh_j(x)+\sum\limits_{i=1}^q\mu_ig_i(x)$

KKT 条件：
$\nabla_x L(x^*)=\nabla f(x^*) +\sum\limits_{j=1}^p\lambda_i^*\nabla h_j(x^*)+\sum\limits_{i=1}^q\mu_i^*\nabla g_i(x^*)=0\\ \mu_i^*\ge0\\ \mu_i^*g_i(x^*)=0\\ h_j(x^*)=0\\ g_i(x^*)\le0$