807补充（八）（多元函数极值篇）

总是摸鱼的猫

已于 2024-01-14 18:22:02 修改

阅读量953

点赞数 22

分类专栏：模式识别补充文章标签：线性代数矩阵

于 2024-01-14 18:20:03 首次发布

本文链接：https://blog.csdn.net/weixin_54255111/article/details/135586403

版权

模式识别补充专栏收录该内容

11 篇文章 6 订阅

订阅专栏

807补充（八）（多元函数极值篇）

在这里插入图片描述

一. $\text { 可微多变量函数 } f(\boldsymbol x) \text { 的极值点 }$

考虑以实向量 $\boldsymbol{x}=\left[x_1, \cdots, x_n\right]^{\mathrm{T}}$ 作变元的实值函数 $f(\boldsymbol{x}): \mathbb{R}^n \rightarrow \mathbb{R}$ 的无约束极小化问题
$\min _{\boldsymbol{x} \in S} f(\boldsymbol{x})\tag{1.1}$

式中 $\in \mathbb{R}^n$ 是 $n$ 维向量空间 $\mathbb{R}^n$ 的一个子集合.

定义: 给定一个点 $\overline{\boldsymbol{x}} \in \mathbb{R}^n$ , 点 $\overline{\boldsymbol{x}}$ 的一 (闭合) 邻域记作 $B(\overline{\boldsymbol{x}} ; r)$ , 是满足 $\| \boldsymbol{x}-$ $\overline{\boldsymbol{x}} \|_2 \leqslant r$ (其中 $r > 0$ ) 的所有点 $\boldsymbol{x}$ 的集合, 即
$B(\overline{\boldsymbol{x}} ; r)=\left\{\boldsymbol{x} \mid\|\boldsymbol{x}-\overline{\boldsymbol{x}}\|_2 \leqslant r\right\}$

令 $\boldsymbol{c}=\left[c_1, \cdots, c_n\right]^{\mathrm{T}}$ 是向量空间 $\mathbb{R}^n$ 内的一个点, 且 $r$ 为某个正数。向量空间 $\mathbb{R}^n$ 内与点 $\boldsymbol{c}$ 的距离 $\|\boldsymbol{x}-\boldsymbol{c}\|_2$ 小于 $r$ 的所有向量 $\boldsymbol{x}$ 的集合称作以 $\boldsymbol{c}$ 为中心, $r$ 为半径的 $n$ 维球体 $\left(n\right.$ -ball), 记为 $B (c; r)$ 或者 $B (c)$ , 即有
$B(\boldsymbol{c} ; r)=\left\{\boldsymbol{x} \mid \boldsymbol{x} \in \mathbb{R}^n,\|\boldsymbol{x}-\boldsymbol{c}\|_2<r\right\}$
$n$ 维球体 $B(\boldsymbol{c} ; r)$ 也称向量 $\boldsymbol{c}$ 的邻域。
令 $\Delta \boldsymbol{x}=\boldsymbol{x}-\boldsymbol{c}$ , 则在半径 $r$ 足够小的邻域 $B(\boldsymbol{c} ; r)$ 内, 实变函数 $f(\boldsymbol{x})$ 在点 $\boldsymbol{c}$ 的二阶 Taylor 级数逼近为
$\begin{aligned} f(\boldsymbol{c}+\Delta \boldsymbol{x}) & =f(\boldsymbol{c})+\left(\frac{\partial f(\boldsymbol{c})}{\partial \boldsymbol{c}}\right)^{\mathrm{T}} \Delta \boldsymbol{x}+\frac{1}{2}(\Delta \boldsymbol{c})^{\mathrm{T}} \frac{\partial^2 f(\boldsymbol{c})}{\partial \boldsymbol{c} \partial \boldsymbol{c}^{\mathrm{T}}} \Delta \boldsymbol{x} \\ & =f(\boldsymbol{c})+(\nabla f(\boldsymbol{c}))^{\mathrm{T}} \Delta \boldsymbol{x}+\frac{1}{2}(\Delta \boldsymbol{x})^{\mathrm{T}} \boldsymbol{H}(f(\boldsymbol{c})) \Delta \boldsymbol{x}\\ &=f(\boldsymbol{c})+(\nabla f(\boldsymbol{c}))^{\mathrm{T}} \Delta \boldsymbol{x}+\frac{1}{2}(\Delta \boldsymbol{x})^{\mathrm{T}} \nabla^2(f(\boldsymbol{c})) \Delta \boldsymbol{x} \end{aligned} \tag{1.2}$

式中
$\begin{gathered} \nabla f(\boldsymbol{c})=\frac{\partial f(\boldsymbol{c})}{\partial \boldsymbol{c}}=\left.\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}}\right|_{\boldsymbol{x}=\boldsymbol{c}} \\ \nabla^2 f(\boldsymbol c)= \boldsymbol{H}(f(\boldsymbol{c}))=\frac{\partial^2 f(\boldsymbol{c})}{\partial \boldsymbol{c} \partial \boldsymbol{c}^{\mathrm{T}}}=\left.\frac{\partial^2 f(\boldsymbol{x})}{\partial \boldsymbol{x} \partial \boldsymbol{x}^{\mathrm{T}}}\right|_{\boldsymbol{x}=\boldsymbol{c}} \end{gathered}$

分别是函数 $f (x)$ 在点 $\boldsymbol{c}$ 的的梯度向量和 Hessian 矩阵。
将单变量函数的极值点的定义加以推广, 即可得到以实向量为变元的实值函数 $f(\boldsymbol{x})$ 的极小点的定义如下。(极大点类似)

定义令标量 $r > 0$ , 并且 $\boldsymbol{x}=\boldsymbol{c}+\Delta \boldsymbol{x}$ 是向量空间 $\mathbb{R}^n$ 的子集合 $S$ 的点。若
$\leqslant f(c+\Delta x) \quad \forall 0<\|\Delta x\|_2 \leqslant r ;$

则称点 $\boldsymbol{c}$ 是函数 $f(\boldsymbol{x})$ 的一个局部极小点。若
$f(\boldsymbol{c})<f(\boldsymbol{c}+\Delta \boldsymbol{x}) \quad \forall 0<\|\Delta \boldsymbol{x}\|_2 \leqslant r ;$

则称点 $\boldsymbol{c}$ 是函数 $f(\boldsymbol{x})$ 的一个严格局部极小点。若
$f(\boldsymbol{c}) \leqslant f(\boldsymbol{x}) \quad \forall \boldsymbol{x} \in S ;$

则称点 $\boldsymbol{c}$ 是函数 $f(\boldsymbol{x})$ 在定义域 $S$ 的一个全局极小点。若
$\quad \forall x \in S, x \neq c$

则称点 $\boldsymbol{c}$ 是函数 $f(\boldsymbol{x})$ 在定义域 $S$ 的一个严格全局极小点。

由式 (1.2) 易知, 在邻域 $B (c; r)$ 的一个足够小的内部区域 $\|\Delta x\|_2<\varepsilon$ , 二阶项可以忽略的情况下, 函数的一阶 Taylor 级数逼近为
$f(\boldsymbol c+\Delta \boldsymbol x) = f(\boldsymbol c)+(\nabla f(\boldsymbol c))^{\mathrm{T}} \Delta \boldsymbol{x}+o(||\Delta \boldsymbol x||)$
显然, 为了保证 $f(\boldsymbol{c}) \leqslant f(\boldsymbol{c}+\Delta \boldsymbol{x})$ 对满足 $\|\Delta \boldsymbol{x}\|_2<\varepsilon$ 的所有 $\Delta \boldsymbol{x}$ 恒成立, 必须选择

$\nabla f(\boldsymbol{c})=\left.\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}}\right|_{\boldsymbol{x}=\boldsymbol{c}}=\mathbf{0}, \quad \forall 0<\|\Delta \boldsymbol{x}\|_2<r$
证明. 任取 $\Delta \boldsymbol x \in \mathbb{R}^n$ , 考虑 $f$ 在点 $\boldsymbol x=\boldsymbol c$ 处的泰勒展开
$f(\boldsymbol c+\Delta \boldsymbol x) = f(\boldsymbol c)+(\nabla f(\boldsymbol c))^{\mathrm{T}} \Delta \boldsymbol{x}+o(||\Delta \boldsymbol x||),$

整理得
$\frac{f\left(\boldsymbol c+\Delta \boldsymbol x\right)-f\left(\boldsymbol c\right)}{||\Delta \boldsymbol x||}=\frac{\Delta \boldsymbol x^{\mathrm{T}} \nabla f\left(\boldsymbol c\right)}{||\Delta \boldsymbol x||}+o(1) .$

根据 $\boldsymbol c$ 的最优性, 在上式中分别对 $||\Delta \boldsymbol x||$ 取点 0 处的极限可知
$\begin{aligned} & \lim _{||\Delta \boldsymbol x|| \rightarrow 0^{+}} \frac{f\left(\boldsymbol c+\Delta \boldsymbol x\right)-f\left(\boldsymbol c\right)}{||\Delta \boldsymbol x||}=\Delta \boldsymbol x^{\mathrm{T}} \nabla f\left(\boldsymbol c\right)\geqslant 0, \\ \end{aligned}$

即对任意的 $\Delta \boldsymbol x$ 必有 $\Delta \boldsymbol x^{\mathrm{T}} \nabla f\left(\boldsymbol c\right)\geqslant0$ , 由 $\Delta \boldsymbol x$ 的任意性知 $\nabla f\left(\boldsymbol c\right)=0$ .

注意, 上面的条件仅仅是必要的. 对于 $f(x)=x^2, x \in \mathbb{R}$ , 我们知道满足 $f^{\prime}(x)=0$ 的点为 $x^*=0$ , 并且其也是全局最优解. 对于 $f(x)=x^3, x \in \mathbb{R}$ ,满足 $f^{\prime}(x)=0$ 的点为 $x^*=0$ , 但其不是一个局部最优解. 实际上, 我们称满足 $\nabla f(x)=0$ 的点 $x$ 为 $f$ 的稳定点 (有时也称为驻点或临界点). 可以看出, 除了一阶必要条件, 还需要对函数加一些额外的限制条件, 才能保证最优解的充分性.

假设 $f$ 在点 $\boldsymbol c$ 的一个开邻域内是二阶连续可微的, 则以下最优性条件成立:（极大值同理）

二阶必要条件如果 $\boldsymbol c$ 是 $f$ 的一个局部极小点, 那么必有
$\nabla f\left(\boldsymbol c\right)=0, \quad \nabla^2 f\left(\boldsymbol c\right) \succeq 0 ;$

二阶充分条件如果在点 $\boldsymbol c$ 处有
$\nabla f\left(\boldsymbol c\right)=0, \quad \nabla^2 f\left(\boldsymbol c\right) \succ 0$

成立, 那么 $\boldsymbol c$ 为 $f$ 的一个局部极小点.(且为严格极小值)

二阶充分条件如果在点 $\boldsymbol c$ 处有
$\nabla f\left(\boldsymbol c\right)=0,\forall \boldsymbol x \in \text{dom}f \quad \nabla^2 f\left(\boldsymbol x\right) \succeq 0$
成立, 那么 $\boldsymbol c$ 为 $f$ 的一个局部极小点.

证明.考虑 $f(\boldsymbol x)$ 在点 $\boldsymbol c$ 处的二阶泰勒展开(1.2), 这里因为一阶必要条件成立, 所以 $\nabla f\left(\boldsymbol c \right)=0$ . 反设 $\nabla^2 f\left(\boldsymbol c\right) \succeq 0$ 不成立, 即 $\nabla^2 f\left(\boldsymbol c \right)$ 有负的特征值. 取 $\Delta \boldsymbol x$ 为其负特征值 $\lambda_{-}$ 对应的特征向量, 通过对(1.2)式变形得到
$\frac{f\left(\boldsymbol c+\Delta \boldsymbol x\right)-f\left(\boldsymbol c\right)}{\|\Delta \boldsymbol x\|^2}=\frac{1}{2} \frac{\Delta \boldsymbol x^{\mathrm{T}}}{\|\Delta \boldsymbol x\|} \nabla^2 f\left(\boldsymbol c\right) \frac{\Delta \boldsymbol x}{\|\Delta \boldsymbol x\|}+o(1) .$

这里注意 $\frac{\Delta \boldsymbol x}{\|\Delta \boldsymbol x\|}$ 是 $\Delta \boldsymbol x$ 的单位化, 因此
$\frac{f\left(\boldsymbol c+\Delta \boldsymbol x\right)-f\left(\boldsymbol c\right)}{\|\Delta \boldsymbol x\|^2}=\frac{1}{2} \lambda_{-}+o(1) .$

当 $\|\Delta \boldsymbol x\|$ 充分小时, $f\left(\boldsymbol c+\Delta \boldsymbol x\right)<f\left(\boldsymbol c\right)$ , 这和点 $\boldsymbol c$ 的最优性矛盾. 因此二阶必要条件成立.

当 $\nabla^2 f(\boldsymbol c) \succ 0$ 时, 对任意的 $\Delta \boldsymbol x\neq 0$ 有 $\Delta \boldsymbol x^{\mathrm{T}} \nabla^2 f\left(\boldsymbol c\right) \Delta \boldsymbol x \geqslant \lambda_{\text {min }}\|\Delta \boldsymbol x\|^2>0$ , 这里 $\lambda_{\min }>0$ 是 $\nabla^2 f\left(\boldsymbol c\right)$ 的最小特征值. 因此我们有
$\frac{f\left(\boldsymbol c+\Delta \boldsymbol x\right)-f\left(\boldsymbol c\right)}{\|\Delta \boldsymbol x\|^2} \geqslant \frac{1}{2} \lambda_{\min }+o(1) .$

当 $\|\Delta \boldsymbol x\|$ 充分小时有 $f\left(\boldsymbol c+\Delta \boldsymbol x\right) \geqslant f\left(\boldsymbol c\right)$ , 即二阶充分条件成立.

当 $\nabla f\left(\boldsymbol c\right)=0,\forall \boldsymbol x\in \text{dom}f,\nabla^2f(\boldsymbol x)\succeq0$ 时，由泰勒展开
$\begin{aligned} f(\boldsymbol c+\Delta \boldsymbol x)&=f(\boldsymbol c)+\frac{1}{2}\Delta \boldsymbol x^T\nabla^2f(\boldsymbol c+t\Delta \boldsymbol x)\Delta\boldsymbol x\qquad t\in(0,1) \\ &\Updownarrow\\ f(\boldsymbol c+\Delta \boldsymbol x)-f(\boldsymbol c)&=\frac{1}{2}\Delta \boldsymbol x^T\nabla^2f(\boldsymbol c+t\Delta \boldsymbol x)\Delta\boldsymbol x\geqslant0\qquad t\in(0,1)\\ \end{aligned}$
注意Hessian矩阵半正定仅是必要条件（除非在定义域上都半正定），并非充分条件,如 $y=x^2-y^3$ 在 $(0, 0)$ 处Hessian矩阵半正定，但并不是极小值（二次项在某一方向为0，后面的高阶小量的正负号影响了函数增量的正负）

由此得出如下结论：设点 $\boldsymbol {\bar{x}}$ 满足一阶最优性条件 (即 $\nabla f(\boldsymbol {\bar{x}})=0$ ),且该点处的海瑟矩阵 $\nabla^2 f(\boldsymbol {\bar{x}})$ 不是半正定的, 那么 $\boldsymbol {\bar{x}}$ 不是一个局部极小点.进一步地, 如果海瑟矩阵 $\nabla^2 f(\boldsymbol {\bar{x}})$ 既有正特征值又有负特征值, 我们称稳定点 $\boldsymbol {\bar{x}}$ 为一个鞍点. 事实上, 记 $d_1, d_2$ 为其正负特征值对应的特征向量, 那么对于任意充分小的 $t > 0$ , 我们都有 $f\left(\boldsymbol {\bar{x}}+t \boldsymbol d_1\right)>f(\boldsymbol {\bar{x}})$ 且 $f\left(\boldsymbol {\bar{x}}+t \boldsymbol d_2\right)<f(\boldsymbol {\bar{x}})$ .

二. $\text { 可微多变量函数 } f(\boldsymbol X) \text { 的极值点 }$

现在考虑以矩阵为变元的实值函数 $f(\boldsymbol{X}): \mathbb{R}^{m \times n} \rightarrow \mathbb{R}$ 。此时, 需要先通过向量化,将变元矩阵 $\boldsymbol{X} \in \mathbb{R}^{m \times n}$ , 变成一个 $mn \times 1$ 向量 $\operatorname{vec}(\boldsymbol{X})$ 。
令 $S$ 是矩阵空间 $\mathbb{R}^{m \times n}$ 的一个子集合, 它是 $\times n$ 矩阵变元 $\boldsymbol{X}$ 的定义域, 即 $\boldsymbol{X} \in S$ 。
函数 $f(\boldsymbol{X})$ 以点 $\operatorname{vec}(\boldsymbol{C})$ 为中心, $r$ 为半径的邻域记作 $B(\boldsymbol{C} ; r)$ , 定义为
$B(\boldsymbol{C} ; r)=\left\{\boldsymbol{X} \mid \boldsymbol{X} \in \mathbb{R}^{m \times n},\|\operatorname{vec}(\boldsymbol{X})-\operatorname{vec}(\boldsymbol{C})\|_2<r\right\}$

于是, 函数 $f(\boldsymbol{X})$ 在点 $\boldsymbol{C}$ 的二阶 Taylor 级数逼近公式为
$\begin{aligned} f(\boldsymbol{C}+\Delta \boldsymbol{X})= & f(\boldsymbol{C})+\left(\frac{\partial f(\boldsymbol{C})}{\partial \operatorname{vec}(\boldsymbol{C})}\right)^{\mathrm{T}} \operatorname{vec}(\Delta \boldsymbol{X}) \\ & +\frac{1}{2}(\operatorname{vec}(\Delta \boldsymbol{X}))^{\mathrm{T}} \frac{\partial^2 f(\boldsymbol{C})}{\partial \operatorname{vec}(\boldsymbol{C}) \partial(\operatorname{vec} \boldsymbol{C})^{\mathrm{T}}} \operatorname{vec}(\Delta \boldsymbol{X}) \\ = & f(\boldsymbol{C})+\left(\nabla_{\operatorname{vec}} \boldsymbol{C} f(\boldsymbol{C})\right)^{\mathrm{T}} \operatorname{vec}(\Delta \boldsymbol{X}) \\ & +\frac{1}{2}(\operatorname{vec}(\Delta \boldsymbol{X}))^{\mathrm{T}} \boldsymbol{H}(f(\boldsymbol{C})) \operatorname{vec}(\Delta \boldsymbol{X}) \end{aligned}$

式中
$\begin{aligned} \nabla_{\mathrm{vec} \boldsymbol{C}} f(\boldsymbol{C}) & =\left.\frac{\partial f(\boldsymbol{X})}{\partial \operatorname{vec}(\boldsymbol{X})}\right|_{\boldsymbol{X}=\boldsymbol{C}} \in \mathbb{R}^{m n} \\ \boldsymbol{H}(f(\boldsymbol{C})) & =\left.\frac{\partial^2 f(\boldsymbol{X})}{\partial \operatorname{vec}(\boldsymbol{X}) \partial(\operatorname{vec} \boldsymbol{X})^{\mathrm{T}}}\right|_{\boldsymbol{X}=\boldsymbol{C}} \in \mathbb{R}^{m n \times m n} \end{aligned}$

分别是函数 $f(\boldsymbol{X})$ 在点 $\boldsymbol{C}$ 的梯度向量和 Hessian 矩阵。

类比上一小节即可得出相同的结论。

实变函数	$\mathbb{R} \rightarrow \mathbb{R}$	$f(\boldsymbol{x}): \mathbb{R}^n \rightarrow \mathbb{R}$	$f(\boldsymbol{X}): \mathbb{R}^{m \times n} \rightarrow \mathbb{R}$
平稳点	$\left.\frac{\partial f(x)}{\partial x}\right\|_{x=c}=0$	$\left.\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}}\right\|_{\boldsymbol{x}=\boldsymbol{c}}=\boldsymbol 0\in \Bbb R^n$	$\left.\frac{\partial f(\boldsymbol{X})}{\partial \boldsymbol{X}}\right\|_{\boldsymbol{X}=\boldsymbol{C}}=\boldsymbol{O}_{m \times n}$
严格局部极小点	$\left.\frac{\partial^2 f(x)}{\partial x \partial x}\right\|_{x=c}>0$	$\left.\frac{\partial^2 f(\boldsymbol{x})}{\partial \boldsymbol{x} \partial \boldsymbol{x}^{\mathrm{T}}}\right\|_{\boldsymbol{x}=\boldsymbol{c}} \succ 0$	$\left.\frac{\partial^2 f(\boldsymbol{X})}{\partial \operatorname{vec}(\boldsymbol{X}) \partial(\operatorname{vec} \boldsymbol{X})^{\mathrm{T}}}\right\|_{\boldsymbol{X}=\boldsymbol{C}} \succ 0$
严格局部极大点	$\left.\frac{\partial^2 f(x)}{\partial x \partial x}\right\|_{x=c}<0$	$\left.\frac{\partial^2 f(\boldsymbol{x})}{\partial \boldsymbol{x} \partial \boldsymbol{x}^{\mathrm{T}}}\right\|_{\boldsymbol{x}=\boldsymbol{c}} \prec 0$	$\left.\frac{\partial^2 f(\boldsymbol{X})}{\partial \operatorname{vec}(\boldsymbol{X}) \partial(\operatorname{vec} \boldsymbol{X})^{\mathrm{T}}}\right\|_{\boldsymbol{X}=\boldsymbol{C}} \prec 0$
鞍点	$\left.\frac{\partial^2 f(x)}{\partial x \partial x}\right\|_{x=c}$ 不定	$\left.\frac{\partial^2 f(\boldsymbol{x})}{\partial \boldsymbol{x} \partial \boldsymbol{x}^{\mathrm{T}}}\right\|_{\boldsymbol{x}=\boldsymbol{c}}$ 不定	$\left.\frac{\partial^2 f(\boldsymbol{X})}{\partial \operatorname{vec}(\boldsymbol{X}) \partial(\operatorname{vec} \boldsymbol{X})^{\mathrm{T}}}\right\|_{\boldsymbol{X}=\boldsymbol{C}}$ 不定

注意, 二阶最优性条件给出的仍然是关于局部最优性的判断. 对于给定点的全局最优性判断, 我们还需要借助实际问题的性质, 比如目标函数是凸的、非线性最小二乘问题中目标函数值为 0 等.

三.例

线性最小二乘问题

$\min _{x \in \mathbb{R}^n} f(\boldsymbol x) \xlongequal{\text { def }} \frac{1}{2}\|\boldsymbol b-\boldsymbol A \boldsymbol x\|_2^2,$

其中 $\in \mathbb{R}^{m \times n}, b \in \mathbb{R}^m$ 分别是给定的矩阵和向量. 易知 $f(\boldsymbol x)$ 是可微且凸的。
$\nabla f\left(\boldsymbol x^*\right)=\boldsymbol A^{\mathrm{T}}\left(\boldsymbol A \boldsymbol x^*-\boldsymbol b\right)=0$

且
$\nabla ^2f(\boldsymbol x)=\boldsymbol A\boldsymbol A^\mathrm{T}\succeq0,\qquad \forall \boldsymbol x\in \text{dom}f$
因此， $\boldsymbol x^∗$ 为一个全局最优解

因此, 线性最小二乘问题本质上等于求解线性方程组。

罗杰斯特回归

标签为正负1， $\sigma(x)=\frac{1}{1+\exp(-x)}$
$\begin{aligned} & \text { 似然函数 } L(\boldsymbol w)=\prod_{i=1}^N \sigma\left(y_i \boldsymbol w^{\top} \boldsymbol x_i\right) \\ & \text{损失函数} E(\boldsymbol w)=-\ln L(\boldsymbol w) =\sum_{i=1}^N \ln \sigma\left(y_i \boldsymbol w^{\top} \boldsymbol x_i\right) \\ & \nabla_{\boldsymbol w} E=\frac{d E(\boldsymbol w)}{d \boldsymbol w}=-\sum_{i=1}^N \frac{d \ln \sigma}{d \boldsymbol w} \\ & =-\sum_{i=1}^v\left[\frac{d \ln \sigma}{d \sigma} \cdot \frac{d \sigma}{d\left[y_i \boldsymbol w^{\top} \boldsymbol x_i\right]} \cdot \frac{d\left[y_i \boldsymbol w^{\top} \boldsymbol x_i\right]}{d \boldsymbol w}\right] \\ & =-\sum_{i=1}^k\left[\frac{1}{\sigma} \cdot \sigma(1-\sigma) \cdot \boldsymbol x_i \cdot y_i\right] \\ & =\sum_{i=1}^N(\sigma-1) \boldsymbol {x_i} y_i \\ & =\sum_{i=1}^N \frac{-\boldsymbol x_i y_i}{1+e^{ y_i \boldsymbol w^\mathrm{T} \boldsymbol x_i }} \\ &\\ &\nabla ^2_{\boldsymbol w}E=\nabla_{\boldsymbol w} (\sum_{i=1}^N(\sigma-1) \boldsymbol {x_i} y_i )\\ &=\sum_{i=1}^N \sigma(1-\sigma) \boldsymbol x_i \cdot \boldsymbol x_i^{\top}*y_i^2\qquad (y_i^2=1)\\ &=\sum_{i=1}^N \sigma(1-\sigma) \boldsymbol x_i \cdot \boldsymbol x_i^{\top}\succeq 0 \end{aligned}$
因此罗杰斯特回归采用交叉熵作为损失函数（如果采用mse最后二阶导不亦一定半正定）

总是摸鱼的猫

关注

22
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
807补充（八）（多元函数极值篇）

可微多变量函数fx的极值点考虑以实向量xx1⋯xnT作变元的实值函数fxRn→R的无约束极小化问题x∈Sminfx1.1式中S∈Rn是n维向量空间Rn的一个子集合.定义: 给定一个点x∈Rn, 点x的一 (闭合) 邻域记作Bx;r, 是满足∥x−x∥2⩽r(其中r0) 的所有点x的集合, 即Bx;rx∣∥x−x∥2⩽r令cc1⋯cn。
复制链接

扫一扫

专栏目录

实变函数	$\mathbb{R} \rightarrow \mathbb{R}$	$f(\boldsymbol{x}): \mathbb{R}^n \rightarrow \mathbb{R}$	$f(\boldsymbol{X}): \mathbb{R}^{m \times n} \rightarrow \mathbb{R}$
平稳点	$\left.\frac{\partial f(x)}{\partial x}\right\|_{x=c}=0$	$\left.\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}}\right\|_{\boldsymbol{x}=\boldsymbol{c}}=\boldsymbol 0\in \Bbb R^n$	$\left.\frac{\partial f(\boldsymbol{X})}{\partial \boldsymbol{X}}\right\|_{\boldsymbol{X}=\boldsymbol{C}}=\boldsymbol{O}_{m \times n}$
严格局部极小点	$\left.\frac{\partial^2 f(x)}{\partial x \partial x}\right\|_{x=c}>0$	$\left.\frac{\partial^2 f(\boldsymbol{x})}{\partial \boldsymbol{x} \partial \boldsymbol{x}^{\mathrm{T}}}\right\|_{\boldsymbol{x}=\boldsymbol{c}} \succ 0$	$\left.\frac{\partial^2 f(\boldsymbol{X})}{\partial \operatorname{vec}(\boldsymbol{X}) \partial(\operatorname{vec} \boldsymbol{X})^{\mathrm{T}}}\right\|_{\boldsymbol{X}=\boldsymbol{C}} \succ 0$
严格局部极大点	$\left.\frac{\partial^2 f(x)}{\partial x \partial x}\right\|_{x=c}<0$	$\left.\frac{\partial^2 f(\boldsymbol{x})}{\partial \boldsymbol{x} \partial \boldsymbol{x}^{\mathrm{T}}}\right\|_{\boldsymbol{x}=\boldsymbol{c}} \prec 0$	$\left.\frac{\partial^2 f(\boldsymbol{X})}{\partial \operatorname{vec}(\boldsymbol{X}) \partial(\operatorname{vec} \boldsymbol{X})^{\mathrm{T}}}\right\|_{\boldsymbol{X}=\boldsymbol{C}} \prec 0$
鞍点	$\left.\frac{\partial^2 f(x)}{\partial x \partial x}\right\|_{x=c}$ 不定	$\left.\frac{\partial^2 f(\boldsymbol{x})}{\partial \boldsymbol{x} \partial \boldsymbol{x}^{\mathrm{T}}}\right\|_{\boldsymbol{x}=\boldsymbol{c}}$ 不定	$\left.\frac{\partial^2 f(\boldsymbol{X})}{\partial \operatorname{vec}(\boldsymbol{X}) \partial(\operatorname{vec} \boldsymbol{X})^{\mathrm{T}}}\right\|_{\boldsymbol{X}=\boldsymbol{C}}$ 不定

807补充（八）（多元函数极值篇）

807补充（八）（多元函数极值篇）

一. 可微多变量函数 f ( x ) 的极值点 \text { 可微多变量函数 } f(\boldsymbol x) \text { 的极值点 } 可微多变量函数 f(x) 的极值点

二. 可微多变量函数 f ( X ) 的极值点 \text { 可微多变量函数 } f(\boldsymbol X) \text { 的极值点 } 可微多变量函数 f(X) 的极值点

三.例

“相关推荐”对你有帮助么？

一. $\text { 可微多变量函数 } f(\boldsymbol x) \text { 的极值点 }$

二. $\text { 可微多变量函数 } f(\boldsymbol X) \text { 的极值点 }$