多元函数的泰勒展开Talor以及黑塞矩阵

最新推荐文章于 2023-11-02 10:18:49 发布

风信子的猫Redamancy

最新推荐文章于 2023-11-02 10:18:49 发布

阅读量8.7k

点赞数 5

分类专栏：笔记最优化理论学习推导文章标签：黑塞矩阵最优化方法线性代数泰勒展开

本文链接：https://blog.csdn.net/weixin_45508265/article/details/116194941

版权

笔记同时被 2 个专栏收录

38 篇文章 15 订阅

订阅专栏

最优化理论学习推导

14 篇文章 20 订阅

订阅专栏

如果想了解更多的知识，可以去我的机器学习之路 The Road To Machine Learning通道

多元函数的泰勒展开Talor以及黑塞矩阵

在学最优化的时候，会遇到很多多元函数的泰勒展开，且很多都是以矩阵形式写的，为了理解更好一点，这里做一些推导

我们先回顾一下，由高等数学知识可知，若一元函数在点的某个邻域内具有任意阶导数

一元函数在点 $x_k$ 处的泰勒展开
$f(x_k)+(x-x_k)f'(x_k)+\frac{1}{2!}(x-x_k)^2f''(x_k)+o^n$
二元函数在 $x_k,y_k)$ 处的泰勒展开
$f(x,y)=f(x_k,y_k)+(x-x_k)f'_x(x_k,y_k)+(y-y_k)f'_y(x_k,y_k)\\ +\frac1{2!}(x-x_k)^2f''_{xx}(x_k,y_k)+\frac1{2!}(x-x_k)(y-y_k)f''_{xy}(x_k,y_k)\\ +\frac1{2!}(x-x_k)(y-y_k)f''_{yx}(x_k,y_k)+\frac1{2!}(y-y_k)^2f''_{yy}(x_k,y_k)\\ +o^n$
多元函数(n)在点 $x_k$ 处的泰勒展开式为：
$f(x^1,x^2,\ldots,x^n)=f(x^1_k,x^2_k,\ldots,x^n_k)+\sum_{i=1}^n(x^i-x_k^i)f'_{x^i}(x^1_k,x^2_k,\ldots,x^n_k)\\ +\frac1{2!}\sum_{i,j=1}^n(x^i-x_k^i)(x^j-x_k^j)f''_{ij}(x^1_k,x^2_k,\ldots,x^n_k)\\ +o^n$
把Taylor展开式写成矩阵的形式：
$f(\mathbf x) = f(\mathbf x_k)+[\nabla f(\mathbf x_k)]^T(\mathbf x-\mathbf x_k)+\frac1{2!}[\mathbf x-\mathbf x_k]^TH(\mathbf x_k)[\mathbf x-\mathbf x_k]+o^n$
其中：
$H(\mathbf x_k)= \left[ \begin{matrix} \frac{\partial^2f(x_k)}{\partial x_1^2} & \frac{\partial^2f(x_k)}{\partial x_1\partial x_2} & \cdots & \frac{\partial^2f(x_k)}{\partial x_1\partial x_n} \\ \frac{\partial^2f(x_k)}{\partial x_2 \partial x_1} & \frac{\partial^2f(x_k)}{\partial x_2^2} & \cdots & \frac{\partial^2f(x_k)}{\partial x_2\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2f(x_k)}{\partial x_n\partial x_1} & \frac{\partial^2f(x_k)}{\partial x_n\partial x_2} & \cdots & \frac{\partial^2f(x_k)}{\partial x_n^2} \\ \end{matrix} \right]$
当为二元时

$\nabla f(x_k) = \left[ \begin{matrix} & f_x' ( x_k , y_k) &\\ & f'_y( x_k , y_k) &\\ \end{matrix} \right]$

$x_k = \begin{bmatrix} & x - x_k &\\ & y - y_k \end{bmatrix}$
$H(x_k) = \begin{bmatrix} & f_{xx}''(x_k,y_k) & f''_{xy}(x_k,y_k) &\\ & f''_{yx}(x_k,y_k) & f''_{yy}(x_k,y_k) &\\ \end{bmatrix}$

具体推导

可能这样还是有点抽象，那我们来一个具体一点的，帮助我们理解
由前面可知二元函数 $f(x_1,x_2)$ 在 $X^{(0)}(x_1^{(0)},x_2^{(0)})$ 点的泰勒展开式为：
$f(x_1,x_2) = f(x_1^{(0)},x_2^{(0)}) + \frac{\partial f}{\partial x_1}\bigg|_{X^{(0)}} \Delta x_1+ \frac{\partial f}{\partial x_2}\bigg|_{X^{(0)}} \Delta x_2\\ {+} \frac{1}{2!} \frac{\partial^2 f}{\partial x_1^2}\bigg|_{X^{(0)}} \Delta x_1^2+ \frac{1}{2!}\frac{\partial^2 f}{\partial x_1 \partial x_2}\bigg|_{X^{(0)}} \Delta x_1 \Delta x_2 + \\ \frac{1}{2!}\frac{\partial^2 f}{\partial x_2 \partial x_1}\bigg|_{X^{(0)}} \Delta x_1 \Delta x_2 + \frac{1}{2!}\frac{\partial^2 f}{\partial x_2^2}\bigg|_{X^{(0)}} \Delta x_2^2 + ...$
其中， $\Delta x_1 = x_1 - x_1^{(0)},\Delta x_2 = x_2 - x_2^{(0)}$
若写成矩阵形式，就是如下

在这里插入图片描述

所以，写成矩阵形式
$f(\mathbf x) = f(\mathbf x_k)+[\nabla f(\mathbf x_k)]^T(\mathbf \Delta x)+\frac1{2!}[(\mathbf \Delta x)]^TH(\mathbf x_k)[(\mathbf \Delta x)]+o^n$
注： $\nabla f(x_{(0)}) \nabla f^T(x_{(0)})$ 不为在 $x^{(0)}$ 的黑塞矩阵（可证明）

对称性

除此之外，我们二阶偏导数还有一个性质
如果函数 $f$ 在 $D$ 区域内二阶连续可导，那么 $f$ 黑塞矩阵 $H (f) 在 D$ 区域内为对称矩阵。
原因：如果函数 $f$ 的二阶偏导数连续，则二阶偏导数的求导顺序没有区别，即
$\frac{\partial}{\partial x}(\frac{\partial f}{\partial y}) = \frac{\partial}{\partial y}(\frac{\partial f}{\partial x})$
则对于矩阵 $H (f)$ ,由 $H_{i,j}(f) = H_{j,i}(f)$ ，所以 $H (f)$ 为对称矩阵

利用黑塞矩阵判定多元函数的极值

定理
设n多元实函数 $f(x_1,x_2,\ldots,x_n)$ 在点 $M_0(a_1,a_2,\ldots,a_n)$ 的邻域内有二阶连续偏导，若有：
$\frac{\partial f}{\partial x_j} \bigg|_{(a_1,a_2,\ldots,a_n)} = 0,j=1,2,\ldots,n$
并且
$\left[ \begin{matrix} \frac{\partial^2f}{\partial x_1^2} & \frac{\partial^2f}{\partial x_1\partial x_2} & \cdots & \frac{\partial^2f}{\partial x_1\partial x_n} \\ \frac{\partial^2f}{\partial x_2 \partial x_1} & \frac{\partial^2f}{\partial x_2^2} & \cdots & \frac{\partial^2f}{\partial x_2\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2f}{\partial x_n\partial x_1} & \frac{\partial^2f}{\partial x_n\partial x_2} & \cdots & \frac{\partial^2f}{\partial x_n^2} \\ \end{matrix} \right]$
则有如下结果
（1）当A正定矩阵时， $f(x_1,x_2,\ldots,x_n)$ 在 $M_0(a_1,a_2,\ldots,a_n)$ 处是极小值；
（2）当A负定矩阵时， $f(x_1,x_2,\ldots,x_n)$ 在 $M_0(a_1,a_2,\ldots,a_n)$ 处是极大值；
（3）当A不定矩阵时， $M_0(a_1,a_2,\ldots,a_n)$ 不是极值点。
（4）当A为半正定矩阵或半负定矩阵时，是“可疑”极值点，尚需要利用其他方法来判定。

风信子的猫Redamancy

关注

5
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
0
评论
多元函数的泰勒展开Talor以及黑塞矩阵

一元函数在点xkx_kxk处的泰勒展开f(x)=f(xk)+(x−xk)f′(xk)+12!(x−xk)2f′′(xk)+onf(x) = f(x_k)+(x-x_k)f'(x_k)+\frac{1}{2!}(x-x_k)^2f''(x_k)+o^nf(x)=f(xk)+(x−xk)f′(xk)+2!1(x−xk)2f′′(xk)+on二元函数在(xk,yk)(x_k,y_k)(xk,yk)处的泰勒展开f(x,y)=f(xk,yk)+(x−xk)fx′(xk,yk)+(y−y..
复制链接

扫一扫