函数等值线与Hessian矩阵的关系

pyxiea

于 2020-02-29 12:00:50 发布

阅读量1.2k

点赞数

分类专栏： Math 文章标签： hessian

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xpy870663266/article/details/104571348

版权

Math 专栏收录该内容

5 篇文章

订阅专栏

参考：https://www.zhihu.com/question/24623031
以及花书4.3节《基于梯度的优化方法》

当我们的函数具有多维输入时，二阶导数也有很多。我们可以将这些导数合并成一个矩阵，称为Hessian矩阵。对于函数 $\Bbb R^m \rightarrow \Bbb R^n$ ，Hessian矩阵 $\boldsymbol H$ 定义为:

$\boldsymbol H_{i,j}=\frac{\partial^2}{\partial x_i \partial x_j}f(\boldsymbol x)$

若 $f(\boldsymbol x)$ 二阶偏导连续，则有：

$\frac{\partial^2}{\partial x_i \partial x_j}f(\boldsymbol x)=\frac{\partial^2}{\partial x_j \partial x_i}f(\boldsymbol x)$

即 $H_{i,j}=H_{j,i}$ ，因此Hessian矩阵是对称矩阵。在深度学习背景下，我们遇到的大多数函数的Hessian矩阵几乎处处都是对称的。因为Hessian矩阵是实对称矩阵，我们可以将其分解成一组实特征值和特征向量的正交，即 $H=Q^T\Lambda Q$ ，其中 $Q$ 为正交矩阵，其列向量（即特征向量）内积为1。

在特定方向 $d$ 上的二阶导数可以写成 $d^THd$ 。当 $d$ 为 $H$ 的一个特征向量 $\alpha_i$ 时，设对应的特征值为 $\lambda_i$ ，二阶导数为：

$\alpha_i^TH\alpha_i=\alpha_i^T\lambda \alpha_i=\lambda$

即特征向量方向上的二阶导数就是对应的特征值。对于其他的方向 $d$ ，方向二阶导数是所有特征值的加权平均，权重在 0 和 1 之间，且与 $d$ 夹角越小的特征向量有更大的权重。最大特征值确定最大二阶导数，最小特征值确定最小二阶导数。

对于代价函数 $J$ ，其等值线与其Hessian矩阵有什么关系？

对于使用均方误差的线性回归，有 $J(\boldsymbol w)=\sum_{i=1}^m(\boldsymbol w^Tx_i-y_i)^2$

为作图便于观察，仅考虑参数向量为二维的情形，即参数向量 $w=[w_1,w_2]$ ，设 $\boldsymbol w^*$ 为 $J$ 的极小值点，则 $J(\boldsymbol w)$ 等值线类似下图.

在这里插入图片描述

在图中，最大特征值对应的特征向量对应二阶导数最大的方向，即图中的椭圆的短轴方向，亦即等值线最密集、“山坡”最陡的那面；最小特征值对应的特征向量对应二阶导数最小的方向，即图中椭圆的长轴方向，亦即等值线最稀疏、“山坡”最平缓的那面。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。