Hession矩阵

最新推荐文章于 2024-01-09 01:11:37 发布

Vanilla TY

最新推荐文章于 2024-01-09 01:11:37 发布

阅读量408

点赞数

文章标签：矩阵人工智能

原文链接：https://blog.csdn.net/li528405176/article/details/83305664?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163563881016780262585438%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=163563881016780262585438&biz_id

版权

1. 标量对向量求导：

结果是向量

事实上这就是所谓的Gradient，即对于一般标量函数 f(x), 其中向量为 x=(x1,...,xn)，导数为：

$\small \frac{\partial f}{\partial x}=\left ( \frac{\partial f}{\partial x_{1}} ,\cdots \frac{\partial f}{\partial x_{n}}\right )$

也记为： $\small \triangledown f$

2. 向量对向量求导：

结果是矩阵

一阶导:

这个当然也是gradient，当然这准确的说应该叫matrix gradient. 即对于向量值函数 f(x), 其中 x=(x1,...,xn) ， f=(f1,...,fm)

, 导数为：

$\small \frac{\partial f}{\partial x}=\frac{\partial f^{T}}{\partial x}= \left [ \frac{\partial f_{1}}{\partial x},\cdots \frac{\partial f_{m}}{\partial x} \right ]= \begin{bmatrix} \frac{\partial f_{1}}{\partial x_{1}} & \cdots &\frac{\partial f_{m}}{\partial x_{1}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{1}}{\partial x_{n}} & \cdots & \frac{\partial f_{m}}{\partial x_{n}} \end{bmatrix}$

这个矩阵也叫做 Jacobian 矩阵

二阶导：

二阶导数就是Hessian矩阵，形式如下：

$\small H\left ( f \right )=\begin{bmatrix} \frac{\partial ^{2}f}{\partial x_{1}^{2}} & \frac{\partial ^{2}f}{\partial x_{1}\partial x_{2}} & \cdots & \frac{\partial ^{2}f}{\partial x_{1}\partial x_{n}} \\ \frac{\partial ^{2}f}{\partial x_{2}\partial x_{1}} & \frac{\partial ^{2}f}{\partial x_{2}^{2}} &\cdots &\frac{\partial ^{2}f}{\partial x_{2}\partial x_{n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial ^{2}f}{\partial x_{n}\partial x_{1}} & \frac{\partial ^{2}f}{\partial x_{n}\partial x_{2}} & \cdots & \frac{\partial ^{2}f}{\partial x_{n}^{2}} \end{bmatrix}$

或者可以用更抽象的定义：

$\small H_{ij}= \frac{\partial ^{2}l}{\partial\Theta _{i}\partial \Theta _{j} }$

Vanilla TY

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hession矩阵

1. 标量对向量求导：结果是向量事实上这就是所谓的Gradient，即对于一般标量函数 f(x), 其中向量为 x=(x1,...,xn)，导数为：也记为：2. 向量对向量求导：结果是矩阵一阶导:这个当然也是gradient，当然这准确的说应该叫matrix gradient. 即对于向量值函数 f(x), 其中 x=(x1,...,xn) ， f=(f1,...,fm...
复制链接

扫一扫