【十分钟解决】矩阵求导术

最新推荐文章于 2022-03-29 13:54:44 发布

Haor.L

最新推荐文章于 2022-03-29 13:54:44 发布

阅读量279

点赞数 3

分类专栏：经典机器学习模型文章标签：线性代数数学建模深度学习神经网络机器学习

本文链接：https://blog.csdn.net/weixin_46233323/article/details/114232438

版权

经典机器学习模型专栏收录该内容

20 篇文章 11 订阅

订阅专栏

求导后维度本质

求导的本质： $\frac{dA}{dB}$ A中每一个元素对B中每一个元素求导。
考虑以下情景
1、A/B都是1 $\times$ 1矩阵，求导得到 $\times 1$ 矩阵
2、A是 $\times p$ 矩阵，B是 $\times n$ 矩阵，A中每个元素对B中每个元素求导，排列组合得到 $\times n$ 个元素
3、A是 $\times p$ 矩阵，B是 $\times n$ 矩阵，A中每个元素对B中每个元素求导，排列组合得到 $\times p \times m\times n$ 个元素

向量求导的 Y X拉伸技巧

技巧核心：
1、标量不变，向量拉伸
2、前面横向拉，后面纵向拉(dy/dx的话就是Y横向拉伸，X纵向拉伸)

上一节写到，求导得到的元素非常多，因此需要有合适的方法把元素写出来。

例子1：
f(x)是标量函数，X是 $\times 1$ 列向量（x1,x2,…,xn）：
$\frac{d f(x)}{d x}$
标量不变，所以f(x)不需要拉伸。
X纵向拉伸，就称为一个向量：
$\frac{d f(x)}{d x}=\left[\begin{array}{c} \frac{\partial f(x)}{\partial x_{1}} \\ \frac{\partial f(x)}{\partial x_{2}} \\ \vdots \\ \frac{\partial f(x)}{\partial x_{n}} \end{array}\right]$
向量纵向拉伸，相当于对每个分量求导的结果拉成列向量。
最终得到 $\times 1$ 列向量。

例子2
f(x)是列向量函数 $\times 1$ ，X是标量：
同理，前面的Y横向拉，而且x不要拉，得到：
$\frac{d f(x)}{d x}=\left[\frac{\partial f(x)}{\partial x} \frac{\partial f_{2}(x)}{\partial x} \cdots \cdot \frac{\partial f_{n}(x)}{\partial x}\right]$
最终是一个横着的 $\times n$ 向量。

例子3
两个都是向量
$f(x):\left[\begin{array}{c} f(x) \\ f_{2}(x) \\ \vdots \\ f_{n}(x) \end{array}\right] \quad x=\left[\begin{array}{c} x_{1} \\ x_{2} \\ \vdots \\ \vdots \\ x_{n} \end{array}\right]$
首先，拉成一个列向量，每个都是f(x)对标量求导，之后再横向拉开：

第一步：
$\frac{d f(x)}{d x}=\left[\begin{array}{c} \frac{\partial f(x)}{\partial x} \\ \frac{\partial f(x)}{\partial x_{2}} \\ \vdots \\ \frac{\partial f(x)}{\partial x_{n}} \end{array}\right]$
第二步就得到：
$\left[\begin{array}{ll} \frac{\partial f(x)}{\partial x_{1}} & \frac{\partial f_{2}(x)}{\partial x_{1}} \cdots \frac{\partial f_{n}(x)}{\partial x_{1}} \\ \frac{\partial f_{1}(x)}{\partial x_{2}} & \frac{\partial f_{2} r x_{1}}{\partial x_{2}} \cdots \frac{\partial f_{n}(x)}{\partial x_{2}} \\ \frac{\partial f_{1}}{\partial x_{n}} & \frac{\partial f_{2}(x)}{\partial_{n}}\cdots \frac{\partial f_{n}(x)}{\partial \lambda_{n}} \end{array}\right]$
得到了 $\times n$ 个元素，符合第一节的原理。

推导矩阵求导公式

最简单的f(x):
$f(x)=A^{T} x=\left[\begin{array}{c} a_{1} \\ a_{2} \\ \vdots \\ a_{n} \end{array}\right]_{n \times 1} \quad x=\left[\begin{array}{c} x_{2} \\ x_{2} \\ \vdots \\ x_{n} \end{array}\right]$
此时f(x)是标量（ $\sum_{i=1}^{n} a_{i} x_{i}$ ），根据第二节有：

$\frac{d f(x)}{d x}=\left[\begin{array}{c} \frac{\partial f(x)}{\partial x} \\ \frac{\partial f(x)}{\partial x_{2}} \\ \vdots \\ \frac{\partial f(x)}{\partial x_{n}} \end{array}\right] =\left[\begin{array}{c} a_1 \\ a_2 \\ \vdots \\ a_3 \end{array}\right] =A$

此处 $f(x)=A^{\top} \cdot x=x^{\top} \cdot A$ 即有很常用的 $\frac{d A \cdot x}{d x}=\frac{d x^{\top} \cdot A}{d x} = A$

例子2
$\lambda=\left[\begin{array}{c} x_{1} \\ x_{2} \\ \vdots \\ \vdots \\ x_{n} \end{array}\right] \quad A=\left[\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1 n} \\ a_{21} & a_{22} & \cdots & a_{2 n} \\ \vdots & & & \\ a_{n 1} & a_{n 2} & \cdots & a_{n n} \end{array}\right]$

$f(x)=x^TAx$ , 求 $\frac{df(x)}{dx}$

第一拉伸：
$\frac{d f(x)}{d x}=\left[\begin{array}{c} \frac{\partial f(x)}{\partial x_1} \\ \frac{\partial f(x)}{\partial x_{2}} \\ \vdots \\ \frac{\partial f(x)}{\partial x_{n}} \end{array}\right]$
考虑原式中：
$f(x)=\sum_{i=1}^{n} \sum_{j=1}^{r} a_{i j} x_{j} x_{j}$
线性代数的东西，看起来复杂，其实没那么难，代入稍微化简一步之后：
$\left[\begin{array}{c} \sum_{j=1}^{n} a_{1j} x_{j}+\sum_{i=1}^{n} a_{i 2} x_{i} \\ ... \\ \sum_{j=1}^{n} a_{n j x_{j}}+\sum_{i=1}^{n} {a_{i n}} x_{i} \end{array}\right]$
上式即为：
$\left[\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1 n} \\ a_{21} & a_{22} & \cdots & a_{2 n} \\ \vdots & & & \\ a_{n 1} & a_{n 2} & \cdots & a_{n n} \end{array}\right]\left[\begin{array}{c} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{array}\right]+\left[\begin{array}{ccc} a_{11} & a_{21} & \cdots & a_{n 1} \\ a_{12} & a_{22} & \cdots & a_{12} \\ \vdots & & \\ a_{in} & a_{2 n} & \cdots & a_{n n} \end{array}\right]\left[\begin{array}{c} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{array}\right]=AX+A^TX$