向量的导数运算和向量叉乘以及点乘的导数运算

夕阳染色的坡道

已于 2024-04-10 22:48:02 修改

阅读量6.2k

点赞数 7

文章标签：线性代数矩阵机器学习

于 2022-06-17 23:40:46 首次发布

本文链接：https://blog.csdn.net/weixin_43851636/article/details/125340140

版权

本文详细介绍了向量和矩阵的导数计算规则，包括对向量、矩阵以及多层依赖的雅克比矩阵求导，涉及标量、向量和矩阵之间的导数运算，以及点积、叉积的导数公式。这些知识在优化编程中至关重要，尤其在求解函数梯度和雅克比矩阵时不可或缺。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目的：最近在写优化代码，需要对函数中的变量求导，以及求得它们的雅克比矩阵。因此用到向量以及矩阵的求导。

一个向量可以表示为如下： $Y=[y_1,y_2,...,y_m]^T$
向量导数的基本知识。它分为以下几类：
1)向量 $Y=[y_1,y_2,...,y_m]^T$ 对 $x$ 标量求导:
$\cfrac{\partial{Y}}{\partial{x}}=\begin{bmatrix} \cfrac{\partial{y_1}}{\partial{x}} \\ \cfrac{\partial{y_2}}{\partial{x}} \\ \vdots \\ \cfrac{\partial{y_m}}{\partial{x}} \end{bmatrix}$
如果 $Y=[y_1,y_2,...,y_m]$ 是行向量，则求导
$\cfrac{\partial{Y}}{\partial{x}}=\begin{bmatrix} \cfrac{\partial{y_1}}{\partial{x}} \space \cfrac{\partial{y_2}}{\partial{x}} \ldots \cfrac{\partial{y_m}}{\partial{x}} \end{bmatrix}$

2)标量 $y$ 对向量 $X=[x_1,x_2,...,x_m]^T$ 求导
$\cfrac{\partial{y}}{\partial{X}}=\begin{bmatrix} \cfrac{\partial{y}}{\partial{x_1}} \\ \cfrac{\partial{y}}{\partial{x_2}} \\ \vdots \\ \cfrac{\partial{y}}{\partial{x_m}} \end{bmatrix}$
如果 $X=[x_1,x_2,...,x_m]$ 为行向量：
$\cfrac{\partial{y}}{\partial{X}}=\begin{bmatrix} \cfrac{\partial{y}}{\partial{x_1}} \space \cfrac{\partial{y}}{\partial{x_2}} \ldots \cfrac{\partial{y}}{\partial{x_m}} \end{bmatrix}$

3)向量 $Y=[y_1,y_2,...,y_m]^T$ 对向量 $X=[x_1,x_2,...,x_n]$ 求导
$\cfrac{\partial{Y}}{\partial{X}}=\begin{bmatrix} \cfrac{\partial{y_1}}{\partial{x_1}} \space \space \cfrac{\partial{y_1}}{\partial{x_2}} \space \space \ldots \space \space \cfrac{\partial{y_1}}{\partial{x_n}} \\ \cfrac{\partial{y_2}}{\partial{x_1}} \space \space \cfrac{\partial{y_2}}{\partial{x_2}} \space \space \ldots \space \space \cfrac{\partial{y_2}}{\partial{x_n}} \\ \vdots \\ \cfrac{\partial{y_m}}{\partial{x_1}} \space \space \cfrac{\partial{y_m}}{\partial{x_2}} \space \space \ldots \space \space \cfrac{\partial{y_m}}{\partial{x_n}} \end{bmatrix}$
向量对向量求导也是所谓的雅克比矩阵，它在优化中非常见。

如果是矩阵的话，
如 $Y$ 是矩阵的时候，它的表达：
$Y=\begin{bmatrix} y_{11} \space \space y_{12} \space \space \ldots \space \space y_{1n} \\ y_{21} \space \space y_{22} \space \space \ldots \space \space y_{2n} \\ \vdots \\ y_{m1} \space \space y_{m2} \space \space \ldots \space \space y_{mn} \end{bmatrix}$
如 $X$ 是矩阵的时候，它的表达：
$X=\begin{bmatrix} x_{11} \space \space x_{12} \space \space \ldots \space \space x_{1n} \\ x_{21} \space \space x_{22} \space \space \ldots \space \space x_{2n} \\ \vdots \\ x_{m1} \space \space x_{m2} \space \space \ldots \space \space x_{mn} \end{bmatrix}$

矩阵的导数有两种，如下
1)矩阵 $Y$ 对标量 $x$ 求导:
$\cfrac{\partial{Y}}{\partial{x}}=\begin{bmatrix} \cfrac{\partial{y_{11}}}{\partial{x}} \space \space \cfrac{\partial{y_{12}}}{\partial{x}} \space \space \ldots \space \space \cfrac{\partial{y_{1n}}}{\partial{x}} \\ \cfrac{\partial{y_{21}}}{\partial{x}} \space \space \cfrac{\partial{y_{22}}}{\partial{x}} \space \space \ldots \space \space \cfrac{\partial{y_{2n}}}{\partial{x}} \\ \vdots \\ \cfrac{\partial{y_{m1}}}{\partial{x}} \space \space \cfrac{\partial{y_{m2}}}{\partial{x}} \space \space \ldots \space \space \cfrac{\partial{y_{mn}}}{\partial{x}} \end{bmatrix}$
2)标量 $y$ 对矩阵 $X$ 求导:
$\cfrac{\partial{y}}{\partial{X}}=\begin{bmatrix} \cfrac{\partial{y}}{\partial{x_{11}}} \space \space \cfrac{\partial{y}}{\partial{x_{12}}} \space \space \ldots \space \space \cfrac{\partial{y}}{\partial{x_{1n}}} \\ \cfrac{\partial{y}}{\partial{x_{21}}} \space \space \cfrac{\partial{y}}{\partial{x_{22}}} \space \space \ldots \space \space \cfrac{\partial{y}}{\partial{x_{2n}}} \\ \vdots \\ \cfrac{\partial{y}}{\partial{x_{m1}}} \space \space \cfrac{\partial{y}}{\partial{x_{m2}}} \space \space \ldots \space \space \cfrac{\partial{y}}{\partial{x_{mn}}} \end{bmatrix}$
这是基本的向量的导数定义。基于这些定义以及一些基本的运算法则，得到一些组合的公式。在几何算法的编程中非常有用。

公式中的向量求导，在一般公式中会多个向量以及向量依赖，因此，在求导数的时候希望它能满足标量求导的链式法则。
假设向量相互依赖的关系为： $U - > V - > W$
则偏导数为：
$\cfrac{\partial{W}}{\partial{U}}=\cfrac{\partial{W}}{\partial{V}} \space \space \cfrac{\partial{V}}{\partial{U}}$

证明：只需要拆开逐一对元素求导得到：
$\cfrac{\partial{w_i}}{\partial{u_j}} = \sum_{k}\cfrac{\partial{w_i}}{\partial{v_k}}\space \cfrac{\partial{v_k}}{\partial{u_j}} =\cfrac{\partial{w_i}}{\partial{V}} \space \cfrac{\partial{V}}{\partial{u_j}}$
由此可见 $\cfrac{\partial{w_i}}{\partial{u_j}}$ 是等于矩阵 $\cfrac{\partial{W}}{\partial{V}}$ 第 $i$ 行和矩阵 $\cfrac{\partial{V}}{\partial{U}}$ 的第 $j$ 列的内积，这是矩阵的乘法定义。
它很容易能推广到多层中间变量的情景。

在变量中遇到的情况是常常公式为 $F$ 为一个实数，中间变量都是向量的时候，它的依赖为：
$X - > V - > U - > f$
根据雅克比矩阵的传递性可以得到如下：
$\cfrac{\partial{F}}{\partial{X}} = \cfrac{\partial{F}}{\partial{U}}\space \cfrac{\partial{U}}{\partial{V}} \space \cfrac{\partial{V}}{\partial{X}}$
因为 $f$ 为标量，因此它写成如下形式：
$\cfrac{\partial{f}}{\partial{X^T}} = \cfrac{\partial{f}}{\partial{U^T}}\space \cfrac{\partial{U}}{\partial{V}} \space \cfrac{\partial{V}}{\partial{X}}$
为了便于计算，上述需要转为行向量 $U^T$ , $X^T$ 计算。这个非常重要。

下面介绍向量求倒数的时候遇到的常用的运算公式，它们有以下两类

1）两向量 $U$ , $V$ （列向量）点积的结果对 $W$ 求导:
$\cfrac{\partial{(U^T V)}}{\partial{W}} = V^T ( \cfrac{\partial{U}}{\partial{W}}) +U^T ( \cfrac{\partial{V}}{\partial{W}}) \space (4)$
点积的导数公式证明后续补上。
证明：假设 $U=\begin{bmatrix} u_0 \\ u_1 \\ u_3 \end{bmatrix}$ 和 $V=\begin{bmatrix} v_0 \\ v_1 \\ v_3 \end{bmatrix}$ ，它们为三维向量。得到点乘为 $f=U^T V$ ，它是一个标量为： $f=u_0v_0+u_1v_1+u_2v_2$ ，然后求它对 $W$ 的导数

$\cfrac{\partial{f}}{\partial{W}}=\cfrac{\partial{(u_0v_0+u_1v_1+u_2v_2)}}{\partial{W}} \\ =\cfrac{\partial{u_0}}{\partial{W}}v_0 + \cfrac{\partial{v_0}}{\partial{W}}u_0 + \cfrac{\partial{u_1}}{\partial{W}}v_1 + \cfrac{\partial{v_1}}{\partial{W}}u_1 + \cfrac{\partial{u_2}}{\partial{W}}v_2 + \cfrac{\partial{v_2}}{\partial{W}}u_2 \\ =(\cfrac{\partial{u_0}}{\partial{W}}v_0 + \cfrac{\partial{u_1}}{\partial{W}}v_1 + \cfrac{\partial{u_2}}{\partial{W}}v_2) + (\cfrac{\partial{v_0}}{\partial{W}}u_0 + \cfrac{\partial{v_1}}{\partial{W}}u_1 + \cfrac{\partial{v_2}}{\partial{W}}u_2) \\ =V^T ( \cfrac{\partial{U}}{\partial{W}}) +U^T ( \cfrac{\partial{V}}{\partial{W}})$

它可以推广到其它的维度。证明完毕。

如果 $W$ 是标量其实直接代入 $(4)$ 即可。但是如果 $W$ 为向量，在计算中 $W$ 就是行向量。因为定义jacobi矩阵是，列向量对行向量就行求导。但是如果 $W$ 是列向量（和U,V同样列向量），一般表示为 $W^T$ (行向量)，所以在一般情况下公式 $(4)$ 写成：
$\cfrac{\partial{(U^T V)}}{\partial{W^T}} = V^T ( \cfrac{\partial{U}}{\partial{W^T}}) +U^T ( \cfrac{\partial{V}}{\partial{W^T}})$

2）两个向量 $U$ , $V$ (列向量)叉积的结果对 $W$ 求导:
$\cfrac{\partial{(U \times V)}}{\partial{W}} = -Skew(V)( \cfrac{\partial{U}}{\partial{W}}) +Skew(U)( \cfrac{\partial{V}}{\partial{W}}) \space (5)$
其中
$\begin{bmatrix} 0 \space \space -U_3 \space \space U_2 \\ U_3 \space \space 0 \space \space -U_1 \\ -U_2 \space \space U_1 \space \space 0 \end{bmatrix}$
其中 $S k e w (V)$ 是将叉乘转化为点积的矩阵。它非常容易证明，因为它就是矩阵展开即可。
对于多个向量叉乘的时候，需要对公式进行转化。叉乘满足分配率。
$\cfrac{\partial{(U \times V)}}{\partial{W}} = ( \cfrac{\partial{U}}{\partial{W}}) \times V + U \times ( \cfrac{\partial{V}}{\partial{W}}) \space (6)$
证明后续再补上。(5)和(6)两者的公式是想通的。只是表达形式不同。它们的转化后面再补上。

证明：假设 $U=\begin{bmatrix} u_0 \\ u_1 \\ u_3 \end{bmatrix}$ 和 $V=\begin{bmatrix} v_0 \\ v_1 \\ v_3 \end{bmatrix}$ ，它们为三维向量。

$\times V = \begin{bmatrix} i \space \space j \space \space k \\ u_0 \space \space u_1 \space \space u_2 \\ v_0 \space \space v_1 \space \space v_2 \end{bmatrix} \\ = (u_1v_2 - u_1v_2)i+ (u_2v_0 - u_0v_2)j+ (u_0v_1 - u_1v_0)k$

它是一个向量，因此展开后，它的表达为如下：

$\times V = \begin{bmatrix} (u_1v_2 - u_2v_1) \\ (u_2v_0 - u_0v_2) \\ (u_0v_1 - u_1v_0) \end{bmatrix}$

展开后得到如下：

$\cfrac{\partial{(U \times V)}}{\partial{W}} = \begin{bmatrix} \cfrac{\partial{(u_1v_2 - u_2v_1) }}{\partial{W}} \\ \cfrac{\partial{ (u_2v_0 - u_0v_2)}}{\partial{W}}\\ \cfrac{\partial{ (u_0v_1 - u_1v_0)}}{\partial{W}}\\ \end{bmatrix} = \cfrac{\partial{(u_1v_2 - u_2v_1) }}{\partial{W}} I + \cfrac{\partial{ (u_2v_0 - u_0v_2)}}{\partial{W}}J+ \cfrac{\partial{ (u_0v_1 - u_1v_0)}}{\partial{W}}K \\ = (\cfrac{\partial{u_1}}{\partial{W}}*v_2+\cfrac{\partial{v_2}}{\partial{W}}*u_1-\cfrac{\partial{u_2}}{\partial{W}}*v_1-\cfrac{\partial{v_1}}{\partial{W}}*u_2)I+(\cfrac{\partial{u_2}}{\partial{W}}*v_0+\cfrac{\partial{v_0}}{\partial{W}}*u_2-\cfrac{\partial{u_0}}{\partial{W}}*v_2-\cfrac{\partial{v_2}}{\partial{W}}*u_0)J + (\cfrac{\partial{u_0}}{\partial{W}}*v_1+\cfrac{\partial{v_1}}{\partial{W}}*u_0-\cfrac{\partial{u_1}}{\partial{W}}*v_0-\cfrac{\partial{v_0}}{\partial{W}}*u_1)K \\ =[(\cfrac{\partial{u_1}}{\partial{W}}*v_2 -\cfrac{\partial{u_2}}{\partial{W}}*v_1)I + (\cfrac{\partial{u_2}}{\partial{W}}*v_0 - \cfrac{\partial{u_0}}{\partial{W}}*v_2)J + (\cfrac{\partial{u_0}}{\partial{W}}*v_1 - \cfrac{\partial{u_1}}{\partial{W}}*v_0)K] + [(\cfrac{\partial{v_2}}{\partial{W}}*u_1 -\cfrac{\partial{v_1}}{\partial{W}}*u_2)I + (\cfrac{\partial{v_0}}{\partial{W}}*u_2 - \cfrac{\partial{v_2}}{\partial{W}}*u_0)J + (\cfrac{\partial{v_1}}{\partial{W}}*u_0 - \cfrac{\partial{v_0}}{\partial{W}}*u_1)K] \\ =( \cfrac{\partial{U}}{\partial{W}}) \times V - ( \cfrac{\partial{V}}{\partial{W}}) \times U = -V \times (\cfrac{\partial{U}}{\partial{W}}) + U \times ( \cfrac{\partial{V}}{\partial{W}})= -Skew(V)( \cfrac{\partial{U}}{\partial{W}}) +Skew(U)( \cfrac{\partial{V}}{\partial{W}})$