矩阵求导与神经网络反向传播-CSDN博客

本文链接：https://blog.csdn.net/wp_csdn/article/details/79920764

本文介绍了矩阵求导的三种表示形式，并详细阐述了神经网络反向传播中的链式法则和全连接层的反向传播过程，包括矩阵形式和多元函数形式的解析，为理解FNN的反向传播提供了基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

矩阵求导

关于矩阵求导，其实严格意义上来说仅仅只是一种求导的矩阵表示形式，其本质还是和普通多元函数求导过程是一致的。将矩阵的各个元素拆分开来，将矩阵运算写成各个元素之间的运算，矩阵变换可以变成多元函数，这样矩阵求导过程就可以与多元函数求导过程联系起来了。要理解矩阵求导运算，最主要的其实是理解矩阵导数的表示，将矩阵导数的拆分形式与多元函数求导联系起来。
本文主要参考《Matrix cookbook》和wiki上面的内容，下面简单介绍一下矩阵求导的相关内容，为后面介绍前馈神经网络FNN的反向传播过程做铺垫。

矩阵求导的表示形式之一：值函数对向量/矩阵变量的导数

下面表达式中， $y$ 表示一个实值函数， $\mathbf x$ 表示一个向量变量，那么他们的矩阵求导含义为：

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y \partial x 1 \partial y \partial x 2 \dots \partial y \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial y}{\partial \mathbf x} = \left[\begin{array}{ccccc} \frac{\partial y}{\partial x_1} \\ \frac{\partial y}{\partial x_2} \\ \cdots \\ \frac{\partial y}{\partial x_n} \end{array}\right]$

y y $y$ 表示一个实值函数，

X

$\mathbf X$ 表示一个矩阵变量：

\partial y \partial X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y \partial x 11 \partial y \partial x 21 \dots \partial y \partial x p 1 \partial y \partial x 12 \partial y \partial x 22 \dots \partial y \partial x p 2 \dots \dots \dots \dots \partial y \partial x 1 q \partial y \partial x 2 q \dots \partial y \partial x p q ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial y}{\partial \mathbf X} = \left[\begin{array}{ccccc} \frac{\partial y}{\partial x_{11}} & \frac{\partial y}{\partial x_{12}} & \cdots & \frac{\partial y}{\partial x_{1q}}\\ \frac{\partial y}{\partial x_{21}} & \frac{\partial y}{\partial x_{22}} & \cdots & \frac{\partial y}{\partial x_{2q}} \\ \cdots & \cdots & \cdots & \cdots \\ \frac{\partial y}{\partial x_{p1}} & \frac{\partial y}{\partial x_{p2}} & \cdots & \frac{\partial y}{\partial x_{pq}} \end{array}\right]$
上面给出了矩阵求导的表示形式的具体含义，很容易理解。下面给出几个例子，

a a $a$ 是实数，

β

$\beta$ 和

x x $\mathbf x$ 是向量，

A A $\mathbf A$ 、

B B $\mathbf B$ 和

C C $\mathbf C$ 是与

x x $\mathbf x$ 无关的矩阵：

\partial β T x \partial x = β

$\frac{\partial \beta ^T \mathbf x}{\partial \mathbf x} = \beta$

\partial x T x \partial x = x

$\frac{\partial \mathbf x^T \mathbf x}{\partial \mathbf x} = \mathbf x$

\partial x T A x \partial x = (A + A T) x

$\frac{\partial \mathbf x^T\mathbf A \mathbf x}{\partial \mathbf x} = (\mathbf A+\mathbf A^T)\mathbf x$
如果你能发现这三个式子左边的分子都是一个数，分母都是一个向量，那么你应该很容易理解这几个等式。是在不能理解就自己把左右两边的矩阵运算拆分开来，然后使用多元函数求导的过程将左右两边分别表示出来就行了。以第一个为例：

β T x = \sum i = 1 n β i x i

$\beta ^T \mathbf x = \sum_{i=1}^n{\beta_i x_i}$

\partial β T x \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial β T x \partial x 1 \partial β T x \partial x 2 \dots \partial β T x \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial \sum n i = 1 β i x i \partial x 1 \partial \sum n i = 1 β i x i \partial x 2 \dots \partial \sum n i = 1 β i x i \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ β 1 β 2 \dots β n ⎤ ⎦ ⎥ ⎥ ⎥ = β

$\frac{\partial \beta ^T \mathbf x}{\partial \mathbf x} = \left[\begin{array}{ccccc} \frac{\partial \beta ^T \mathbf x}{\partial x_1} \\ \frac{\partial \beta ^T \mathbf x}{\partial x_2} \\ \cdots \\ \frac{\partial \beta ^T \mathbf x}{\partial x_n} \end{array}\right] = \left[\begin{array}{ccccc} \frac{\partial \sum_{i=1}^n{\beta_i x_i}}{\partial x_1} \\ \frac{\partial \sum_{i=1}^n{\beta_i x_i}}{\partial x_2} \\ \cdots \\ \frac{\partial \sum_{i=1}^n{\beta_i x_i}}{\partial x_n} \end{array}\right] = \left[\begin{array}{ccccc} \beta_1 \\ \beta_2 \\ \cdots \\ \beta_n \end{array}\right] = \beta$
这样就能很清楚的理解矩阵矩阵求导的表示形式的具体含义了。

矩阵求导的表示形式之二：向量函数对值/向量/矩阵变量的导数

下面表达式中， $\mathbf y$ 表示一个向量函数， $x$ 表示一个值变量，那么他们的矩阵求导含义为：

\frac{\partial y}{\partial x} = [\begin{array}{ccccc} \frac{\partial y_{1}}{\partial x} \\ \frac{\partial y_{2}}{\partial x} \\ \dots \\ \frac{\partial y_{n}}{\partial x} \end{array}]

$\frac{\partial \mathbf y}{\partial x} = \left[\begin{array}{ccccc} \frac{\partial y_1}{\partial x} \\ \frac{\partial y_2}{\partial x} \\ \cdots \\ \frac{\partial y_n}{\partial x} \end{array}\right]$
接下来是向量函数

y y $\mathbf y$ 对向量变量

x x $\mathbf x$ 的导数含义为：

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x 1 \partial y 2 \partial x 2 \dots \partial y m \partial x n \partial y 1 \partial x 2 \partial y 2 \partial x 2 \dots \partial y m \partial x 2 \dots \dots \dots \dots \partial y 1 \partial x n \partial y 2 \partial x n \dots \partial y m \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial \mathbf y}{\partial \mathbf x} = \left[\begin{array}{ccccc} \frac{\partial y_1}{\partial x_{1}} & \frac{\partial y_1}{\partial x_{2}} & \cdots & \frac{\partial y_1}{\partial x_{n}}\\ \frac{\partial y_2}{\partial x_{2}} & \frac{\partial y_2}{\partial x_{2}} & \cdots & \frac{\partial y_2}{\partial x_{n}} \\ \cdots & \cdots & \cdots & \cdots \\ \frac{\partial y_m}{\partial x_{n}} & \frac{\partial y_m}{\partial x_{2}} & \cdots & \frac{\partial y_m}{\partial x_{n}} \end{array}\right]$
以一个最为简单的例子为例：