矩阵求导术_xtx求导-CSDN博客

矩阵求导的技术，在统计学、控制论、机器学习等领域有广泛的应用。本文来做个科普，分作两篇，上篇讲标量对矩阵的求导术，下篇讲矩阵对矩阵的求导术。本文使用小写字母 $x$ 表示标量，粗体小写字母 $\boldsymbol{x}$ 表示（列）向量，大写字母 $X$ 表示矩阵。

首先来琢磨一下定义，标量 $f$ 对矩阵 $X$ 的导数，定义为 $\frac{\partial f}{\partial X}=\left [ \frac{\partial f}{\partial X_{ij}} \right ]$ ，即 $f$ 对 $X$ 逐元素求导排成与 $X$ 尺寸相同的矩阵。然而，这个定义在计算中并不好用，实用上的原因是对函数较复杂的情形难以逐元素求导；哲理上的原因是逐元素求导破坏了整体性。试想，为何要将 $f$ 看做矩阵 $X$ 而不是各元素 $X_{ij}$ 的函数呢？答案是用矩阵运算更整洁。所以在求导时不宜拆开矩阵，而是要找一个从整体出发的算法。

为此，我们来回顾，一元微积分中的导数（标量对标量的导数）与微分有联系： $d f = f^{'} (x) d x$ ；多元微积分中的梯度（标量对向量的导数）也与微分有联系： $f=\sum_{i=1}^n \frac{\partial f}{\partial x_i}dx_i=\frac{\partial f^T}{\partial \boldsymbol x}d\boldsymbol x$ ，这里第一个等号是全微分公式，第二个等号表达了梯度与微分的联系：全微分 $d f$ 是梯度向量 $\frac{\partial f}{\partial \boldsymbol x}(n\times 1)$ 与微分向量 $\boldsymbol x(x \times 1)$ 的内积；受此启发，我们将矩阵导数与微分建立联系： $df=\sum_{i=1}^m\sum_{j=1}^n\frac{\partial f}{\partial X_{ij}} dX_{ij}=tr\left ( \frac{\partial f^T}{\partial X} dX \right )$ 。其中tr代表迹(trace)是方阵对角线元素之和，满足性质：对尺寸相同的矩阵A,B， $tr\left ( A^TB \right )=\sum_{i,j}A_{ij}B_{ij}$ ，即 $tr\left ( A^TB \right )$ 是矩阵A,B的内积。与梯度相似，这里第一个等号是全微分公式，第二个等号表达了矩阵导数与微分的联系：全微分 $d f$ 是导数 $\frac{\partial f}{\partial X}(m\times n)$ 与微分矩阵 $dX(m\times n)$ 的内积。

然后来建立运算法则。回想遇到较复杂的一元函数如 $\ x)e^{\sqrt{x}}$ ，我们是如何求导的呢？通常不是从定义开始求极限，而是先建立了初等函数求导和四则运算、复合等法则，再来运用这些法则。故而，我们来创立常用的矩阵微分的运算法则：
1.
加减法： $d(X\pm Y)=dX\pm dY$
矩阵乘法： $d (X Y) = (d X) Y + X (d Y)$
转置： $d(X^T)=(dX)^T$
迹： $d t r (X) = t r (d X)$
2.
逆： $dX^{-1}=-X^{-1}dXX^{-1}$ 。此式可在 $XX^{-1}=I$ 两侧求微分来证明。
3.
行列式： $d\left | X \right |=tr(X^{\#}dX)$ ，其中 $X^{\#}$ 表示 $X$ 的伴随矩阵，在 $X$ 可逆时又可以写作 $d\left | X \right |=\left | X \right |tr\left ( X^{-1}dX \right )$ 。此式可用Laplace展开来证明，详见张贤达《矩阵分析与应用》第279页。
4.
逐元素乘法： $d(X\odot Y)=dX \odot Y + X \odot dY$ ， $\odot$ 表示尺寸相同的矩阵X,Y逐元素相乘。
5.
逐元素函数： $\sigma (X)= \sigma'(X) \odot dX,\ \sigma (X)=\left [ \sigma (X_{ij}) \right ]$ ，是逐元素标量函数运算， ${\sigma }'(X)=\left [ {\sigma }'(X_{ij}) \right ]$ 是逐元素求导数。举个例子:
$X=\begin{bmatrix} x_{11} & x_{12}\\ x_{21} & x_{22} \end{bmatrix},\ d\sin(X)=\begin{bmatrix} cos \ x_{11}dx_{11} &cos \ x_{12}dx_{12} \\ cos \ x_{21}dx_{21} &cos \ x_{22}dx_{22} \end{bmatrix}=cos(X) \odot dX$
我们试图利用矩阵导数与微分的联系 $tr\left ( \frac{\partial f^T}{\partial X} dX\right )$ ，在求出左侧的微分 $d f$ 后，该如何写成右侧的形式并得到导数呢？这需要一些迹技巧(trace trick)：
1.标量套上迹： $a = t r (a)$
2.转置： $tr(A^T)=tr(A)$
3.线性： $tr(A\pm B)=tr(A)\pm tr(B)$
4.矩阵乘法交换： $t r (A B) = t r (B A)$ ，其中 $A$ 与 $B^T$ 尺寸相同。两侧都等于 $\sum_{ij}A_{ij}B_{ji}$ 。
5.矩阵乘法/逐元素乘法交换： $tr(A^T(B \odot C))=tr((A \odot B)^TC)$ 其中尺寸相同。两侧都等于 $\sum_{i,j}A_{ij}B_{ij}C_{ij}$

观察一下可以断言，若标量函数 $f$ 是矩阵 $X$ 经加减乘法、逆、行列式、逐元素函数等运算构成，则使用相应的运算法则对 $f$ 求微分，再使用迹技巧给 $d f$ 套上迹并将其它项交换至 $d X$ 左侧，即能得到导数。

在建立法则的最后，来谈一谈复合：假设已求得 $\frac{\partial f}{\partial Y}$ ，而Y是X的函数，如何求 $\frac{\partial f}{\partial X}$ 呢？在微积分中有标量求导的链式法则 $\frac{\partial f}{\partial x}=\frac{\partial f}{\partial y}\frac{\partial y}{\partial x}$ ，但这里我们不能沿用链式法则，因为矩阵对矩阵的导数 $\frac{\partial Y}{\partial X}$ 截至目前仍是未定义的。于是我们继续追本溯源，链式法则是从何而来？源头仍然是微分。我们直接从微分入手建立复合法则：先写出 $df=tr(\frac{\partial f^T}{\partial Y}dY)$ 再将 $d Y$ 用 $d X$ 表示出来代入，并使用迹技巧将其他项交换至 $d X$ 左侧，即可得到 $\frac{\partial f}{\partial X}$ 。

接下来演示一些算例。特别提醒要依据已经建立的运算法则来计算，不能随意套用微积分中标量导数的结论，比如认为 $A X$ 对 $X$ 的导数为 $A$ ，这是没有根据、意义不明的。

例1： $f=\boldsymbol a^TX \boldsymbol b$ ，求 $\frac{\partial f}{\partial X}$ 。其中 $\boldsymbol a$ 是 $\times 1$ 列向量， $X$ 是 $\times n$ 矩阵， $\boldsymbol b$ 是 $\times 1$ 列向量, $f$ 是标量。

解：先使用矩阵乘法法则求微分，这里的 $\boldsymbol a,\boldsymbol b$ 是常量， $d\boldsymbol a=0,d\boldsymbol b=0$ ，得到： $df=\boldsymbol a^TdX \boldsymbol b$ ，再套上迹并做矩阵乘法交换： $df=tr(\boldsymbol a^TdX\boldsymbol b)=tr(\boldsymbol b \boldsymbol a^TdX)$ ，注意这里我们根据 $t r (A B) = t r (B A)$ 交换了 $\boldsymbol a^TdX$ 与 $\boldsymbol b$ 。对照导数与微分的联系 $df=tr\left ( \frac{\partial f^T}{\partial X} dX \right )$ ，得到 $\frac{\partial f}{\partial X}=(\boldsymbol b \boldsymbol a^T)^T=\boldsymbol a \boldsymbol b^T$ 。

注意：这里不能用 $\frac{\partial f}{\partial X}=\boldsymbol a^T\frac{\partial X}{\partial X}\boldsymbol b=?$ ，导数与乘常数矩阵的交换是不合法则的运算（而微分是合法的）。有些资料在计算矩阵导数时，会略过求微分这一步，这是逻辑上解释不通的。

例2： $\boldsymbol a^Texp(X \boldsymbol b)$ ，求 $\frac{\partial f}{\partial X}$ 。其中 $\boldsymbol a$ 是 $\times 1$ 列向量，其中 $X$ 是 $\times n$ 矩阵，其中 $\boldsymbol b$ 是 $\times 1$ 列向量， $e x p$ 表示逐元素求指数， $f$ 是标量。

解：先使用矩阵乘法、逐元素函数法则求微分： $df=\boldsymbol a^T(exp(X\boldsymbol b))\odot(dX\boldsymbol b)$ ，再套上迹并做交换： $df=tr(\boldsymbol a^T(exp(X\boldsymbol b))\odot(dX\boldsymbol b)))=tr((\boldsymbol a \odot exp(X\boldsymbol b))^TdX\boldsymbol b)=tr(\boldsymbol b(\boldsymbol a \odot exp(X\boldsymbol b))^TdX)$ ，注意这里我们先根据 $tr(A^T(B \odot C))=tr((A \odot B)^T C)$ 交换了 $\boldsymbol a,exp(X\boldsymbol b)$ 与 $dX\boldsymbol b$ ，再根据 $t r (A B) = t r (B A)$ 交换了 $(\boldsymbol a \odot exp(X\boldsymbol b))^TdX$ 与 $\boldsymbol b$ 。对照导数与微分的联系 $df=tr\left ( \frac{\partial f^T}{\partial X} dX\right )$ ，得到 $\frac{\partial f}{\partial X}=(\boldsymbol b(\boldsymbol a \odot exp(X\boldsymbol b))^T)^T=(\boldsymbol a \odot exp(X\boldsymbol b))\boldsymbol b^T$

例3： $f=tr(Y^TMY),Y=\sigma(WX)$ 求 $\frac{\partial f}{\partial X}$ 其中 $W$ 是 $\times m$ 矩阵，其中 $X$ 是 $\times n$ 矩阵，其中 $Y$ 是 $\times n$ 矩阵，其中 $M$ 是 $\times l$ 矩阵， $\sigma$ 是逐元素函数， $f$ 是标量。

解：先求 $\frac{\partial f}{\partial Y}$ ，求微分，使用矩阵乘法、转置法则： $df=tr((dY)^TMY)+tr(Y^TMdY)=tr(Y^TM^TdY)+tr(Y^TMdY)=tr(Y^T(M+M^T)dY)$ ，对照导数与微分的联系，得到 $\frac{\partial f}{\partial Y}=(M+M^T)Y=2MY$ ，这里是对称矩阵。为求 $\frac{\partial f}{\partial X}$ ，写出 $df=tr\left ( \frac{\partial f^T}{\partial Y} dY \right )$ ，再将 $d Y$ 用 $d X$ 表示出来代入，并使用矩阵乘法/逐元素乘法交换： $df=tr\left ( \frac{\partial f^T}{\partial Y}({\sigma}'(WX) \odot (WdX) \right )=tr\left ( {\left ( \frac{\partial f}{\partial Y} \odot {\sigma}'(WX) \right )}^T WdX \right )$ ，对照导数与微分的联系，得到 $\frac{\partial f}{\partial X}=W^T\left ( \frac{\partial f}{\partial Y} \odot {\sigma}' (WX)\right )=W^T((2M\sigma(WXX)) \odot {\sigma}'(WX))$

例4【线性回归】： $l=\left \| X \boldsymbol \omega - \boldsymbol y \right \|^2$ ，求 $\boldsymbol \omega$ 的最小二乘估计，即求 $\frac{\partial l}{\partial \boldsymbol \omega }$ 的零点。其中 $\boldsymbol y$ 是 $\times 1$ 列向量， $X$ 是 $\times n$ 矩阵， $\boldsymbol \omega$ 是 $\times 1$ 列向量， $l$ 是标量。

解：严格来说这是标量对向量的导数，不过可以把向量看做矩阵的特例。先将向量模平方改写成向量与自身的内积： $l=(X\boldsymbol \omega - \boldsymbol y)^T(X\boldsymbol \omega - \boldsymbol y)$ ，求微分，使用矩阵乘法、转置等法则： $dl=(Xd\boldsymbol \omega )^T(X\boldsymbol \omega - \boldsymbol y)+(X\boldsymbol \omega - \boldsymbol y)^T(Xd\boldsymbol \omega )=2(X\boldsymbol \omega - \boldsymbol y)^TXd\boldsymbol \omega$ 。对照导数与微分的联系 $dl=\frac{\partial l^T}{\partial \boldsymbol \omega }d\boldsymbol \omega$ ，得到 $\frac{\partial l}{\partial \boldsymbol \omega }=(2(X\boldsymbol \omega - \boldsymbol y)^TX)^T=2X^T(X\boldsymbol \omega - \boldsymbol y)$ 。 $\frac{\partial l}{\partial \boldsymbol \omega }$ 零点即 $\boldsymbol \omega$ 的最小二乘估计为 $\boldsymbol \omega =(X^TX)^{-1}X^T\boldsymbol y$ 。

例5【方差的最大似然估计】：样本 $\boldsymbol x_1,...,\boldsymbol x_N\sim \lambda (\boldsymbol \mu , \Sigma )$ ，求方差 $\Sigma$ 的最大似然估计。写成数学式是： $l=log\left | \Sigma \right |+\frac{1}{N}\sum_{i=1}^N(\boldsymbol x_i-\bar \boldsymbol x)^T\Sigma ^{-1}(\boldsymbol x_i-\bar \boldsymbol x)$ ，求 $\frac{\partial l}{\partial \Sigma }$ 的零点。其中 $\boldsymbol x_{i}$ 是 $\times 1$ 向量， $\Sigma$ 是 $\times m$ 对称正定矩阵， $\bar \boldsymbol x= \frac{1}{N} \sum_{i=1}^{N}\boldsymbol x_i$ 是样本均值， $l$ 是标量，log表示自然对数。

解：首先求微分，使用矩阵乘法、行列式、逆等运算法则，第一项是 $dlog\left | \Sigma \right |=\left | \Sigma \right |^{-1}d\left | \Sigma \right |=tr(\left | \Sigma \right |^{-1}d\Sigma )$ ，第二项是 $\frac{1}{N}\sum_{i=1}^N(\boldsymbol x_i-\bar \boldsymbol x)^Td{\Sigma} ^{-1}(\boldsymbol x_i-\bar \boldsymbol x)= - \frac{1}{N}\sum_{i=1}^N(\boldsymbol x_i-\bar \boldsymbol x)^T {\Sigma} ^{-1} d\Sigma{\Sigma} ^{-1}(\boldsymbol x_i-\bar \boldsymbol x)$ 。再给第二项套上迹做交换： $tr(\frac{1}{N}\sum_{i=1}^N(\boldsymbol x_i-\bar \boldsymbol x)^T {\Sigma} ^{-1} d\Sigma{\Sigma} ^{-1}(\boldsymbol x_i-\bar \boldsymbol x))= \frac{1}{N}\sum_{i=1}^N tr((\boldsymbol x_i-\bar \boldsymbol x)^T {\Sigma} ^{-1} d\Sigma{\Sigma} ^{-1}(\boldsymbol x_i-\bar \boldsymbol x))= \frac{1}{N}\sum_{i=1}^N tr({\Sigma} ^{-1} (\boldsymbol x_i-\bar \boldsymbol x)(\boldsymbol x_i-\bar \boldsymbol x)^T {\Sigma} ^{-1} d\Sigma=tr({\Sigma} ^{-1} S{\Sigma} ^{-1} d\Sigma)$ ，其中先交换迹与求和，然后将 $\Sigma ^{-1}(\boldsymbol x_i - \bar \boldsymbol x)$ 交换到左边，最后再交换迹与求和，并定义 $S=\frac{1}{N} \sum_{i=1}^N(\boldsymbol x_i - \bar \boldsymbol x)(\boldsymbol x_i - \bar \boldsymbol x)^T$ 为样本方差矩阵。得到 $dl=tr(({\Sigma} ^{-1} - \Sigma^{-1} S{\Sigma} ^{-1}) d\Sigma)$ 。对照导数与微分的联系，有 $\frac{\partial l}{\partial \Sigma}=({\Sigma} ^{-1} - \Sigma^{-1} S{\Sigma} ^{-1})^T$ ，其零点即 $\Sigma$ 的最大似然估计为 $\Sigma = S$ 。

例6【多元logistic回归】： $\boldsymbol y^Tlog \ softmax(W \boldsymbol x)$ ，求 $\frac{\partial l}{\partial W}$ 。其中 $\boldsymbol y$ 是除一个元素为1外其它元素为0的 $\times 1$ 列向量， $W$ 是 $\times n$ 矩阵， $\boldsymbol x$ 是 $\times 1$ 矩阵， $l$ 是标量；log表示自然对数， $\boldsymbol a)=\frac{exp( \boldsymbol a)}{ \boldsymbol 1^T exp( \boldsymbol a)}$ ，其中 $e x p (a)$ 表示逐元素求指数， $\boldsymbol 1$ 代表全1向量。

解1：首先将softmax函数代入并写成 $\boldsymbol y^T(log(exp(W \boldsymbol x))- \boldsymbol 1log( \boldsymbol 1^Texp(W \boldsymbol x)))=- \boldsymbol y^TW \boldsymbol x+log( \boldsymbol 1^Texp(W \boldsymbol x))$ ，这里要注意逐元素log满足等式 $\boldsymbol u /c)=log( \boldsymbol u)- \boldsymbol 1log(c)$ ，以及 $\boldsymbol y$ 满足 $\boldsymbol y^T \boldsymbol 1 = 1$ 。求微分，使用矩阵乘法、逐元素函数等法则： $\boldsymbol y^TdW\boldsymbol x + \frac{\boldsymbol 1^T(exp(W\boldsymbol x) \odot (dW\boldsymbol x))}{\boldsymbol 1^Texp(W\boldsymbol x)}$ 。再套上迹并做交换，注意可化简 $\boldsymbol 1^T(exp(W\boldsymbol x) \odot (dW\boldsymbol x))=exp(W\boldsymbol x)^TdW\boldsymbol x$ ，这是根据等式 $\boldsymbol 1^T(\boldsymbol u \odot \boldsymbol v)=\boldsymbol u^T\boldsymbol v$ ，故 $dl=tr\left ( -\boldsymbol y^TdW\boldsymbol x + \frac{exp(W\boldsymbol x)^TdW\boldsymbol x}{1^T exp(W\boldsymbol x)} \right )=tr(\boldsymbol x(softmax(W\boldsymbol x)-\boldsymbol y^T)dW)$ 。对照导数与微分的联系，得到 $\frac{\partial l}{\partial W}=(softmax(W\boldsymbol x)-\boldsymbol y)\boldsymbol x^T$ 。

解2：定义 $\boldsymbol a=W\boldsymbol x$ ，则 $l=-\boldsymbol y^Tlog \ softmax(\boldsymbol a)$ ，先同上求出 $\frac{\partial l}{\partial \boldsymbol a} = softmax(\boldsymbol a)-\boldsymbol y$ ，再利用复合法则： $tr\left ( \frac{\partial l^T}{\partial \boldsymbol a}d\boldsymbol a \right )=tr\left ( \frac{\partial l^T}{\partial \boldsymbol a}dW\boldsymbol x \right )=tr\left ( \boldsymbol x \frac{\partial l^T}{\partial \boldsymbol a}dW \right )$ ，得到 $\frac{\partial l}{\partial W}= \frac{\partial l}{\partial \boldsymbol a}\boldsymbol x^T$ 。

最后一例留给经典的神经网络。神经网络的求导术是学术史上的重要成果，还有个专门的名字叫做BP算法，我相信如今很多人在初次推导BP算法时也会颇费一番脑筋，事实上使用矩阵求导术来推导并不复杂。为简化起见，我们推导二层神经网络的BP算法。

例7【二层神经网络】： $l=-\boldsymbol y^Tlog \ softmax(W_2 \sigma(W_1\boldsymbol x))$ ，求 $\frac{\partial l}{\partial W_1}$ 和 $\frac{\partial l}{\partial W_2}$ 。其中 $\boldsymbol y$ 是除一个元素为1外其它元素为0的的 $\times 1$ 列向量， $W_2$ 是 $\times p$ 矩阵， $W_1$ 是 $\times n$ 矩阵， $\boldsymbol x$ 是 $\times 1$ 矩阵， $l$ 是标量；log表示自然对数， $softmax(\boldsymbol a)=\frac{exp(\boldsymbol a)}{\boldsymbol 1^Texp(\boldsymbol a)}$ 同上， $\sigma$ 是逐元素sigmoid函数。

解：定义 $\boldsymbol a_1=W_1\boldsymbol x,\boldsymbol h_1=\sigma(\boldsymbol a_1),\boldsymbol a_2=W_2\boldsymbol h_1$ ，则 $l=-\boldsymbol y^Tlog \ softmax(\boldsymbol a_2)$ 。在前例中已求出 $\frac{\partial l}{\partial \boldsymbol a_2}=softmax(\boldsymbol a_2)-\boldsymbol y$ 。使用复合法则， $dl=tr\left ( \frac{\partial l^T}{ \partial \boldsymbol a_2} d\boldsymbol a_2 \right)=tr\left ( \frac{\partial l^T}{ \partial \boldsymbol a_2} dW_2\boldsymbol h_1 \right ) + \underbrace{tr\left ( \frac{\partial l^T}{ \partial \boldsymbol a_2} W_2d\boldsymbol h_1 \right ) }_{dl_2}$ ，使用矩阵乘法交换的迹技巧从第一项得到 $\frac{\partial l}{\partial W_2}=\frac{\partial l}{\partial \boldsymbol a_2}h^T_1$ ，从第二项得到 $\frac{\partial l}{\partial \boldsymbol h_1}=W_2^T\frac{\partial l}{\partial \boldsymbol a_2}$ 。接下来对第二项继续使用复合法则来求 $\frac{\partial l}{\partial \boldsymbol a_1}$ ，并利用矩阵乘法和逐元素乘法交换的迹技巧： $dl_2=tr\left ( \frac{\partial l^T}{\partial \boldsymbol h_1}d\boldsymbol h_1 \right )=tr\left ( \frac{\partial l^T}{\partial \boldsymbol h_1}(\sigma'(\boldsymbol a_1) \odot d\boldsymbol a_1) \right )=tr\left ( \left ( \frac{\partial l}{\partial \boldsymbol h_1} \odot \sigma'(\boldsymbol a_1)\right )^Td\boldsymbol a_1 \right )$ ，得到 $\frac{\partial l}{\partial \boldsymbol a_1}=\frac{\partial l}{\partial \boldsymbol h_1} \odot \sigma'(\boldsymbol a_1)$ 为求 $\frac{\partial l}{\partial W}$ ，再用一次复合法则： $dl_2=tr\left ( \frac{\partial l^T}{\partial \boldsymbol a_1}d\boldsymbol a_1 \right )=tr\left ( \frac{\partial l^T}{\partial \boldsymbol a_1}dW_1\boldsymbol x \right )=tr\left ( \boldsymbol x \frac{\partial l^T}{\partial \boldsymbol a_1}dW_1 \right )$ ，得到 $\frac{\partial l}{\partial W_1}=\frac{\partial l}{\partial \boldsymbol a_1}\boldsymbol x^T$

推广：样本 $(\boldsymbol x_1,\boldsymbol y_1),....,(\boldsymbol x_N,\boldsymbol y_N)$ ， $\sum_{i=1}^N\boldsymbol y_i^T log \ softmax(W_2 \sigma(W_1\boldsymbol x_i+\boldsymbol b_1)+\boldsymbol b_2)$ ， $\boldsymbol b_1$ 是 $\times 1$ 列向量， $\boldsymbol b_2$ 是 $\times 1$ 列向量其余定义同上。

解1：定义 $\boldsymbol a_{1,i}=W_1\boldsymbol x_i+\boldsymbol b_1,\boldsymbol h_{1,i}=\sigma(\boldsymbol a_{1,i}),\boldsymbol a_{2,i}=W_2\boldsymbol h_{1,i}+\boldsymbol b_2$ ，则 $l=-\sum_{i=1}^N\boldsymbol y_i^T log \ softmax(\boldsymbol a_{2,i})$ 。先同上可求出 $\frac{\partial l}{\partial \boldsymbol a_{2,i}}=softmax(\boldsymbol a_{2,i})-\boldsymbol y_i$ 。使用复合法则， $dl=tr\left ( \sum_{i=1}^N\frac{\partial l^T}{\partial \boldsymbol a_{2,i}} d\boldsymbol a_{2,i}\right )=tr\left ( \sum_{i=1}^N\frac{\partial l^T}{\partial \boldsymbol a_{2,i}} dW_2\boldsymbol h_{1,i} \right ) + \underbrace{tr\left ( \sum_{i=1}^N\frac{\partial l^T}{\partial \boldsymbol a_{2,i}}W_ 2d\boldsymbol h_{1,i} \right ) }_{dl_2} + tr\left ( \sum_{i=1}^N\frac{\partial l^T}{\partial \boldsymbol a_{2,i}} d\boldsymbol b_2 \right )$ ，从第一项得到得到 $\frac{\partial l}{\partial W_2}=\sum_{i=1}^N\frac{\partial l}{\partial \boldsymbol a_{2,i} }\boldsymbol h_{1,i}^T$ ，从第二项得到 $\frac{\partial l}{\partial \boldsymbol h_{1,i}}=W_2^T\frac{\partial l}{\partial \boldsymbol a_{2,i} }$ ，从第三项得到 $\frac{\partial l}{\partial \boldsymbol b_2}=\sum_{i=1}^N\frac{\partial l}{\partial \boldsymbol a_{2,i} }$ 。接下来对第二项继续使用复合法则，得到 $\frac{\partial l}{\partial \boldsymbol a_{1,i}}=\frac{\partial l}{\partial \boldsymbol h_{1,i} } \odot \sigma'(\boldsymbol a_{1,i})$ 。为求 $\frac{\partial l}{\partial W_1},\frac{\partial l}{\partial \boldsymbol b_1}$ ，再用一次复合法则： $dl_2=tr\left ( \sum_{i=1}^N\frac{\partial l^T}{\partial a_{1,i}} d\boldsymbol a_{1,i}\right )=tr\left ( \sum_{i=1}^N\frac{\partial l^T}{\partial \boldsymbol a_{1,i}} dW_1\boldsymbol x_{i} \right ) + tr\left ( \sum_{i=1}^N\frac{\partial l^T}{\partial \boldsymbol a_{1,i}} d\boldsymbol b_1 \right )$ 得到 $\frac{\partial l}{\partial W_1}= \sum_{i=1}^{N}\frac{\partial l}{\partial \boldsymbol a_{1, i}}x_i^T,\frac{\partial l}{\partial \boldsymbol b_1}=\sum_{i=1}^N \frac{\partial l}{\partial \boldsymbol a_{1, i}}$

解2：可以用矩阵来表示N个样本，以简化形式。定义 $X=[\boldsymbol x_1, ...,\boldsymbol x_N],A_1=[\boldsymbol a_{1,1},..,\boldsymbol a_{1,N}]=W_1X+\boldsymbol b_1\boldsymbol 1^T,H_1=[\boldsymbol h_{1,1},...,\boldsymbol h_{1,N}]=\sigma(A_1),A_2=[\boldsymbol a_{2,1},..,\boldsymbol a_{2,N}]=W_2H_1+\boldsymbol b_2\boldsymbol 1^T$ ，注意这里使用全1向量来扩展维度。先同上求出 $\frac{\partial l}{\partial A_2}=[softmax(\boldsymbol a_{2,1})-\boldsymbol y_1,...,softmax(\boldsymbol a_{2,N})-\boldsymbol y_N]$ 。使用复合法则， $dl=tr\left ( \frac{\partial l^T}{\partial A_2} dA_2\right )=tr\left ( \frac{\partial l^T}{\partial A_2} dW_2H_1 \right ) + \underbrace{tr\left ( \frac{\partial l^T}{\partial A_2} W_2dH_1 \right )}_{dl_2} + tr\left ( \frac{\partial l^T}{\partial A_2} d\boldsymbol b_2\boldsymbol 1^T \right )$ ，从第一项得到 $\frac{\partial l}{\partial W_2}=\frac{\partial l}{\partial A_2}H_1^T$ ，从第二项得到 $\frac{\partial l}{\partial W_1}=W_2^T\frac{\partial l}{\partial A_2}$ ，从第三项得到到 $\frac{\partial l}{\partial \boldsymbol b_2}=\frac{\partial l}{\partial A_2}\boldsymbol 1$ 。接下来对第二项继续使用复合法则，得到 $\frac{\partial l}{\partial A_1}=\frac{\partial l}{\partial H_1} \odot \sigma'(A_1)$ 。为求 $\frac{\partial l}{\partial W_1},\frac{\partial l}{\partial \boldsymbol b_1}$ ，再用一次复合法则： $dl_2=tr\left ( \frac{\partial l^T}{\partial A_1}dA_1 \right )=tr\left ( \frac{\partial l^T}{\partial A_1}dW_1X \right )+tr\left ( \frac{\partial l^T}{\partial A_1}d\boldsymbol b_1\boldsymbol 1^T \right )$ ，得到 $\frac{\partial l}{\partial W_1}=\frac{\partial l}{\partial A_1}X^T,\frac{\partial l}{\partial \boldsymbol b_1}=\frac{\partial l}{\partial A_1}\boldsymbol 1$