池化层的反向传播

最新推荐文章于 2023-11-19 10:06:01 发布

ForeverHaibara

最新推荐文章于 2023-11-19 10:06:01 发布

阅读量432

点赞数

分类专栏：机器学习笔记文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_53366150/article/details/116380274

版权

机器学习笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

前向传播
- 平均池化
- 最大池化
反向传播
- 平均池化
- 最大池化

神经网络的池化层一般是没有参数更新的，但是它仍旧要参与反向传播的参数传递。那应该怎么传递呢？

前向传播

平均池化和最大池化是两种较为常见的池化方式。先来回顾一下池化层的前向传播方式。
以输入 3x3, 池化核 2x2 为例，（无填充(padding)）则输出为 2x2

平均池化

$\left[\begin{matrix} x_{11} & x_{12} & x_{13} \\ x_{21} & x_{22} & x_{23}\\ x_{31} & x_{32} & x_{33} \end{matrix}\right] →\left[\begin{matrix} \frac{x_{11}+x_{12}+x_{21}+x_{22}}{4} & \frac{x_{12}+x_{13}+x_{22}+x_{23}}{4} \\ \frac{x_{21}+x_{22}+x_{31}+x_{32}}{4} & \frac{x_{22}+x_{23}+x_{32}+x_{33}}{4} \end{matrix}\right]$

最大池化

$\left[\begin{matrix} x_{11} & x_{12} & x_{13} \\ x_{21} & x_{22} & x_{23}\\ x_{31} & x_{32} & x_{33} \end{matrix}\right] →\left[\begin{matrix} max\{x_{11},x_{12},x_{21},x_{22}\}& max\{x_{12},x_{13},x_{22},x_{23}\} \\ max\{x_{21},x_{22},x_{31},x_{32}\}& max\{x_{22},x_{23},x_{32},x_{33}\} \end{matrix}\right]$

反向传播

由这一篇《优雅地理解神经网络反向传播》可知，神经网络反向传播中，每一层计算损失函数关于该层输入的梯度，将其传给前一层。 (*)
假定输出层损失函数为 $L$

平均池化

$\left[\begin{matrix} \frac{\partial L}{\partial x_{11}} & \frac{\partial L}{\partial x_{12}}&\frac{\partial L}{\partial x_{13}}\\ \\ \frac{\partial L}{\partial x_{21}} & \frac{\partial L}{\partial x_{22}}&\frac{\partial L}{\partial x_{23}}\\ \\ \frac{\partial L}{\partial x_{31}} & \frac{\partial L}{\partial x_{32}}&\frac{\partial L}{\partial x_{33}} \end{matrix}\right] ←\left[\begin{matrix} \frac{\partial L}{\partial z_{11}} & \frac{\partial L}{\partial z_{12}} \\ \\ \frac{\partial L}{\partial z_{21}}&\frac{\partial L}{\partial z_{22}} \end{matrix}\right]$
也就是按照箭头方向，已知所有 $\frac{\partial L}{\partial z_{ij}}$ 求解所有 $\frac{\partial L}{\partial x_{ij}}$ 的过程。

比如上图中 $(i, j) = (2, 2)$ 的情形， $x_{22}$ 对最终损失函数 $L$ 的贡献反映在四项 $\frac{\partial L}{\partial z_{11}} , \frac{\partial L}{\partial z_{12}} , \frac{\partial L}{\partial z_{21}} , \frac{\partial L}{\partial z_{22}}$ 上。

于是由链式法则，

$\frac{\partial L}{\partial x_{22}}=\frac{\partial L}{\partial z_{11}}\frac{\partial z_{11}}{\partial x_{22}} + \frac{\partial L}{\partial z_{12}}\frac{\partial z_{12}}{\partial x_{22}}+\frac{\partial L}{\partial z_{21}}\frac{\partial z_{21}}{\partial x_{22}}+\frac{\partial L}{\partial z_{22}}\frac{\partial z_{22}}{\partial x_{22}} \\\ \\ =\frac{1}{4}(\frac{\partial L}{\partial z_{11}}+\frac{\partial L}{\partial z_{12}}+\frac{\partial L}{\partial z_{21}}+\frac{\partial L}{\partial z_{22}})$

同理，易求得

$\left[\begin{matrix} \frac{\partial L}{\partial x_{11}} & \frac{\partial L}{\partial x_{12}}&\frac{\partial L}{\partial x_{13}}\\ \\ \frac{\partial L}{\partial x_{21}} & \frac{\partial L}{\partial x_{22}}&\frac{\partial L}{\partial x_{23}}\\ \\ \frac{\partial L}{\partial x_{31}} & \frac{\partial L}{\partial x_{32}}&\frac{\partial L}{\partial x_{33}} \end{matrix}\right] \\\ \\\ \\=\frac{1}{4}\left[\begin{matrix} \frac{\partial L}{\partial z_{11}} & \frac{\partial L}{\partial z_{11}}+ \frac{\partial L}{\partial z_{12}}& \frac{\partial L}{\partial z_{12}}\\ \\ \frac{\partial L}{\partial x_{11}}+\frac{\partial L}{\partial z_{21}} & \frac{\partial L}{\partial z_{11}}+\frac{\partial L}{\partial z_{12}}+\frac{\partial L}{\partial z_{21}}+\frac{\partial L}{\partial z_{22}}&\frac{\partial L}{\partial x_{12}}+ \frac{\partial L}{\partial z_{22}}\\ \\ \frac{\partial L}{\partial z_{21}} & \frac{\partial L}{\partial z_{21}}+ \frac{\partial L}{\partial z_{22}}& \frac{\partial L}{\partial z_{22}} \end{matrix}\right]$
为了方便边界处理，可以填充（padding），也可以写成如下形式：

$=\frac{1}{4}(\frac{\partial L}{\partial z_{11}} \left[\begin{matrix} 1 & 1 & 0 \\ \\ 1 & 1 & 0 \\ \\ 0 & 0 & 0 \end{matrix}\right] +\frac{\partial L}{\partial z_{12}}\left[\begin{matrix} 0 & 1 & 1 \\ \\ 0& 1 & 1 \\ \\ 0 & 0 & 0 \end{matrix}\right] +\frac{\partial L}{\partial z_{21}}\left[\begin{matrix} 0 & 0 & 0 \\ \\ 1 &1& 0 \\ \\ 1 &1& 0 \end{matrix}\right] +\frac{\partial L}{\partial z_{22}}\left[\begin{matrix} 0 &0& 0 \\ \\ 0&1 & 1 \\ \\0&1& 1 \end{matrix}\right] )$

可以理解为：
对于每个 $z_{ij}$ , 将其对损失函数的贡献（偏微分）分配给求得它的 $x_{i'j'}$ 。

最大池化

池化核在每一个位置处时，只有该区域中最大的 $x$ 对损失函数有贡献。其表现类似于 relu 激活函数。需要记录最大的 $x$ 所在的位置。
例如假设前向传播时
$\left[\begin{matrix} x_{11} & x_{12} & x_{13} \\ x_{21} & x_{22} & x_{23}\\ x_{31} & x_{32} & x_{33} \end{matrix}\right] →\left[\begin{matrix} x_{(i,j)_{1,1}}& x_{(i,j)_{1,2}} \\ x_{(i,j)_{2,1}}& x_{(i,j)_{2,2}} \end{matrix}\right]$
则反向传播时

$\left[\begin{matrix} \frac{\partial L}{\partial x_{11}} & \frac{\partial L}{\partial x_{12}}&\frac{\partial L}{\partial x_{13}}\\ \\ \frac{\partial L}{\partial x_{21}} & \frac{\partial L}{\partial x_{22}}&\frac{\partial L}{\partial x_{23}}\\ \\ \frac{\partial L}{\partial x_{31}} & \frac{\partial L}{\partial x_{32}}&\frac{\partial L}{\partial x_{33}} \end{matrix}\right] = \frac{\partial L}{\partial z_{11}} \delta_{(i,j)_{1,1}}+\frac{\partial L}{\partial z_{12}} \delta_{(i,j)_{1,2}}+\frac{\partial L}{\partial z_{21}} \delta_{(i,j)_{2,1}}+\frac{\partial L}{\partial z_{22}} \delta_{(i,j)_{2,2}}$

其中 $\delta_{(i,j)}$ 表示只在 $(i, j)$ 处为1，其余地方为0的矩阵。

ForeverHaibara

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
池化层的反向传播

文章目录前向传播平均池化最大池化反向传播平均池化最大池化神经网络的池化层一般是没有参数更新的，但是它仍旧要参与反向传播的参数传递。那应该怎么传递呢？前向传播平均池化和最大池化是两种较为常见的池化方式。先来回顾一下池化层的前向传播方式。以输入 3x3, 池化核 2x2 为例，（无填充(padding)）则输出为 2x2平均池化[x11x12x13x21x22x23x31x32x33]→[x11+x12+x21+x224x12+x13+x22+x234x21+x22+x31+x324x22+x2
复制链接

扫一扫