[tensorflow] 卷积和池化中的padding操作带来的维度变化

最新推荐文章于 2024-08-10 05:00:00 发布

ASR_THU

最新推荐文章于 2024-08-10 05:00:00 发布

阅读量1.5k

点赞数 2

分类专栏：工具性知识点 tensorflow 文章标签： tensorflow

本文链接：https://blog.csdn.net/zongza/article/details/87991518

版权

工具性知识点同时被 2 个专栏收录

92 篇文章 4 订阅

订阅专栏

tensorflow

24 篇文章 0 订阅

订阅专栏

根据tensorflow中的conv2d函数，我们先定义几个基本符号。

1、输入矩阵 W×W，这里只考虑输入宽高相等的情况，如果不相等，推导方法一样，不多解释。

2、filter矩阵 F×F，卷积核

3、stride值 S，步长

4、输出宽高为 new_height、new_width

当然还有其他的一些具体的参数，这里就不再说明了。

我们知道，padding的方式在tensorflow里分两种，一种是VALID，一种是SAME，下面分别介绍这两种方式的实际操作方法。

1、如果padding = ‘VALID’

new_height = new_width = (W – F + 1) / S （结果向上取整）

也就是说，conv2d的VALID方式不会在原有输入的基础上添加新的像素（假定我们的输入是图片数据，因为只有图片才有像素），输出矩阵的大小直接按照公式计算即可。

2、如果padding = ‘SAME’

new_height = new_width = W / S （结果向上取整）

在高度上需要pad的像素数为

pad_needed_height = (new_height – 1) × S + F - W

根据上式，输入矩阵上方添加的像素数为

pad_top = pad_needed_height / 2 （结果取整）

下方添加的像素数为

pad_down = pad_needed_height - pad_top

以此类推，在宽度上需要pad的像素数和左右分别添加的像素数为

pad_needed_width = (new_width – 1) × S + F - W

pad_left = pad_needed_width / 2 （结果取整）

pad_right = pad_needed_width – pad_left

举例说明：

#输入input_data是(batch_size, n-frames, n-fft, 1)也即(32, 1600, 200, 1)
layer_h1 = Conv2D(32, (3,3), use_bias=False, activation='relu', padding='same', kernel_initializer='he_normal')(input_data) # 卷积层
#(32, 1600, 200, 32) 注意conv的默认步长stride=(1,1),卷积后的维度和kernal_size(3,3)无关
layer_h1 = Dropout(0.05)(layer_h1)
layer_h2 = Conv2D(32, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h1) # 卷积层
#(32, 1600, 200, 32)
layer_h3 = MaxPooling2D(pool_size=2, strides=None, padding="valid")(layer_h2) # 池化层
#(32, 800, 100, 32) 注意pool之后的维度也是W/S

layer_h3 = Dropout(0.05)(layer_h3)
layer_h4 = Conv2D(64, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h3) # 卷积层
#(32, 800, 100, 64)
layer_h4 = Dropout(0.1)(layer_h4)
layer_h5 = Conv2D(64, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h4) # 卷积层
#(32, 800, 100, 64)
layer_h6 = MaxPooling2D(pool_size=2, strides=None, padding="valid")(layer_h5) # 池化层
#(32, 400, 50, 64)

layer_h6 = Dropout(0.1)(layer_h6)
layer_h7 = Conv2D(128, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h6) # 卷积层
#(32, 400, 50, 128)
layer_h7 = Dropout(0.15)(layer_h7)
layer_h8 = Conv2D(128, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h7) # 卷积层
#(32, 400, 50, 128)
layer_h9 = MaxPooling2D(pool_size=2, strides=None, padding="valid")(layer_h8) # 池化层
#(32, 200, 25, 128)