1.二维互相关运算:由二维的输入数组和二维的核数组得到一个二维的输出数组。
这个二维的核数组通常称为卷积核或过滤器(filter),它的高度和宽度一般比输入数组小。
二维卷积层是将输入与卷积核做互相关运算,再加一个标量偏置。因此卷积层的模型参数就包括卷积核和标量偏置。
2.特征图(feature map):简单来说就是指输出数组,因为它可以看作是输入在空间维度(高和宽)上的某一级表征。
感受野(receptive field):输出数组上的某一个数y可以被输入数组上的哪些数字x所影响,这些x就是y的感受野。不仅可以求一个卷积核运算结束后结果中一个数字在输入上的感受野,也可以求与多个卷积核运算结束后的结果中一个数字在输入上的感受野,而且也不一定是求输入上的感受野,可以求结果中的一个数字未做上一次互相关运算的二维数组上的感受野。(标准定义:影响元素x的前向计算的所有可能输入区域(可能大于输入的实际尺寸)叫做x的感受野)
3.填充(padding):在输入数组高和宽的两侧填充元素(通常是0元素)。填充后的二维数组与卷积核做互相关运算并加偏置。填充是卷积层的超参数。
步幅(stride):在互相关运算中,卷积核在输入数组上滑动,每次滑动的行数和列数就是步幅。步幅是卷积层的超参数。
4.计算
设
原输入的高和宽是
n
h
n_h
nh和
n
w
n_w
nw
卷积核的高和宽是
k
h
k_h
kh和
k
w
k_w
kw
在高的两侧分别填充
p
h
p_h
ph行,在宽的两侧分别填充
p
w
p_w
pw列
高上步幅为
s
h
s_h
sh,宽上步幅为
s
w
s_w
sw
则输出的高和宽是
⌊
(
n
h
+
2
p
h
−
k
h
+
s
h
)
/
s
h
⌋
\lfloor(n_h+2p_h-k_h+s_h)/s_h\rfloor
⌊(nh+2ph−kh+sh)/sh⌋和
⌊
(
n
w
+
2
p
w
−
k
w
+
s
w
)
/
s
w
⌋
\lfloor(n_w+2p_w-k_w+s_w)/s_w\rfloor
⌊(nw+2pw−kw+sw)/sw⌋
5.多输入通道:灰度图的一个像素点的颜色只用一个数字就可以表示,只有一个通道。彩色图的颜色需要用RGB(红绿蓝)三种颜色表示,有3个颜色通道。
设彩色图像的高和宽分别是
h
h
h和
w
w
w,那么它可以表示成
3
×
h
×
w
3\times h\times w
3×h×w,3是通道维。
要为每个输入通道分配一个二维核数组,这些核数组在通道维上联结得到卷积核,将各个通道得到的输出结果加起来才是输出结果。
计算:
设
输入为
c
i
×
n
h
×
n
w
c_i\times n_h\times n_w
ci×nh×nw
核数组
k
h
×
k
w
k_h\times k_w
kh×kw
那么卷积核的形状:
c
i
×
k
h
×
k
w
c_i\times k_h\times k_w
ci×kh×kw
5.多输出通道:设输出通道数为
c
o
c_o
co,为每个输出通道创建形状为
c
i
×
k
h
×
k
w
c_i\times k_h\times k_w
ci×kh×kw的核数组,它们在输出通道维上联结,得到卷积核,其形状为
c
o
×
c
i
×
k
h
×
k
w
c_o\times c_i\times k_h\times k_w
co×ci×kh×kw。
理解:一个
c
i
×
k
h
×
k
w
c_i\times k_h\times k_w
ci×kh×kw的核数组可以得到一个输出数组,它可以表示图片的某种局部特征,但是输入可能有相当丰富的特征,我们需要有多个这样的
c
i
×
k
h
×
k
w
c_i\times k_h\times k_w
ci×kh×kw核数组,不同的核数组提取不同的特征。因此,此时的卷积核的形状是
c
o
×
c
i
×
k
h
×
k
w
c_o\times c_i\times k_h\times k_w
co×ci×kh×kw,得到了
c
o
c_o
co个输出数组。
6.总结:
设
输入为
c
i
×
n
h
×
n
w
c_i\times n_h\times n_w
ci×nh×nw
输出通道数为
c
o
c_o
co,
卷积核的高和宽为
k
h
k_h
kh和
k
w
k_w
kw
在高的两侧分别填充
p
h
p_h
ph行,在宽的两侧分别填充
p
w
p_w
pw列
高上步幅为
s
h
s_h
sh,宽上步幅为
s
w
s_w
sw
则卷积核的形状
c
o
×
c
i
×
k
h
×
k
w
c_o\times c_i\times k_h\times k_w
co×ci×kh×kw
输出为
c
o
×
⌊
(
n
h
+
2
p
h
−
k
h
+
s
h
)
/
s
h
⌋
×
⌊
(
n
w
+
2
p
w
−
k
w
+
s
w
)
/
s
w
⌋
c_o\times \lfloor(n_h+2p_h-k_h+s_h)/s_h\rfloor \times \lfloor(n_w+2p_w-k_w+s_w)/s_w\rfloor
co×⌊(nh+2ph−kh+sh)/sh⌋×⌊(nw+2pw−kw+sw)/sw⌋
7.池化
二维池化层有最大池化和平均池化。
在处理多通道输入数据时,池化层对每个输入通道的输入数组分别池化,但不会相加,因此,池化层的输出通道数和输入通道数相等。
卷积神经网络基础
最新推荐文章于 2023-12-12 17:36:36 发布