卷积神经网络(2D卷积神经网络和3D卷积神经网络理解)

前言

卷积神经⽹络(convolutional neural network,CNN)是⼀类强⼤的神经⽹络,正是为处理图像
数据而设计的。基于卷积神经⽹络结构的模型在计算机视觉领域中已经占主导地位,当今⼏乎所有的图像识别、对象检测或语义分割相关的学术竞赛、商业应⽤都以这种⽅法为基础。

相关知识

在了解2D卷积神经网络和3D卷积神经网络之前,先了解一下图像的颜色通道,我们经常看到的图像基本上都是RGB(red、green、blue)三颜色通道,举个例子:我们在拿到一张32*32*3的图片,那么其中的3表示三个通道的意思,其中的32*32表示的是图像的长和宽,也就是说我们拿到一张图片要分别对图像的R通道、G通道、B通道分别进行卷积计算,计算出来的结果最终加到一起求和运算。

2D卷积神经网络

单通道计算

这里举个例子,图像的大小是5*5*1,卷积核定义的是3*3*1,接下来简单介绍第一步是怎么运算的(本例中stride = 1, padding = 0)。

首先卷积核位于图像的左上角,也就是红色方框框起来的部分,我们可以发现框起来的部分和卷积核的大小都是3*3的,如果框起来的部分是4*4的,卷积核的大小是3*3的这样是没有办法进行计算的,所以要保证框起来的部分与卷积核的大小要一致。然后进行运算,用一句话来说就是图像部分(红框部分)与卷积核进行相应位置的内积运算。解释一下:红框的第一行第一列是3,卷积核第一行第一列是0,两个数做乘法运算等于0,那么这个对应位置也就是二者的第一行第一列做乘法之后得到的结果是0,卷积核再进行一次运算完成后还要进行其它位置的运算,即卷积核会进行移动,我们将这个移动的过程称为滑窗,因此滑窗后后面的八个位置也是同样的运算,卷积核在图像中每次移动的长度为1,所以那么其它的结果分别是3,4,0,0,0,1,4,所有位置都运算结束后我们将所有结果进行求和运算,求和后等于12,那么我们就可以得出输出矩阵第一行第一列的结果应该是12,同样的道理,其它位置也是一样的计算。

总结一下:单通道计算就是将图像部分与卷积核进行内积运算得到一个输出矩阵。

多通道计算

 这里举一个5*5*3的图像,它可以理解为由三个5*5*1的单层通道合并而成的,5*5*3中的3也是表示3个通道的意思。卷积核选择的是3*3*3的,图像大小中的3和卷积核大小中的3要保持一致也就是通道数要保持一致,因为我们需要3个卷积核依次对图像中的3个通道进行卷积运算。

我们还是按照单通道计算的方法,先分别对R通道、G通道、B通道进行卷积运算,然后将卷积的结果进行求和得出结果。

首先我们先看图像的R通道部分和卷积核的R通道部分,按照单通道计算的方法对红框的矩阵和卷积核矩阵进行内积运算,得到的结果应该是1+1+2-1-1-2+1=1,同样的道理对G通道和B通道分别进行内积运算,得到的结果应该是0和3,计算完后我们需要将三个通道的内积结果进行求和运算,也就是0+3+1=4对应的是输出矩阵的第一行第一列,其他位置也是同样的道理。

总结一下:多通道计算就是对多个单通道进行求和运算。

3D卷积神经网络

3D卷积操作同样分为单通道和多通道,且只使用一个卷积核,输出一个通道。

其中,针对单通道,与2D卷积不同之处在于,输入图像多了一个深度的维度,卷积核也多了一个深度的维度,因此卷积核在输入3D图像的空间维度(长和宽)和深度的维度上均进行滑窗操作进行内积运算,得到输出3D图像中的一个数值。

针对多通道,则与2D卷积的操作一样,将所有通道的结果相加,得到输出3D图像中的一个数值。

 3D卷积使用的数据和2D卷积最大的不同就在于数据的时序性。3D卷积中的数据通常是视频的多个帧或者是一张医学图像的多个分割图像堆叠在一起,这样每帧图像之间就有时间或者空间上的联系。

总结

1.卷积核是一个可以滑动的窗口。

2.2D卷积,卷积核只在2个方向上运动,因此只有两个自由度(一小片纸,在一大张纸内2个方向上滑动)

3D卷积,卷积核会在3个方向上运动,那么卷积核的运动需要有三个自由度(一小块立方体,在一个大面包块内3个方向上滑动)

3.卷积运算是一个相乘再相加的过程也可以说是内积运算。

4.多通道计算是多个单通道的计算结果求和。

5.图像的通道数要和卷积核的通道数保持一致。

  • 5
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值