7-CNN—— Convolutional Neural Network

CNN—— Convolutional Neural Network

CNN是为影像设计的。

一、Image Classfication

image-20211206160602759

每一个neural对于每一个像素点都有一个weight。

Observation 1

image-20211206160955083

某个neural看到鸟的眼睛,某个neural看到鸟的爪子,综合起来,机器判断这是一只鸟。对于看到这只鸟的眼睛特征的神经元,没有必要对所有的像素点进行查看。

因此,某些neural只需要将一小部分图片作为输入即可。

Simplification 1

  1. 在cnn中,设定一个receptive field,自己设定大小。
  2. 不同的receptive field可以相互重叠。
  3. 不同一个neural可以作用同一块区域。
  4. 不同的neural可以有不同的大小。
  5. 某些neural可以考虑其中一个通道
image-20211206161945704
Simplification 1-Typical Setting

all channels——kernel size(3*3)

​ each receptive filed has a set of neurons(64个neurons)一组神经元关照一个范围

stride表示的是向右平移的一个步伐,一般设置为1或者2,因为希望每一个receptive有很高的重合性,以防止损失信息。

直到平移到边缘部分,超出范围了,补值(用0填充、边缘补充等)。

垂直方向也会移动。

image-20211206164734752

Observation 2

相同的特征出现在图片不同的位置。

image-20211206165614375

Simplification 2

让不同的neural共享参数parameter sharing,但是处理同一个receptive filed的neural不会共享参数。

image-20211206165354063
Simplification 2-Typical Setting

常见的在影像辨识上的共享方法设置。相同颜色代表参数相同。

image-20211206170253827

Benefit of convolutional layer

CNN是全连接神经网络加上receptive filed和parameter sharing之后形成的,具有较大的模型偏差,但是对于影像处理表现得较好。

image-20211206170803136

二、another story based on filter

image-20211206173413967

通过gredient decent找出每个filter的未知参数。

image-20211206173552521

运作方式类似图像处理里面的模板和图片的处理方式。

image-20211206174059783

filter如何在侦测pattern呢?观察filter1,斜对角线全1,当它看到image里面出现对角线1时它的值会最大,

image-20211207134217825

当所有的运行完毕以后,一个convolution卷积结束,得到feature map(6个filter就会的到64组上图),将feature map看成另外一张图片,其channels不是RGB,而是64.

接着进行第二层convolution,这个卷积里面也有一堆filter,但是这些filter的尺寸应该和前一层的输出相匹配,也就是3*3 *64 (filter 的高度就是要处理的影像的channels)

image-20211207135052629

问题:如果filter的大小一直设置为3 *3 会不会导致只能侦测很小的一部分图片?

回答:不会,因为第二层的3 * 3 已经相当于包含第一层的5 * 5大小的信息了

image-20211207135141216

对比前两个故事

不同的receptive filed——neural可以共用参数,这组共用的参数就叫filter

image-20211207140344533

Observation 3

缩小图像(或称为下采样(subsampled)或降采样(downsampled))的主要目的:

1、使得图像符合显示区域的大小;

2、生成对应图像的缩略图。

放大图像(或称为上采样(upsampling)或图像插值(interpolating))的主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。

**下采样原理:**对于一幅图像I尺寸为MN,对其进行s倍下采样,即得到(M/s)(N/s)尺寸的得分辨率图像,当然s应该是M和N的公约数才行,如果考虑的是矩阵形式的图像,就是把原始图像s*s窗口内的图像变成一个像素,这个像素点的值就是窗口内所有像素的均值:

image-20211207141448117 image-20211207141529512

Pooling——Max Pooling

pooling最主要的理由是减少运算量,同时会损失一些信息。但是近年来,计算机算力逐渐变大,一些cnn会摒弃pooling

image-20211207141940094

当然也有别的pooling,比如mean就是取均值,这个2 * 2 一组也是自定义的,max pooling就是取一组中最大值作为代表。

image-20211207142109682

交替出现。

image-20211207142426231

三、Application:Playing Go

3.1 背景

image-20211207143414671

3.2 一些pattern会比整个图像要小

3.3 相同的pattern会出现在不同的区域

image-20211207143615665

3.4 go没有使用pooling

image-20211207143710163

another application

CNN也可以应用在图片和语音,但是一定要注意作者对filter和receptive filed的设计,不能盲目套用。

四、CNN缺陷

对于CNN来说,不能处理图像放大缩小和图片旋转。

CNN is not invaiant to scaling and rotation(we need data augmentation,在训练时将同一张图片放大缩小或者旋转以增加数据)

tive filed的设计,不能盲目套用。

四、CNN缺陷

对于CNN来说,不能处理图像放大缩小和图片旋转。

CNN is not invaiant to scaling and rotation(we need data augmentation,在训练时将同一张图片放大缩小或者旋转以增加数据)

image-20211207143824989
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值