深度学习第三章 形像理解卷积层、池化层。

        caffe、tensorflow、pytorch、mindspore 等框架,提供了构建卷积神经网络的能力。做为深度学习领域的常用框架,这些框架提供了一系列的接口(api),通过组合这些api功能,便可快速构建一个网络(模型),接口通常有:负责数据预处理的transform类接口、负责特征抽取的Conv类接口、负责上下采样的pool类接口、负责计算,更新梯度类的接口等等。

        这些深度学习网络框架,组合各功能层(数学计算)形成网络(模型),网络是由许多个功能用途不同的数学计算组合而成,每层分工不同,最终都是为了同一目标,做分类,做预测等。

继续之前的套路,拿图片的物体分类来讲,可以从两个维度来理解:

数学维度:

        把一张图像的所有像素值做为模型的入参,结合模型自身的梯度参数,进行计算,最终形成一个标签值。它的本质是一系列数学计算。

认知维度:

        既然是做物体分类,在人的认知里,不同物体都有不同特征,比如:它有四条腿、一个头、一个身子、一条尾巴。它的腿、头、身子、尾巴 与老虎或猫的腿、头、身子、尾巴不一样。        

        通过这些差异,人类就能区分出来这个物体。具体不一样在什么地方呢,可以是腿的长短、粗细、脚趾的形状、也可以是头的大小、眼睛的形状、耳朵的形状等等。总之这些特征可以被总结归纳起来,共同形成人类对物体、动物的认知。

        模型需要做的就是抽取图片多个特征,结合这些个特征进行概率判断。得出各类物体的概率。

卷积层 

        只要接触深度学习,卷积是绕不开的。无论怎么查阅资料,得出的结论是一致的:抽取特征。这个表述有些抽象,以至开始时,总会思考为什么卷积操作可以抽取特征。

        

 

        左图是一张彩图,右图是左边的轮廓图。由两张图片对比,可以得到轮廓比色彩更具表现力,即使脱离色彩,轮廓也能相对精准的表示一个物体。

        右图展示出来的轮廓,在左图上表现出来的是色彩变换较大的区域。也就是说如果找到一种方法,能够方便的找出色彩变化大的区域,便能得到的抽象特征:如胳膊的曲线,头部曲线等等。

        我们知道,图像在计算中是以0-255区间的数字所表示的像素组合而成。即只要比较相邻像素的差值,如差值超过一定阀值,抛弃相对小或大的像素,保留另外一个,就能得到物体轮廓。

        为了更精确、方便,可以利用乘法,在每个像素上都乘以一个数,放大像素值,放大相邻像素间的差值。

                                                                                                      

                                  

  将以上个人思考带入到卷积层,卷积核,就是我们的“放大器”,relu就是我们的“选择器”。经过relu后,就保存了想要的线条。如上左图:对直线敏感,上右图:对斜线敏感。现实中模型每一层有多个卷积核,可以认为是抽取不同曲线线条的“放大器”。

池化层

        通常在卷积后,会加上一个池化层,它的作用可以认为:缩小卷积后的特征图,使后续卷积可以更关注图像全局特征而非局部特征。

        有的资料关于动物的识别,形像的讲到,第一层卷积:抽取线条,第二层卷积:抽取眼睛,第三层:抽取头部等等。 后续各卷积层抽取的特征比较丰富,是因为引入了池化层,越靠后的卷积层,所示出的图像主义就越丰富,这点就象“站在伟人肩膀上,可以看的更远”一样。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值