深度学习第三章形像理解卷积层、池化层。

最新推荐文章于 2024-04-01 00:38:13 发布

zhuozhuoge

最新推荐文章于 2024-04-01 00:38:13 发布

阅读量886

点赞数

分类专栏：深度学习文章标签：深度学习 cnn 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhuozhuoge/article/details/122984396

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

caffe、tensorflow、pytorch、mindspore 等框架，提供了构建卷积神经网络的能力。做为深度学习领域的常用框架，这些框架提供了一系列的接口（api)，通过组合这些api功能，便可快速构建一个网络（模型），接口通常有：负责数据预处理的transform类接口、负责特征抽取的Conv类接口、负责上下采样的pool类接口、负责计算，更新梯度类的接口等等。

这些深度学习网络框架，组合各功能层（数学计算）形成网络（模型），网络是由许多个功能用途不同的数学计算组合而成，每层分工不同，最终都是为了同一目标，做分类，做预测等。

继续之前的套路，拿图片的物体分类来讲，可以从两个维度来理解：

数学维度：

把一张图像的所有像素值做为模型的入参，结合模型自身的梯度参数，进行计算，最终形成一个标签值。它的本质是一系列数学计算。

认知维度：

既然是做物体分类，在人的认知里，不同物体都有不同特征，比如狗：它有四条腿、一个头、一个身子、一条尾巴。它的腿、头、身子、尾巴与老虎或猫的腿、头、身子、尾巴不一样。

通过这些差异，人类就能区分出来这个物体。具体不一样在什么地方呢，可以是腿的长短、粗细、脚趾的形状、也可以是头的大小、眼睛的形状、耳朵的形状等等。总之这些特征可以被总结归纳起来，共同形成人类对物体、动物的认知。

模型需要做的就是抽取图片多个特征，结合这些个特征进行概率判断。得出各类物体的概率。

卷积层

只要接触深度学习，卷积是绕不开的。无论怎么查阅资料，得出的结论是一致的：抽取特征。这个表述有些抽象，以至开始时，总会思考为什么卷积操作可以抽取特征。

左图是一张彩图，右图是左边的轮廓图。由两张图片对比，可以得到轮廓比色彩更具表现力，即使脱离色彩，轮廓也能相对精准的表示一个物体。

右图展示出来的轮廓，在左图上表现出来的是色彩变换较大的区域。也就是说如果找到一种方法，能够方便的找出色彩变化大的区域，便能得到的抽象特征：如胳膊的曲线，头部曲线等等。

我们知道，图像在计算中是以0-255区间的数字所表示的像素组合而成。即只要比较相邻像素的差值，如差值超过一定阀值，抛弃相对小或大的像素，保留另外一个，就能得到物体轮廓。

为了更精确、方便，可以利用乘法，在每个像素上都乘以一个数，放大像素值，放大相邻像素间的差值。

将以上个人思考带入到卷积层，卷积核，就是我们的“放大器”，relu就是我们的“选择器”。经过relu后，就保存了想要的线条。如上左图：对直线敏感，上右图：对斜线敏感。现实中模型每一层有多个卷积核，可以认为是抽取不同曲线线条的“放大器”。

池化层

通常在卷积后，会加上一个池化层，它的作用可以认为：缩小卷积后的特征图，使后续卷积可以更关注图像全局特征而非局部特征。

有的资料关于动物的识别，形像的讲到，第一层卷积：抽取线条，第二层卷积：抽取眼睛，第三层：抽取头部等等。后续各卷积层抽取的特征比较丰富，是因为引入了池化层，越靠后的卷积层，所示出的图像主义就越丰富，这点就象“站在伟人肩膀上，可以看的更远”一样。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。