深度学习处理图像基础知识

DouDouWuH

已于 2022-06-09 16:44:18 修改

阅读量2.5k

点赞数 1

分类专栏：基础知识总结文章标签：深度学习计算机视觉

于 2022-06-09 16:38:56 首次发布

本文链接：https://blog.csdn.net/wuhongwuyan/article/details/125202938

版权

基础知识总结专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1 图片的计算机存储方式

图像在人眼里有各种形状，颜色，纹理，但是在计算机中，保存的格式为一个一个的像素，比如长度为224,宽为224的图片，共包含224×224的像素。如果是彩色图像，即3通道图像，那就是需要使用224×224×3的数组表示RGB图像。
以下图为例：（图片借鉴于：人眼和计算机中图像的不同）
在这里插入图片描述
通过灰度图像（黑白图像）和彩色图像对像素值进行解释。
举例说明：

1 黑白图像

在这里插入图片描述
人眼视觉上的图像和计算机存储的图像。像素值表示像素的轻度，对于灰度或黑白图像，像素值范围在0-255。接近0的较小数字表示较深的阴影，接近255的较大数据代表较浅或白色的阴影（0代表黑色，255代表白色）。计算机中的图像存储方式如此，具有一个数字矩阵，也常称为channel（通道）。灰度图像为单通道图像。彩色图像为3通道图像。
以下图为例，为彩色图下，即3通道图像: Alt
3通道图像即为RGB图像，通常彩色图像在计算机中存储方式为（下图像素值为虚拟值，仅作为讲解使用）：
在这里插入图片描述
将RGB三通道叠加在一起，就是我们常见的彩色图像。上述图像存储到计算机上时代表高为6,宽为5，channel为3的图像，即为6×5×3的图像。

2 深度学习中的卷积层

以单通道图像为例，图片即为矩阵，假设图像大小为5×5，使用Filter（卷积核或称为滤波器），以3×3大小的Filter为例，并将Filter从图片的左上角开始移动，将每次矩阵相乘的结果记录下来，由下列动图显示为：
在这里插入图片描述

可以选择步长，上述动图显示的是步长为1时的方式。特征提取可以选取多个卷积核进行特征值计算。也可以选择在深度学习网络中更改卷积层的数量。

3 深度学习中的池化层

如果一张图像为1024×1024,经过50个Filter处理的卷积层后，得到1024×1024×50，维度非常大，会造成计算困难，因此需要采取有效手段减少数据减少，同时不能对识别结果造成影响。即下采样方式。以下图为例，将4×4的矩阵按2×2切分，同时选取每个切分矩阵内最大的数作为保留，那么，在保证特征不丢失的前提下，将数据量减少。下图由4×4变成2×2。
在这里插入图片描述
通常卷积层和池化层会重复多次形成具有多个隐藏层的网络，也就是深度神经网络。

4 全连接层

全连接层的作用主要是进行分类。将卷积层和池化层得到的特征，在全连接层对这些特征进行总结，将好的特征做分类。根据权重每个神经元反馈的比重不同，最后调整权重和网络得到分类结果。

具体的IMAGE kernel可参考该链接内容：image kernel

DouDouWuH

关注

1
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
深度学习处理图像基础知识

图像在人眼里有各种形状，颜色，纹理，但是在计算机中，保存的格式为一个一个的像素，比如长度为224,宽为224的图片，共包含224×224的像素。如果是彩色图像，即3通道图像，那就是需要使用224×224×3的数组表示RGB图像。以下图为例：（图片借鉴于：人眼和计算机中图像的不同）通过灰度图像（黑白图像）和彩色图像对像素值进行解释。举例说明：人眼视觉上的图像和计算机存储的图像。像素值表示像素的轻度，对于灰度或黑白图像，像素值范围在0-255。接近0的较小数字表示较深的阴影，接近255的较大数据代表
复制链接

扫一扫