1 图片的计算机存储方式
图像在人眼里有各种形状,颜色,纹理,但是在计算机中,保存的格式为一个一个的像素,比如长度为224,宽为224的图片,共包含224×224的像素。如果是彩色图像,即3通道图像,那就是需要使用224×224×3的数组表示RGB图像。
以下图为例:(图片借鉴于:人眼和计算机中图像的不同)
通过灰度图像(黑白图像)和彩色图像对像素值进行解释。
举例说明:
1 黑白图像
人眼视觉上的图像和计算机存储的图像。像素值表示像素的轻度,对于灰度或黑白图像,像素值范围在0-255。接近0的较小数字表示较深的阴影,接近255的较大数据代表较浅或白色的阴影(0代表黑色,255代表白色)。计算机中的图像存储方式如此,具有一个数字矩阵,也常称为channel(通道)。灰度图像为单通道图像。彩色图像为3通道图像。
以下图为例,为彩色图下,即3通道图像:
3通道图像即为RGB图像,通常彩色图像在计算机中存储方式为(下图像素值为虚拟值,仅作为讲解使用):
将RGB三通道叠加在一起,就是我们常见的彩色图像。上述图像存储到计算机上时代表高为6,宽为5,channel为3的图像,即为6×5×3的图像。
2 深度学习中的卷积层
以单通道图像为例,图片即为矩阵,假设图像大小为5×5,使用Filter(卷积核或称为滤波器),以3×3大小的Filter为例,并将Filter从图片的左上角开始移动,将每次矩阵相乘的结果记录下来,由下列动图显示为:
可以选择步长,上述动图显示的是步长为1时的方式。特征提取可以选取多个卷积核进行特征值计算。也可以选择在深度学习网络中更改卷积层的数量。
3 深度学习中的池化层
如果一张图像为1024×1024,经过50个Filter处理的卷积层后,得到1024×1024×50,维度非常大,会造成计算困难,因此需要采取有效手段减少数据减少,同时不能对识别结果造成影响。即下采样方式。以下图为例,将4×4的矩阵按2×2切分,同时选取每个切分矩阵内最大的数作为保留,那么,在保证特征不丢失的前提下,将数据量减少。下图由4×4变成2×2。
通常卷积层和池化层会重复多次形成具有多个隐藏层的网络,也就是深度神经网络。
4 全连接层
全连接层的作用主要是进行分类。将卷积层和池化层得到的特征,在全连接层对这些特征进行总结,将好的特征做分类。根据权重每个神经元反馈的比重不同,最后调整权重和网络得到分类结果。
具体的IMAGE kernel可参考该链接内容:image kernel