语意分割最初流行的深度学习方法是图像块分类,利用像素周围的图像块对每一个像素进行独立的分类。使用图像块分类的主要原因是分类网络通常是全连接层,要求固定尺寸的图像。使用卷积神经网络进行语以分割存在的另一个大问题是尺化层不仅扩大感受野,聚合语境,而且造成位置信息的丢失。
编码-解码结构:编码器逐渐减少尺化层的空间维度,解码器逐步修复物体的细节和空间维度。编码器与解码器之间通常存在快捷连接,帮助解码器更好地修复目标的细节。
FCN与CNN
在一般的卷积神经网络,一般结构就是前几层是卷积层加尺化层,最后跟2-3层的全连接层。最后一层输出1000*1向量的全连接层,因为一共有1000类,向量中的每一维都代表当前类的概率。
在全卷积神经网络,没有全连接层,取而代之的是卷积层,最后一层的输出的是1000个二维数组,其中每一个数组可以可视化一张图像,图像中每一个像素点的灰度值都是当前像素点属于该类的概率。
FCN可以接受任意大小的输入图像,利用反卷积对最后一层的feature map 进行上采样,使它恢复到输入图像相同的尺寸,从而对每一个像素点进行预测,同时保留原始输入图像中空间信息,最后在上采样的特征图上进行逐像素分类。
FCN语义分割
定位和分类&