《Fully Convolutional Networks for Semantic Segmentation》
- FCN架构:
FCN可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的feature map进行上采样, 使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生一个预测,同时保留原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。
最后逐个像素计算softmax分类的损失, 相当于每一个像素对应一个训练样本。下图是用于语义分割所采用的全卷积网络(FCN)的结构示意图:
现在我们有1/32尺寸的heatMap,1/16尺寸的featureMap和1/8尺寸的featureMap,1/32尺寸的heatMap进行upsampling操作,因为这样的操作还原的图片仅仅是conv5中的卷积核中的特征,限于精度问题不能够很好地还原图像当中的特征,因此在这里向前迭代。把conv4中的卷积核对上一次upsampling之后的图进行反卷积补充细节(相当于一个差值过程),最后把conv3中的卷积核对刚才upsampling之后的图像进行再次反卷积补充细节,最后就完成了整个图像的还原。
- 什么是全卷积?
将原始的cnn全连接层改为卷积层,
- 如何将分类神经元转化到全卷积网络神经元输出粗糙map?
传统cnn的全连接层可以看作成kernel大小为整个输入区域的卷积层,
舍弃传统网络最后的池化层和池化层后的全连接分类层,将该全连接层替换为卷积核为1*1的卷积层,
- 如何将粗糙map映射到原图像素位置?
原文3.3节, 使用插值,比如简单的双线性插值计算每一个输出yij从最接近的线形映射图的四个输入
- fcn架构:
使用图片分类网络去掉最后的池化和分类层,将全连接层改为卷积层,卷积核大小为1*1,通道为21,21代表分类的类别数,这样网络输出就是[21,x,y]
- 如何精确得到原尺寸的标签?
如上图,有三个上采样的结果,其中,FCN-32s是最原始的直接对网络输出层pool5进行32倍上采样后的输出结果,该标签和原图的大小对应。FCN-16s也是对应到原图的标签,其中对pool5进行2倍上采样,然后加上pool4的结果,进行16倍上采样得到的结果,该标签和原图的大小对应。FCN-8s也是对应到原图的标签,其中对pool5进行2倍上采样,加上pool4之后的结果,再加上原始网络poll3的结果,进行8倍上采样之后的输出结果,该标签和原图的大小对应。
下图就可以看出来fcn-8s边缘细节表现上要比其他两个好得多,平均IU要比其他两个好一些,
微调:下图显示了只微调输出分类器的结果(第一行)全部微调的结果(第二行),由于网络分为编码器和解码器阶段,其中编码器从resnet50等一系列训练好的网络得到每个像素特征向量,解码器得到每个像素的属于类别的概率分数,所以我们首先可以尝试只训练分类阶段,前面的解码器使用imagenet训练好的resnet50网络,这样的pixel acc只有83%,而全部网络微调训练得到的pixel acc有89%。
- patchwise training:
第一次看到这个概念,不是很理解,最后搜索到了一个比较靠谱的解释:
简单翻译:由于一副需要语义分割的图片中有很多我们不关注的区域,因此直接输入全卷积网络会有很多的多余计算,避免冗余的一个标准方法是只输入给网络图像中的随机小块(围绕感兴趣目标的小图像区域)而不是整图像,这样的“patchwise sampling”保证输入有足够的方差和训练集的有效表示。 可以从训练集中进行小块采样,或者直接对整图的损失进行采样,所以有这个说法“Patchwise training is loss sampling”,本文[fcn]后来实验发现patchwise training 比起直接训练整幅图 并没有大的提升,但是训练花费的时间更多了,因此本文是整幅图训练。
- 整体训练流程:
先使用经典的网络初始化,舍弃池化层和池化层后的全连接层;
从特征小图(16*16*4096)预测分割小图(16*16*21),之后上采样得到大图,该网络叫做FCN-32S
训练网络FCN-16s
训练网络FCN-8s