We show that convolutional networks by themselves, trained end-to-end, pixels-to-pixels, exceed the state-of-art in semantic segmentation
We define a novel architecture that combines semantic information from a deep, coarse layer with appearance information from a shallow, fine layer to produce accurate and detailed segmentation.
语义分割任务:
- semantic
- location:
- 全局信息揭示种类:global information resolves what
- 局部信息揭秘位置信息:local information resolves where
模型
- 说明:
- 去掉基础模型VGG模型中的fc层,改为全卷积操作
- 在特征层进行上采样,生成pixelwise prediction。
- 通过’skip’连接,将deep/coarse/semantic information和shallow/fine/appearance information进行结合
- 对融合的特征进行上采样
- 双线性插值bilinear interpolation
- 双线性插值参数可以进行学习
三种FCN网络
- 说明
- FCN-32s
- 在pool5特征层上进行上采样[32x]
- FCN-16s
- 结合pool4和pool5的特征
- (pool5_upsample2x+pool4) –> 上采样[16x]
- FCN-8s
- 结合pool3,pool4,pool5特征
- {(pool5_upsample2x+pool4)_upsample2x + pool3} –> 上采样[8x]
- 最终的上采样结束后,接1x1卷积针对每一个像素点预测21类
- FCN-32s
分析
优点:
- 最早的全卷积网络应用于语义分割
- 速度快
- 端到端end-to-end
- dense预测
- 有效连接了高层和底层特征【what&where】
效果
效果1:
- 结合的底层的信息越多,效果越好,边界越清晰
效果2
- 在VOC数据集上的效果
- 在VOC数据集上的效果
评价标准
- 说明
- 像素精度【pixel accuracy】
- 预测正确的像素点数除以所有类别的像素点
- 平均精度【mean accuracy】
- 计算每一类的精度
- 对所有类取平均
- 平均IU 【mean IU】
- 每一类预测正确的数量除以其他类预测该类的数量与该类预测错了数量之和
- 对所有类取平均
- 频率加权IU【frequency weighted IU】
- 在mean IU的基础上,乘以每一类的数量【有点类似将mean IU当作概率,对类别求加权平均】
- 像素精度【pixel accuracy】