Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade
CVPR2017
本文针对语义分割问题,引入Cascade思想,将图像像素根据分割难易度分为三个等级:Easy、Moderate、Hard ,分别用CNN网络的浅层、中层、高层完成分割。降低运算量同时提高分割精度
上图显示实际图像中的像素分割难易度是不一样的。Easy 和 Moderate 等级的占绝大多数,hard 占少数
本文的 contributions:
1)本文算法是第一个使用深度模型来区分对待分割像素难易度的算法,本文提出的 Deep Layer Cascade (LC) 降低运算量提高分割精度
2) LC 可以很容易嵌入到其他深度模型中,对 Inception-ResNet-v2 (IRNet) 应用 LC后,速度提高42.8% ,精度提高1.7%
3) LC 和其他一些网络结构的联系被明确指出。大量实验验证了LC的有效性
本文以 Inception-ResNet-v2 为例,将 LC 嵌入到此模型中。
上图(a)是 Inception-ResNet-v2 ( IRNet)网络模块示意图,(b)是 IRNet after LC,其中 L1 对应简单难度像素分割结果,L2对应中等难度像素分割结果,L3 对应高等难度像素分割结果
L2 只对 L1 不是很确定的像素进行分割, L3 只对 L2 不是很确定的像素进行分割。这样可以明显降低运算量。具体是通过Region Convolution 来实现的。
M can be implemented as a binary mask, where the pixels inside M equal one, otherwise zero
M 是一个二值掩模图像。
最终的分割结果是将 L1, L2,L3 的结果综合起来。
VOC12 test set 和 Cityscapes test set 结果对比