序
最近刚刚完成自己规划的语义分割部分论文阅读,算是一个小结吧。
语义分割的LOSS函数
语义分割对像素的分类,可以用交叉熵作为loss函数。
但是语义分割也有自己的特殊性,整个环面中前景物体有时会有较小的占比(比如医学图像中的病灶),这时需要加大前景(或缝隙)的权重,使训练过程更容易学到有用的特征。
比如WBE Loss是U-Net引入的,对边界像素对应的loss加大权重,使之对边界更敏感。focal loss使难分类样本权重大,易分类样本权重小。IOU loss直接针对评价标准进行优化。
语义分割的loss还有很多,需要针对具体的数据集做调整。
语义分割的评价指标
像素准确率(PA)
这是最简单的指标,仅仅计算正确分类的像素数量与所有像素数量的比值。
像素准确率平均值(MPA)
对PA的轻微改进版本,正确分类像素的比例是按类计算的,最终由类总数取平均。
平均交并比(MIoU)
这是用于分割问题的标准评价指标,其计算的便是真实分割与系统预测的分割之间的交并比。IoU也是按类计算最后取平均。
频率加权交并比(FWIoU)
是对MIoU的改进,对每个类别按照重要性进行加权,重要性来自于其出现的频率。
其它
感觉语义分割主要的招数就是“encoder-decoder”结构(典型如U-Net)和空间“金字塔池化”(如PSPNet和deeplabv3)。这两招deeplabV3+都用了,最终效果还挺好的。其它方法都是这两招的各种变形。CVPR2019的论文还没看,不知道今年还有什么新路数出来。但是自18年起,全景分割火起来了,后续的语义分割新思想也许会集中在全景分割上体现。