基于Box Supervision的弱监督图像语义分割

最新推荐文章于 2024-06-09 10:03:24 发布

忘泪

最新推荐文章于 2024-06-09 10:03:24 发布

阅读量3.4k

点赞数 5

本文链接：https://blog.csdn.net/wl1710582732/article/details/102922222

版权

论文阅读专栏收录该内容

10 篇文章 1 订阅

订阅专栏

简介

为什么要“弱监督”做图像语义分割

让我们来看看论文怎么说的。

ICCV 2015 BoxSup^[1], “But pixel-level mask annotations are time-consuming, frustrating, and in the end commercially expensive to obtain.”
ICCV 2015 WSSL^[2], “Acquiring such data is an expensive, time-consuming annotation effort.”
CVPR 2017 SDI^[3], “Compared to object bounding box annotations, pixel-wise mask annotations are far more expensive, requiring ∼ 15× more time. Cheaper and easier to define, box annotations are more pervasive than pixel-wise annotations.”
CVPR 2019 BCM^[4], “Unlike other classic visual tasks such as classification and object detection, labeling semantic seg- mentation is rather expensive.”、“For example, the cost of labeling a pixel-level segmentation annotation is about 15 times larger than labeling a bounding box, and 60 times than labeling an image class.”
核心观点如下：

深度学习方法需要大量的标注数据。
标注pixel-level（像素级别）的类别标签（即图像语义分割标注）是极其耗时的，成本非常高。
标注Bounding Box（边界框）或标注image level（图像级别）类别标签成本要低很多，标注一幅图像的bounding box或一幅图像的类别标签要比语义分割标注快15倍或60倍。

讲一个趣事，某大牛退休时，每天会定时标注一幅图像（像素级别的类别标签，图像语义分割），像绣花一样，标注了几个月，然后每次做PPT时都会和大家说这件事，说我标注的这幅图像已经精确的不能再精确了，没人敢说标注得有我的好。忘了大牛叫啥了。

基于Box Supervision的弱监督图像语义分割

上面的四篇论文均介绍了基于Box Supervision做的弱监督图像语义分割，这些论文的核心思路是基于Bounding box标注信息使用一些算法（如MCG、GrabCut、DenseCRF等）生成Region Proposals来当作Fake Ground Truth，计算loss，反向传播梯度，训练backbone网络（如VGG16、ResNet101等）。
由于这些论文中生成Region Proposals的技术是没有用到数据集中的Ground Truth，因此是弱监督的，
总结几点：

Fake Ground Truth与Ground Truth存在Gap。
BoxSup、WSSL、SDI、BCM在全监督的baseline的不同，在Pascal VOC验证集上，BoxSup mIOU=63.8，WSSL=67.6，SDI=69.1，BCM=69.8。前三篇可以说是没区别，第四篇做的很精细，但是均没有解决最大的上面所说的Gap问题。
WSSL挺solid的，复现与论文基本一致。SDI的M&G+，复现结果与论文一致。WSSL的Bbox-Seg数据集和SDI的M&G+数据集作者release出来，但是没有release出具体的生成算法。

BoxSup^[1]

资源链接

框架

在这里插入图片描述
对于一幅图像，首先是用一些技术（如Selective Search、MCG等）生成若干（2k）个candidate masks（候选区域mask，图中上方绿色部分）。接着，在训练过程中，采用一种策略从candidate masks中挑选一个当作Ground Truth（图中update masks），计算pixel-level的分类损失（如softmax交叉熵损失函数），反向传播训练网络（图中update network）。

损失函数

pixel-level的分类损失函数

$\varepsilon(\theta)=\sum_{p}e(X_{\theta}(p),l(p))$
$p$ 表示像素的下标即该像素属于图像中的 $p$ 个， $l (p)$ 表示ground truth第 $p$ 个像素所属的类别， $X_{\theta}(p)$ 表示网络预测的第 $p$ 个像素所属的类别， $\theta$ 表示网络的参数。 $\varepsilon(\theta)$ 具体可理解成像素级别的softmax交叉熵损失函数。

衡量candidate masks和bounding box的损失函数

$\varepsilon_{o}(\theta)=\frac{1}{N}\sum_{S}(1-IoU(B, S))\delta(l_B,l_S)$
$S$ 表示candidate masks，B表示bounding boxes， $I o U (B, S)$ 表示B和S的交并比。 $\delta$ 等于1，如果B和S的所属类别相同，否则等于0。对于一幅图像的每个bounding box，只有一个S为非背景。当像素被多个bounding box覆盖时，该像素属于面积最小的bounding box所属的类别。

选取condidate masks当Ground Truth的pixel-level分类损失函数

$\varepsilon_r(\theta)=\sum_{p}e(X_{\theta}(p),l_S(p))$

这个损失函数即第一个公式，区别就是从candidate masks中选取一个当作ground truth，从而计算这个损失。选取策略使 $\varepsilon_{o} + \lambda\varepsilon_{r}$ 最小，由于一幅图像产生2k个candidate masks S，因此在训练过程中选取 $\varepsilon_{o} + \lambda\varepsilon_{r}$ 最小的5个 S，再从这5个中随机选取1个 S 当作ground truth。
这个函数目的在于从candidate masks当中选取与bounding box最相近的S。

最后的损失函数

$\sum_{i}(\varepsilon_{o} + \lambda\varepsilon_{r})$

$i$ 表示训练集中第i个图像， $\lambda=3$ 。

实验结果

在这里插入图片描述

在Pascal VOC12验证集上能使用Multiscale Combinatorial Grouping（MCG）生成candidate masks mIOU达到62.0，使用Selective Search（SS）和Geodesic Object Proposals（GOP）分别为59.5，60.4。
其最高的mIOU=62.0，全监督的mIOU=63.8。
注：最终的结果使用了Dense CRF^[6]做post-process，Dense CRF高大上点说可以增强模型预测的分割Mask的空间连续性，通俗点说就是以模型预测的分割Mask以及一些高斯核参数作为输入，输出增强后的分割Mask，详情可见论文。

总结

训练速度很慢，因为要对2k个candidate masks计算 $\varepsilon_{o} + \lambda\varepsilon_{r}$ 。
论文使用的网络为VGG16，其使用ground truth的全监督训练验证集结果才63.8，很低。这样该论文与WSSL（67.6）、SDI（69.1）、BCM（69.8）不能粗暴地做对比，虽然他们都是用的VGG16，但是WSSL、SDI、BCM是DeepLab-LargeFOV的大感受野的VGG16，这篇论文是DeepLab-SmallFOV的小感受野的VGG16。

WSSL^[2]

资源链接

框架

在这里插入图片描述
对于一幅图像（图中Input），经过一个网络（Deep Convolution Neural Network，即DCNN），此时会得到相应类别的Score map，再经过双线性插值（Bi-linear Interpolation）恢复成原图像大小，最后经过Dense CRF^[6]（Fully Connected CRF）做后处理，得到分割后的Mask（图中的Final Output）。
举例详细来说的话，输入一幅RGB图像，大小为 $3 * H * W$ ，经过VGG16（即DCNN，下采样3次，每次图像缩小2倍），输出大小为 $C*\frac{H}{8}*\frac{W}{8}$ 的feature maps，对每个channel进行softmax之后，再取每个channel的最大值所在的类别，即可得到最后的大小为 $\frac{H}{8}*\frac{W}{8}$ 的score map，再经过双线性插值（上采样8倍），得到大小为 $H * W$ 的score map，最后Dense CRF做后处理即可得到最后的分割Mask。
对于这篇论文来说，图像输入大小为 $3 * 321 * 321$ ， $C = 21$ ，Pascal VOC共20类物体+1类背景。
注：由于WSSL的Box Supervision部分是基于DeepLab-V1^[5]这篇论文，因此我把DeepLab-V1的框架拿了过来，易于理解。

损失函数

$s_p^c =\frac{\exp f(x_p^c)}{\sum_{c=0}^{C-1}\exp(f(x_p^c))}$
$J(\theta)=\sum_{p}y_p^c \log s_p^c$
$y_p^c$ 表示ground truth图像中第 p 个像素属于第 c 个类别， $f(x_p^c)$ 表示网络输出的feature maps（大小为 $\frac{H}{8}*\frac{W}{8}$ ）第 c 个feature map中第 p 个像素的值。
注：ground truth要下采样8倍，成 $\frac{H}{8}*\frac{W}{8}$ ，用的是最近邻插值。这个公式是我看源码理解写的公式。

Bbox-Rect和Bbox-Seg

由于WSSL的创新点使用EM算法来估计Fake Ground Truth有自相矛盾的地方，因此不介绍其EM算法。
在这里插入图片描述
这篇论文用到的弱监督思想很简单，构造了Bbox-Rect和Bbox-Seg两个数据集，然后用上面的全监督的框架训练网络。

Bbox-Rect数据集：使用标注好的bounding box来当作ground truth，bbox外的像素是属于背景这一类；bbox里的像素和该bbox一个类别，如果一个像素被多个bbox覆盖，则该像素属于面积小的bbox的类别。
Bbox-Seg数据集：在Bbox-Rect数据集的基础上，使用Dense CRF处理，最终即可得到Bbox-Seg数据集。还有一个处理是bbox中心的20%的像素类别和该bbox一致，bbox外的像素是属于背景这一类。

实验结果

在这里插入图片描述
该论文使用了VGG16的Small FOV和Large FOV两个版本，在Large FOV上，Bbox-Rect在Pascal VOC12验证集上mIOU=50.7，Bbox-Seg的mIOU=60.6，全监督（Strong）mIOU=67.6。我复现过，与论文所说一致。

总结

该论文创新点是使用了EM算法来估计Fake Ground Truth，进而使用Fake Ground Truth当作Ground Truth全监督地训练网络。但是在Box Supervision中，加了EM，在Small FOV版本的VGG16上有用（52.5-54.1），在Large FOV版本的VGG16上没有用（50.7-50.2）。
该论文公开了Bbox-Rect和Bbox-Seg两个数据集，因为这两个数据集是弱监督得到的，因此我直接计算了这两个数据集的验证集和Ground Truth的验证集之间的mIOU，Bbox-Rect为62.2，Bbox-Seg为71.1。论文的实验结果Bbox-Rect才50.7，Bbox-Seg才60.6。

SDI^[3]

资源链接

框架

在这里插入图片描述

这篇论文的框架和WSSL一致，只是用不同的弱监督算法生成Region Proposals当作Fake Ground Truth，如MCG、GrabCut等。下面简单介绍一下不同的生成Region Proposals的算法：

Box：其实和WSSL的Bbox-Rect一致，bounding box外的像素全是属于背景类别，bounding box里面的像素和bbox的类别一致。如果一个像素同时被多个bbox覆盖，则该像素类别和面积最小的bbox类别一致。见上图 $(c)$ 。
Boxⁱ：在上面Box的基础上，添加忽略区域（Pascal VOC的分割Mask边界也是忽略区域，像素值为255）。Bounding box外的像素类别为背景。Bounding box中心20%的区域像素类别与bbox类别一致，bbox内部其余像素为忽略区域。见上图 $(d)$ 。
GrabCut：使用GrabCut算法生成。Bounding box外的像素类别是背景。见上图 $(e)$ 。
GrabCut+：使用改进后的GrabCut算法生成。Bounding box外的像素类别是背景。见上图 $(f)$ 。
GrabCut+ⁱ：使用改进后的GrabCut算法生成，添加忽略区域，方法与Boxⁱ一致。Bounding box外的像素类别是背景。见上图 $(f)$ 。
MCG：使用MCG（Multiscale Combinatorial Grouping）算法生成。Bounding box外的像素类别是背景。见上图 $(h)$ 。
M $\bigcap$ G+：MCG算法生成的Region Proposals和 GrabCut+算法生成的做交集。见上图 $(i)$ 。

这篇论文训练方法与WSSL的一致，即把这些算法生成的Region Proposals当作Fake Ground Truth，用全监督的方法训练，和DeepLab-V1一致。Box和Boxⁱ训练了多轮。
每一轮的意思是：

首先拿Box或Boxⁱ的数据训练到收敛。
如果预测的分割Mask和Fake Ground Truth的IOU小于50%，再将Box或Boxⁱ当作Fake Ground Truth训练。
如果预测的分割Mask和Fake Ground Truth的IOU大于等于50%，使用Dense CRF做后处理用增强后的分割Mask当作Fake Ground Truth。

比如，在训练一轮完毕后，会有一些训练集的Bounding box满足和Box或Boxⁱ的IOU大于等于50%，有一些不满足。
注：GrabCut，GrabCut+ⁱ，MCG，M $\bigcap$ G+论文中提到训练一轮的性能就很不错，训练方法和WSSL的Bbox-Rect、Bbox-Seg一致，即训练到收敛+Dense CRF后处理。Box和Boxⁱ训练了多轮。

实验结果

在这里插入图片描述
在Pascal VOC12验证集上的mIOU。M $\bigcap$ G+该数据集，论文release了出来，按照WSSL的Bbox-Rect和Bbox-Seg方法训练完毕后，再使用Dense CRF后处理mIOU=65.7，其全监督的mIOU=69.1。

总结

DeepLab_ours表示DeepLab-V1的LargeFOV的，论文的Pascal VOC mIOU=69.1比DeepLab-V1论文的67.6高了1.5个点。因此论文的Box和Boxⁱ结果为61.2和62.7，其实和WSSL的Bbox-Rect的60.6应当属于一个level。虽然论文是训练了多轮。
论文创新点应该是实验很多，挺充分，例如GrabCut，GrabCut+ⁱ，MCG，M $\bigcap$ G+等实验。

BCM^[4]

资源链接

框架

在这里插入图片描述
这篇论文很精细。首先是根据bounding box和Dense CRF生成Region Proposals当作Fake Ground Truth（例如WSSL的Bbox-Seg数据集），见上图 $(b)$ 。然后根据这些Region Proposals计算各个物体（一个bounding box对应一类物体）在bounding box的填充比例（Filling
Rates即占比） $FR_i，i为各个类别$ ，见图 $(c)$ ，狗填充比例为50%，猫的填充比例为62.3%。
下面说一下整体流程：

输入图像（ $3*H_{oral}*W_{oral}$ ），经过FCN作为backbone），输出feature maps ( $C 1 * H * W$ ，下采样8倍)，见图 $(d)$ 。
对backbone的feature maps接上几层卷积网络，输出 $N$ 个分支 $F_1,F_2,..,F_i,...,F_N$ ， $F_i$ 大小为 $C 2 * H * W$ ，接着分别对每个分支预测一个attention map $\alpha_i$ ，大小为 $H * W$ ，用对应类别的bounding box约束，最后对每个 $F_i$ 与相应的 $\alpha_i$ 做一个 spatial-wise masking乘积，得到对应的 $\phi_i$ ，大小为 $H * W$ ，见图 $(e)$ 。
如果不使用 $FR_i$ 约束，将 $\phi_1, ..., \phi_i, ..., \phi_N$ 组合起来即可得到最后的score maps，大小为 $N * H * W$ ，再与Fake Ground Truth计算loss，反向传播梯度。
使用 $FR_i$ 约束，这时需要考虑每一类的填充比例，很简单，只需要计算每一个score map的值最大的前 $FR_i$ 个像素的score值与对应Fake Ground Truth的loss，反向传播梯度。

损失函数

BCM损失

即用bounding box约束 $\alpha_i$ 的MSE损失函数：
$L_{bcm(i)}=\sum_{h=1}^{H}\sum_{w=1}^{W}||M_i(h, w)-\alpha_i(h, w)||_2^2$
$M_i(h, w)$ 即图像中第 $i$ 类在 $h, w$ 位置的bounding box mask值，值为0或1，0表示背景，1表示这一类的前景。

FR损失

即用填充比列约束的损失函数：
$FR_i=\frac{1}{N_i}\sum_{i=1}^{i=N_i}\frac{P_{proposal(i)}}{P_{box(i)}}$
注：这个 $N_i$ 表示训练集中第 $i$ 类的bounding box的数量，即每一类的平均填充比例。区别与前面的 $N$ 表示类别标签数量，论文公式与框架图不一致，统一用 $i$ 表示第 $i$ 个类。
$L_{fr}=\sum_{i=1}^{N}\sum_{j=1}^{top(FR_i)}L_i(j)$
注：此时的 $L_i$ 为前面所介绍的基于pixel-level的多分类损失，即softmax交叉熵损失函数。

最后的损失函数

$L_{all} = L_{fr} + \lambda \sum_{i=1}^{N}L_{bcm(i)}$
注：论文更精细的把每一类又划分出各个子类，因为每一类物体由于形状的不同，其填充比例也不同。我这里就不再做叙述，详情可见论文。

实验结果

在这里插入图片描述
在消去实验中，会发现BCM和FR-loss均起到了作用。

在Pascal VOC12的验证集上，其最后的mIOU=66.8，是现在的SOTA。其依然使用了Dense CRF做后处理，其全监督的mIOU=69.8。

总结

BCM这篇论文做得很精细，可以说是在WSSL的BBox-Seg数据集上，通过使用attention map预测的每一类的mask更趋向于前景。通过使用每一类的不同填充比例这个先验知识，使得预测的每一类mask更趋向于中间一团的形状。
这篇论文最后预测的分割mask趋向于一团的情况，在不加Dense CRF的情况下，其预测的边缘是不如Boxsup、WSSL和SDI的。
这篇论文很精细，没有release源码，担心其是否solid，是否能很简单的train出来还是得需要大量的调参数。

参考

[1]Dai, Jifeng, Kaiming He, and Jian Sun. “Boxsup: Exploiting bounding boxes to supervise convolutional networks for semantic segmentation.” Proceedings of the IEEE International Conference on Computer Vision. 2015.
[2]Papandreou, George, et al. “Weakly-and semi-supervised learning of a deep convolutional network for semantic image segmentation.” Proceedings of the IEEE international conference on computer vision. 2015.
[3]Khoreva, Anna, et al. “Simple does it: Weakly supervised instance and semantic segmentation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
[4]Song, Chunfeng, et al. “Box-driven class-wise region masking and filling rate guided loss for weakly supervised semantic segmentation.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.
[5]Chen, Liang-Chieh, et al. “Semantic image segmentation with deep convolutional nets and fully connected crfs.” arXiv preprint arXiv:1412.7062 (2014).
[6]Krähenbühl, Philipp, and Vladlen Koltun. “Efficient inference in fully connected crfs with gaussian edge potentials.” Advances in neural information processing systems. 2011.

忘泪

关注

5
点赞
踩
37

收藏

觉得还不错? 一键收藏
6
评论
基于Box Supervision的弱监督图像语义分割

简介为什么要“弱监督”做图像语义分割让我们来看看论文怎么说的。ICCV 2015 BoxSup[1], “But pixel-level mask annotations are time-consuming, frustrating, and in the end commercially expensive to obtain.”ICCV 2015 WSSL[2], “Acquirin...
复制链接

扫一扫