Semi-Supervised Semantic Segmentation Using Unreliable Pseudo-Labels

zerone-fg

已于 2022-04-28 17:10:50 修改

阅读量1.9k

点赞数 4

分类专栏： CV计算机视觉文章标签：深度学习计算机视觉

于 2022-04-28 17:09:38 首次发布

本文链接：https://blog.csdn.net/weixin_43788575/article/details/124375106

版权

CV计算机视觉专栏收录该内容

3 篇文章 0 订阅

订阅专栏

最近在关注 $CVPR{\,} 2022$ 一些比较好的文章，也在做一些关于 $object{\,} context$ 的工作。好久没有好好更新博客了，今天想和大家分享下最近看的一篇我认为做的比较好的文章，问题的切入角度很好，文章也写得不错。
标题为Semi-Supervised Semantic Segmentation Using Unreliable Pseudo-Labels。
最后总结了最近对于读的一些关于 $object {\,}context$ 处理的论文。这应该是分享的最后一篇论文了，博主之后会进行《百面机器学习》或者算法相关内容的整理，要去实习了qaq~~，大家多多支持！！

1. Introduction

在半监督工作中，最常见的做法是把 $unlabeled{\,} data$ 经过用 $labeled{\,}data$ 训练好的模型得到的预测结果作为伪标签计算 $unsupervised{\,}loss$ 。但是为了尽可能保证伪标签的质量，常常选择那些 $highly{\,} confident$ 的预测结果，而舍弃那些置信度低的。

作者认为在这个过程中有相当一部分 $p i x e l$ 是不会出现在训练过程中的，这样对于某些本来数据量就小的类别来说，会使得其训练更加不平衡（相当于 $unlabeled{\,} data$ 为本来就数量多的类别提供了更多的训练集）。
作者认为如何更好地利用这些 $u n r e l i a b l e$ 的伪标签是一个非常重要的待解决的问题。本文抓住了这些 $u n r e l i a b l e$ 标签的一个特点：即虽然有些伪标签是 $m i s c l a s s i f i e d$ （可能在 $G r o u n d T r u t h$ 和某几个类别之间容易混淆），但是它可以非常确定地不属于其他类别。作者给了一个例子，如下图：

对于白色十字位置的特征分类可能会出现 $Figure{\,}d$ 的预测情况，虽然误分类成了 $p e r s o n$ ，但是在 $c a r$ , $t r a i n$ 等类的置信度确极低，也就是说可以比较肯定地确定不属于 $c a r$ , $t r a i n$ 类别。作者认为像这样的 $u n r e l i a b l e$ 的样本也是有意义的，可以利用它提供的信息提高分割精度。
作者提出了 $U^{2}PL$ $(U s i n g U n r e l i a b l e P s e u d o - L a b e l s)$ ,并在 $PASCAL VOC {\,}2012$ 和 $C i t y s c a p e s$ 上进行了实验验证。

2. Related Works

Semi-Supervised Learning
相比较于 $C u t O u t$ , $C u t M i x$ , $C l a s s M i x$ 这些用了较强的数据增强外，我们的方法则 $f o c u s$ 到那些 $unreliable{\,} pixel$ 的利用上。
Pseudo-Labeling
$F i x M a t c h$ 设置 $confidence {\,}threshold$ 来选择伪标签; $U P S$ 则是在 $F i x M a t c h$ 的基础上考虑到了模型不确定性和数据不确定性。
Model Uncertainty
贝叶斯深度学习网络常常用来估计模型不确定性，这里我们仅用 $p i x e l - w i s e$ 的 $e n t r o p y$ 作为评估准则。
Contrastive Learning
同样作者认为现有的网络在计算 $contrastive{\,} loss$ 的计算没有利用 $unreliable{\,} pixel$ 的信息。
Negative Learning
通过降低负样本的概率来降低信息错误的风险，但是这些负样本仍然具有很高的置信度。

3. Methods

3.1 Overview

上图是作者提出的一个主要的网络结构，分为教师网络和学生网络：我们学生网络权重更新和一般网络更新过程相同，教师网络用 $E M A$ 更新网络权重。
在训练过程中，我们等量地选取 $B_l$ 张 $labeled{\,}images$ 和 $B_u$ 张 $unlabeled{\,}images$ ，对于每张带标签的图像我们的目的是减小 $cross{\,} entropy{\,} loss$ ；对于每张 $unlabeled{\,} image$ ，我们首先让其经过 $teacher{\,}model$ 进行预测，然后选择那些 $r e l i a b l e$ 的伪标签计算 $unsupervised{\,}loss$ ；对于剩余的 $u n r e l i a b l e$ 的标签我们将通过 $contrastive {\,}loss$ 将其利用起来。因此整个 $l o s s$ 分为三大部分：
$L=L_s+\lambda L_u +\lambda_c L_c$
其中 $L_s$ 和 $L_u$ 都是 $CE{\,}loss$ :

其中y为 $unlabeled{\,} data$ 和 $labeled{\,} data$ 的标签， $f * h$ 为网络预测组合，其中 $h$ 为 $e n c o d e r$ 部分， $f$ 为 $segmentation{\,} head$ .

剩余的 $contrastive{\,} loss$ 我们将在3.2部分结合具体过程进行介绍，方便大家理解。
先给出contrastive loss的公式：

3.2 Pseudo-Labeling

首先我们要确定什么样的伪标签是 $r e l i a b l e$ 的，什么样的是 $u n r e l i a b l e$ 的，根据前面作者提出的问题，我们可以得到像素预测类别分布越均匀越不利于我们判断，这样的点是 $u n r e l i a b l e$ 的，说明该点同样是难分割的；相反，如果该点的预测分布是有明显倾向的，则认为这样的点是 $r e l i a b l e$ 的。我们希望用一个指标来表示这种标准，显然应该用信息熵来说明：
在这里插入图片描述

因此，我们定义第 $i$ 张 $unlabeled{\,}image$ 的第 $j$ 个像素的伪标签为：

在这里插入图片描述
其中， $\gamma_t$ 表示选取 $\alpha_t$ 比例的 $u n r e l i a b l e$ 像素点所对应的 $t h r e s h o l d$ ，有：
$\gamma_t=np.percentile(H.flatten(),100*(1-\alpha_t))$
其中，随着训练迭代数的增加， $\alpha_t$ 的大小是逐渐增加的，文中作者定义为线性增加：
在这里插入图片描述
而其中 $unsupervised{\,}loss$ 的权重 $\lambda_u$ 也是变化的，

3.3 Using Unreliable Pseudo-Labels

那么问题关键也是文章最大的创新点是我们如何利用这些 $unreliable{\,} pseudo{\,} labels$ ，如我们前面图所示，虽然白色箭头位置不能区分是 $p e r s o n$ 和 $motor{\,} bike$ ，但是我们可以模型可以比较确定其不为 $c a r$ , $t r a i n$ , $b i c y c l e$ 。因此作者提出不如把这些点作为这些类别 $(c a r . e t a l)$ 的负样本，进而引入 $contrastive{\,} loss$ 。具体来说，作者提出的 $U^2PL$ 包括三部分：

anchor pixels(queries)
positive samples for each anchor
negative samples for each anchor

下面我们将对这三部分进行逐一详细介绍：

首先是anchor pixel，顾名思义，锚点，我们先介绍这部分点的特征：锚点分别从 $unlabeled{\,} data$ 和 $labeled{\,} data$ 中进行选择，以 $unlabeled {\,} data$ 为例，即选择那些 $t h r e s h o l d > 0.3$ 并且预测为该类别的点，对于 $u n l a b e l$ 的数据来说，锚点一定从 $r e l i a b l e$ 的伪标签中选择：
在这里插入图片描述

对于 $l a b e l e d$ 数据同样，最终两者集合组成锚点集。

Positive samples定义比较简单：
在这里插入图片描述
$positive{\,} samples$ 对于所有 $a n c h o r$ 来说是相同的，定义为所有 $a n c h o r$ 的中心。

Negative samples

对于 $negative{\,} samples$ 我们定义 $0 - 1$ 指示变量 $n_{ij}(c)$ 为第 $c$ 个类别的第 $i$ 张图像的第 $j$ 个像素是否为负样本。判断是否为负样本需要满足以下条件：

对于 $labeled{\,} image$ 来说，一个类别的负样本定义为：
（1）不属于类别 $c$ ；（2）难以区分是 $c$ 类别还是其 $G r o u n d T r u t h$
说白了对于 $labeled{\,} image$ 来说，每个类别对应的负样本是该类别的易混样本，比如上图中的 $p e r s o n$ 和 $m o t o r b i k e$ .
对于 $unlabeled{\,} image$ 来说，一个类别的负样本定义为：
（1）伪标签是 $u n r e l i a b l e$ 的；（2）可能不属于 $c$ 类别；（3）不属于大部分不可能的类别

$negative{\,} samples$ 对于所有 $a n c h o r$ 来说也是相同的，对于每个 $a n c h o r$ 来说有 $N$ 个 $negative {\,} samples$ 。

作者给出了以上标准的数学定义：定义 $O_{ij}=argsort(p_{ij})$ ,表示像素点 $p_{ij}$ 预测类别的排序，很显然有 $O_{ij}(argmax{\,}p_{ij})=0$ 和 $O_{ij}(argmin{\,}p_{ij})=C-1$ ,这点比较显然，我们举个例子来说明，假设第 $(i, j)$ 个位置的预测值为： $[0.3, 0.28, 0.15, 0.025, 0.025, 0.02, 0.02, 0.02, 0.02, 0.02, 0.015, 0.015, 0.015, 0.01, 0.01, 0.01, 0.01, 0.01, 0.01, 0.01, 0.005]$

一共有 $20$ 个类别，进行排序后，概率最大 $0.3$ 出现的位置为第 $0$ 个位置；概率最小 $0.005$ 出现的位置为第 $19$ 个位置，即 $C - 1$ .

定义 $n_{ij}^l(c)$ 为：

在这里插入图片描述
其中 $r_l$ 是 $low{\,}rank{\,}threshold$ ,在实验过程中设置为 $3$ ，我们仍然以前面的预测值为例，假设该点是第 $c$ 个类别的概率为 $0.28$ ，也即 $O_{ij}(c)=2$ ,而事实上该点的 $G r o u n d T r u t h$ 为 $0.15$ 对应的类别，这样的点就满足上式，可以被认为是第 $c$ 个类别的负样本，也是属于和第 $c$ 个类别不易区分的点。

同理，
在这里插入图片描述

其中 $r_{l}$ 和 $r_h$ 分别为 $3$ 和 $20$ ，即该点的伪标签首先是不可靠的，其次位置处于 $3 - 20$ 之间，同样以上述的预测值为例，假设第 $c$ 个类别的预测概率为 $0.01$ ，处在排名靠后的位置，而且整个预测分布是比较均匀的，信息熵比较大，属于不可靠的伪标签。

Category-wise Memory Bank

因为在有的 $m i n i - b a t c h$ 中，某个类别的负样本很有限，因此作者定义了一个 $category-wise {\,}memory{\,} bank（FIFO{\,} queue）$ 来存储。

在上面的过程中我们了解了每个类别的 $positive{\,} sample$ 、 $negative{\,} sample$ 以及 $anchor{\,} pixel$ 之后，再看 $contrastive{\,} loss$ 就比较好理解。
在这里插入图片描述
该 $l o s s$ 可以理解为是为了尽量减少 $anchor{\,} pixel$ 和 $positive{\,} sample$ 的距离，增大和 $negative{\,} sample$ 的距离从而提高模型的分割效果。

3.4 Pseudo Code

在这里插入图片描述

4. Experiments

实验中和一些比较常见的半监督方法进行了比较，并且在不同比例的 $labeled{\,} data$ 和 $unlabeled{\,} data$ 情况下给出了对比结果，可以看到 $U^2PL$ + $C u t M i x$ 方法相比于其他方法是有提升的，特别是在 $labeled{\,} data$ 所占比例特别小的情况下。

在 $PASCAL{\,} VOC$ 上的不同划分比例下的表现效果
在 $blender{\,} PASCAL{\,} VOC$ 上不同划分下的表现效果
在 $c i t y s c a p e s$ 上不同划分比例下的表现效果

Ablation Study

Effectiveness of Using Unreliable Pseudo-Labels
在这里插入图片描述
证明了利用 $unreliable{\,} pseudo{\,} pixels$ 确实可以给模型带来提升。

Effectiveness of Probability Rank Threshold
在这里插入图片描述
Section 3.3中 $r_l$ 和 $r_h$ 的选择对模型精度的影响，反映的是在整个数据集上的一个平均表现。
Effectiveness of Components

在这里插入图片描述

Ablation Study on Hyper-parameters

在这里插入图片描述

5. Conclusion

总的来说，这篇文章确实从一个很好的角度尝试解决了一些在半监督方法中没能被利用的 $unreliable{\,} pixels$ 的问题，思路是非常值得我们借鉴和思考的！！

6. Object Context Related Works

OCR: https://arxiv.org/pdf/1909.11065.pdf
Context Prior for Scene Segmentation: https://arxiv.org/pdf/2004.01547.pdf
ACFNet: https://arxiv.org/abs/1909.09408
Class-wise GCN: https://link.springer.com/chapter/10.1007/978-3-030-58520-4_1

zerone-fg

关注

4
点赞
踩
18

收藏

觉得还不错? 一键收藏
3
评论
Semi-Supervised Semantic Segmentation Using Unreliable Pseudo-Labels

Semi-Supervised Semantic Segmentation Using Unreliable Pseudo-Labels
复制链接

扫一扫

专栏目录