半监督语义分割算法简介及使用教程
一、背景
如今,深度学习技术的蓬勃发展在许多领域取得了显著成就,但同时也面临着一个不可忽视的瓶颈——对大规模标注数据的高度依赖。特别是在语义分割领域,模型需要像素级的标注数据,要求人工精确地标注每一张图像的每一个像素,这无疑是一个费时费力的过程。
1.1 标注数据的挑战
主要在于成本高昂,
标注一张高分辨率的语义分割图像需要较高精力和时间(而且一般要求的数据量较多),尤其是在复杂场景(如城市街景或医学影像)中,标注成本可能成倍增长。这种劳动密集型任务对标注员的专业技能提出了更高的要求,同时也显著提高了项目的总体成本。
如公共的Cityscapes数据集,需要一个实验室数年的数据收集和标注工作。
1.2 适用性限制
某些领域(例如医学影像分析、遥感解读)中,标注不仅需要大量时间,还需要领域专家的参与。这使得标注工作变得更加昂贵甚至难以实现。此外,在某些敏感领域,数据隐私问题也限制了标注工作的广泛开展。
1.3 数据稀缺性
在一些新兴或特殊的应用场景中,获取大规模标注数据几乎是不可能的,例如极端气候环境下的图像分割任务,或者特殊领域的小众数据集。
1.4 半监督学习的机遇
为了解决这些问题,**半监督学习(Semi-Supervised Learning, SSL)**提供了一种潜在的解决方案。它通过利用大量未标注数据,仅依赖少量标注数据来训练模型,降低了对大规模标注数据的依赖性。在语义分割中,这种方法特别适用,可以通过未标注图像的特性提取更多有价值的信息。
二、UniMatch(CVPR2023)半监督语义分割算法
2.1 原文链接
https://openaccess.thecvf.com/content/CVPR2023/papers/Yang_Revisiting_Weak-to-Strong_Consistency_in_Semi-Supervised_Semantic_Segmentation_CVPR_2023_paper.pdf
2.2 该论文的创新点汇总
2.2.1 背景
FixMatch是一种半监督分类模型,通过弱扰动图像的预测结果来监督强扰动图像的预测。这种方法在许多任务中表现优秀,但它的成功严重依赖手动设计的强数据增强方式,限制了扰动空间的广度。此外在FixMatch中所有的扰动都基于image-level,作者认为feature-level的扰动同样重要,可以增加模型的鲁棒性。
2.2.2 提出的改进
(1)扩展更广泛的扰动空间
引入了一个辅助特征扰动流(feature perturbation stream),以补充原始图像级扰动。
在弱扰动图像的特征层上施加扰动,实现图像和特征级别的一致性。
在图像输入后经encode提取到feature map后,对feature map进行扰动,再经decoder解码后,得到feature perturbation的p_fp。
(2)充分利用原始数据增强
开发了双流扰动技术(dual-stream perturbations),从预定义的图像级扰动池中随机生成两个强视图,利用共同的弱视图指导它们。
结合对比学习,获取更具区分性的特征表示。
2.3 取得的成果
算法在公共数据集上测试,精度较好