Class-Aware Contrastive Semi-Supervised Learning(CVPR.2022)
研究背景(Background)
原始数据的定义是分布内数据 (已知类和平衡分布) 和分布外数据 (未知类或不平衡分布) 的联合集合。一般地,在伪标签上进行训练的基本假设是标记数据的分布接近未标记,并且未标记的数据集不包含任何新颖的类别。然而,这种假设通常在具有大量分发外数据的实际应用程序中不成立,人工自生的伪标签存在确认偏差且含有噪声,并且在含噪声的分发外数据的实际应用场景中模型的判断能力受到了干扰。
SSL使用了许多技术用以减轻确认偏差,例如利用模型的自校正能力、设置高置信度的阈值滤除噪声以及预测的不确定性来缩小原始数据和标记数据之间的分布差距。然而,在不引入其他信息的情况下通过输出证明模型的预测合理性仍然存在确认偏差 。特别是在分布不平衡或类别未知的现实世界数据上,模型的自我校正效果面临着巨大的挑战。
动力(Motivation)
半监督场景下含可靠分布内数据和含噪声的分布外数据,并考虑集成任务时若直接结合图像级特征排斥会干扰SSL的聚类能力的问题。
方法(Method)
作者组合了类感知对比模块及SSL模块的过程:
- 给定一批未标记的图像,根据分布中的可能性和分布中的可能性将图像分为两部分
- 对比学习旨在为下游任务学习通用的先验信息,类感知对比学习考虑分发内数据的类感知信息,同时减轻分发外数据的噪声。
- **权重配置模块(Re-weighing)**用于进一步强调对具有高置信度的分布内数据进行训练,并削弱分布外数据带来的潜在偏差。
即在特征空间中无缝集成了聚类和对比,并将重新加权应用于注意力训练。CCSSL利用SSL的有效学习和Self-SL的降噪能力,通过对分布内数据进行类级聚类和对分布外数据进行图像对比。在特征空间中应用类感知聚类,以无缝地融合到下游任务中,遵循对比学习机制,将图像的视图作为正样本,将其他视图作为负样本。然后,对每个样本应用前景概率重新加权,以将学习重点放在高置信度的干净数据上。从而使得CCSSL辅助任何端到端伪基于标签的SSL方法确认偏差缓解并更快地收敛,减轻了特征空间中的确认偏差,并在现实世界数据上显示出强大的去噪能力。