背景:
自监督学习可以使用大量无标签数据训练网络,得到一个优秀的特征提取器,进而可以将该特征提取器用于多种下游任务,比如图像分类、目标检测、目标跟踪、语义分割等。在下游任务中可以根据情况选择要不要对特征提取器进行微调。
经过近两年自监督学习算法的发展,自监督学习获得的特征提取器性能已经可以和监督学习相媲美,尤其是对比自监督学习,比如SimCLR、MoCo等算法在下游任务中的表现良好。
作者发现在一些针对像素级特征的下游任务上,常用的对比自监督学习甚至是监督学习表现的并不如意。像素级的任务包括目标检测、语义分割、实例分割,这些任务不是对一幅图像进行整体分类,而是要对像素级或图像块上进行语义区分。比如语义分割是对图像的每个像素进行分类:
现有的对比自监督算法都是将提取到的图像特征进行全局池化磨灭空间信息,之后再用这个全局特征进行对比学习。比如在SimCLR算法中,会将卷积层提取到的有空间分辨率的特征进行全局池化,再通过一个映射头(几个全连接层)得到用于计算对比损失的映射特征。
都反映的是全局特征,损失了空间信息。
这样的特征无疑是损失了图像的空间信息,作者认为这种做法更适合于对全局图像进行分类的下游任务,而不适用于对空间信息要求较高、针对像素级操作的下游任务,比如语义分割。