2.Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey

无监督学习核心目标
提供一个好的预训练模型
使得仅仅使用少量数据, 就可以达到大量标注的效果

预训练模型作用

  • 提供一个好的初始点
  • 避免过拟合
    深度学习的标注成本很高,尤其是涉及视频时为避免耗时且昂贵的数据标注工作,提出了许多自我监督的方法,以在不使用任何人工注释的情况下从大规模的未标记图像或视频中学习视觉特征。

为了从未标记的数据中学习视觉特征,一种流行的解决方案是为网络提出各种需要解决的pretext tasks,同时可以通过学习借记任务的目标功能来训练网络,并通过此过程学习特征。各种
已经提出了各种自我监督学习的pretext tasks,包括为灰度图像着色[18],图像修复[19],拼图游戏[20]

  • (1)卷积层需要有一定的特征提取能力才能完成这些任务
  • (2)这些任务的标签可以自动生成
    在这里插入图片描述

术语定义

人类注释标签: 人类注释标签请参考由人工人工注释的数据标签。

伪标签:伪标签是根据前置任务的数据属性自动生成的标签。

前置任务: 前置任务是网络要解决的预先设计的任务,通过学习前置任务的目标功能可以了解视觉特征

下游任务: 下游任务是计算机视觉应用程序,用于评估自我监督学习所学功能的质量。当训练数据匮乏时,这些应用程序可以从预先训练的模型中受益匪浅。通常,需要人工注释的标签来解决下游任务。但是,在某些应用程序中,下游任务可以与前置任务相同

监督学习: 监督学习表示使用带有细粒度人工注释标签的数据来训练网络的学习方法

半监督学习: 半监督学习是指使用少量标记数据和大量未标记数据的学习方法

弱监督学习: 弱监督学习是指使用粗粒度标签或不准确标签进行学习的学习方法。获得弱监督标签的成本通常比监督方法的细粒度标签便宜得多

无监督学习: 无监督学习是指不使用任何人工注释标签的学习方法

自我监督学习: 自我监督学习是无监督学习方法的子集。自我监督学习是指使用自动生成的标签对ConvNets进行明确训练的学习方法。本文仅关注使用ConvNets进行视觉特征学习的自我监督学习方法,其中可以将特征转移到多个不同的计算机视觉任务中。

  • 据我们所知,这是首次有关使用深度ConvNets进行自我监督的视觉特征学习的全面调查,这将对该领域的研究人员有所帮助。
    •对最近开发的自我监督学习方法和数据集的深入审查。
    •提供了定量性能分析和现有方法的比较。
    •指出了一套自我指导学习的未来可能方向。

不同学习模式的制定

监督,半监督,弱监督和无监督。在本节中,将对四种学习方法进行比较,并定义关键术语

Semi-Supervised Learning Formulation

在这里插入图片描述

Weakly Supervised Learning Formulation

2.4 Unsupervised Learning Formulation

无监督学习是指不需要任何人工注释标签的学习方法。这种类型的方法包括完全无监督的学习方法(其中该方法根本不需要任何标签),以及自我监督的学习方法,其中使用自动生成的伪标签对网络进行专门训练,而无需涉及任何人工注释。

3.1图像结构

VGG,

3.2视频结构

  • 二维卷积方法
    基于2DConvNet的方法在每个单帧上应用2DConvNet,并将多个帧的图像特征融合为视频特征。 Ť
  • 三维卷积方法
    基于3DConvNet的方法采用3D卷积运算从多个帧中同时提取空间和时间特征。的
  • LSTM方法
    基于LSTM的方法采用LSTM对视频中的长期动态进行建模。本节简要总结了视频特征学习的这三种类型的体系结构
Two-Stream Network

在这里插入图片描述
视频通常由各种数量的
框架。为了识别视频中的动作,需要网络来捕获帧序列的外观特征和时间动态。如图7所示,Simonyan和Zisserman提出了一种基于两流2DConvNet的网络来进行人类动作识别,同时使用2DConvNet捕获RGB流中的空间特征,并使用另一2DConvNet捕获光流中的时间特征[53] ]。光流编码运动对象的边界,因此,时间流ConvNet相对更容易捕获帧内的运动信息

实验表明两种流的融合
可以大大提高动作识别的准确性。后来,这项工作已扩展到多流网络[55],[56],[57],[58],[59],以融合来自不同类型输入的特征,例如动态图像[60]和帧的差异[61]。

3.2.2 Spatiotemporal Convolutional Neural Network

3D卷积运算最早是在3DNet [62]中提出的,用于人类动作识别。与分别提取每个帧的空间信息然后将它们融合为视频特征的2DConvNet相比,3DConvNet能够同时从多个帧中提取空间和时间特征。

C3D [16]是一种类似于VGG的11层3DConvNet,旨在用于
人类动作识别。该网络包含8个卷积层和3个完全连接的层。所有内核到1像素。由于其强大的同时具有3×3×3的大小的能力,卷积跨度固定,可从多个帧中提取空间和时间特征,因此该网络在包括人为动作在内的多个视频分析任务上均达到了最新水平识别[63],动作相似性标签[64],场景分类[65]和视频中的对象识别[66]

C3D的输入是16个连续的RGB帧,其中
从16帧剪辑中提取外观和时间线索。但是,长期时间卷积(LTC)论文[67]认为,对于持久动作,16帧不足以表示持续时间更长的整个动作。因此,采用了更多的帧来训练3DConvNets,并获得了比C3D更好的性能[67],[68]

随着在视频上应用3D卷积的成功
在分析任务中,已经提出了各种3DConvNet体系结构[69],[70],[71]。 Hara等。通过用3D卷积层替换ResNet中的所有2D卷积层,提出了3DResNet,并显示了与几个数据集上动作识别任务的最新性能相当的性能[70

Recurrent Neural Network

在这里插入图片描述

ConvNet架构摘要

4 COMMONLY USED PRETEXT AND DOWNSTREAM TASKS

为了减轻大规模数据集注释的负担,通常为网络设计一个预任务,以解决该任务,同时根据数据属性自动生成该预任务的伪标签。已经设计了许多前置任务并将其应用于自我监督学习,例如前景对象分割[81],图像修复[19],聚类[44],图像着色[82],时间顺序验证[40],视觉音频对应验证等等。有效的前置任务确保通过完成前置任务的过程学习语义特征。
以图像着色为例,图像着色
tion是将灰度图像着色为彩色图像的任务。为了生成逼真的彩色图像,需要网络来学习图像的结构和上下文信息。在此前置任务中,数据X是可以通过在RGB图像中执行线性变换而生成的灰度图像,而伪标签P是RGB图像本身。训练对Xi和Pi可以实时生成,而成本却可以忽略不计。具有其他借口任务的自我监督学习也遵循类似的流程。

4.2 Commonly Used Pretext Tasks

基于生成,基于上下文,基于自由语义标签和基于交叉模式的。
基于生成的方法: 学习此类方法
通过解决涉及图像或视频生成的前置任务来实现视觉特征

图像生成:通过图像生成任务的过程学习视觉功能。这种类型的方法包括图像着色[18],图像超分辨率[15],使用对抗性生成网络(GAN)生成图像修复图像

视频生成:通过视频生成任务的过程学习视觉功能。这种类型的方法包括使用GAN [85],[86]和视频预测[37]进行视频生成。

**基于上下文的前置任务:**上下文的设计
基于前置任务的任务主要采用图像或视频的上下文特征,例如上下文相似性,空间结构,时间结构等。

**上下文相似度:**前置任务是基于图像补丁之间的上下文相似度来设计的。这种类型的方法包括基于图像聚类的方法[34],[44]和基于图约束的方法[43]。
在这里插入图片描述

聚类是把相似数据分组到同一簇中的一种方法。由于其通过使用数据的属性对数据进行分组的强大功能,它被广泛用于机器学习,图像处理,计算机图形学等许多领域。许多经典的聚类算法已针对各种应用提出[139]。

在自监督的情况下,聚类方法主要用作对图像数据进行聚类。简单方法是基于手动设计的特征(例如HOG [140],SIFT [141]或Fisher Vector [49])对图像数据进行聚类。聚类后​​,获得几个簇,同一个簇中的图像在特征空间中的距离较小,而来自不同簇的图像在特征空间中的距离较大。特征空间中的距离越小,则RGB空间中的图像外观越相似。然后,可以使用群集分配作为伪标签来训练ConvNet对数据进行分类。为了完成这项任务,ConvNet需要学习类内不变性和类间差异性。因此,ConvNet能够学习图像的语义。

关于将聚类变体用作代理任务的现有方法遵循以下原则[34],[43],[44],[128],[129]。首先,将图像聚类为不同的簇,其中来自同一簇的图像具有较小的距离,而来自不同簇的图像具有较大的距离。然后训练一个ConvNet来识别群集分配[34],[44]或识别两个成像的图像是否来自同一群集[43]。 DeepCluster的流程是基于聚类的方法,如图16所示。DeepCluster用Kmeans迭代地对图像聚类,并使用后续分配作为监督来更新网络权重。这是当前自监督图像表示学习的最新技术。

6.2.1 空间上下文结构学习

图像包含丰富的空间上下文信息(例如图像中不同图像块的相对位置),可用于设计自监督学习的代理任务。代理任务可以是预测同一图像中的两个图像块的相对位置[41],或识别同一图像中打乱的一系列图像块的顺序[20],[88],[89]。完整图像的上下文也可以用作监督信号来设计代理任务,例如识别整个图像的旋转角度[36]。为了完成这些代理任务,ConvNets需要学习空间上下文信息,例如对象的形状以及对象不同部分的相对位置。
在这里插入图片描述
Doersch等人提出的方法是使用空间上下文线索进行自监督的视觉特征学习的一项开创性工作之一[41]。从每个图像中提取随机的一对图像块,然后训练一个ConvNet识别两个图像块的相对位置。为了解决这个难题,ConvNets需要识别图像中的对象并了解对象不同部分之间的关​​系。为了避免网络学习捷径解决方案,例如简单地使用图像块中的边缘来完成任务,在训练阶段将应用大量数据增强。
遵循这个想法,提出了更多的方法来解决更困难的空间难题来学习图像特征[20],[27],[87],[88],[89]。如图17所示,Noroozi等人提出了一项典型的工作。尝试用ConvNet解决图像拼图[20]。图17(a)是具有9个采样图像块的图像,图17(b)是打乱的图像块的示例,图17(c)显示了9个采样块的正确顺序。打乱后的图像块被馈送到网络,该网络经过训练,通过学习图像的空间上下文结构(例如对象颜色,结构和高级语义信息)来识别输入块的正确空间位置。

给定一个图像的9个图像补丁,存在362,880(9!)个可能的排列,并且由于任务的含糊性,网络不太可能识别出所有这些图像。通常,为了限制排列的数量,使用hamming距离在所有具有较大hamming距离的排列中仅选择排列的子集。仅使用选定的排列来训练ConvNet识别打乱图像块的排列[20],[35],[88],[89]。

设计难题任务的主要原理是找到一个合适的任务,该任务对于网络来说不太难也不太容易解决。如果太难了,则网络可能由于任务的含糊性而无法收敛,或者如果太容易了,则可以轻松地学习捷径解决方案。因此,通常采用减少搜索空间来减少任务的难度。

9 未来方向

从合成数据中学习特征:自监督学习的一种上升趋势是用合成数据来训练网络,而合成数据可以很容易地被人类很少参与的游戏引擎渲染。借助游戏引擎,可以轻松生成数百万个具有精确像素级注释的合成图像和视频。通过准确而详细的注释,可以设计各种代理任务以从合成数据中学习特征。需要解决的一个问题是如何弥补合成数据和真实数据之间的领域鸿沟。只有少数工作探索了使用GAN弥补领域差距从合成数据中进行自监督的学习[30],[166]。利用更多可用的大规模合成数据,将提出更多的自监督学习方法。

从网络数据中学习:另一个上升的趋势是根据网络收集的数据[22],[167],[168],基于它们现有的关联标签来训练模型。借助搜索引擎,可以从Flickr和YouTube等网站下载数百万个图像和视频,而费用却可以忽略不计。除了原始数据外,标题,关键字和评论也可以作为数据的一部分,用作训练网络的额外信息。通过精心策划的查询,由可靠的搜索引擎检索到的Web数据可以相对干净。利用大规模Web数据及其关联的元数据,可以提高自监督方法的性能。关于从网络数据学习的一个开放问题是如何处理网络数据及其关联的元数据中的噪声。
从视频中学习时空特征:自监督图像特征学习已得到很好的研究,并且在某些后续任务(如语义分割和目标检测)上,监督模型和自监督模型的性能差别很小。但是,使用3DConvNet进行自监督的视频时空特征学习尚未得到很好的解决。需要更有效的代理任务,这些任务专门旨在从视频中学习时空特征。

使用来自不同传感器的数据进行学习:大多数现有的自监督的视觉特征学习方法仅专注于图像或视频。但是,如果可以使用来自不同传感器的其他类型的数据,则可以将不同类型数据之间的约束用来训练网络以学习特征[155]。无人驾驶汽车通常配备各种传感器,包括RGB摄像头,灰度摄像头,3D激光扫描仪以及高精度GPS测量和IMU加速度。通过驾驶可以很容易地获得非常大规模的数据集,并且不同设备捕获的数据的对应关系可以用作自监督特征学习的监督信号。
通过多个代理任务学习:大多数现有的自监督视觉特征学习方法都是通过训练ConvNet解决一项代理任务来学习功能的。不同的代理任务提供了不同的监督信号,可以帮助网络学习更多具有代表性的特征。只有很少的工作探索了用于自监督特征学习的多个代理任务学习[30],[32]。对于多个代理任务自监督的特征学习可以有更多的研究。

10 结论

深度卷积神经网络的自监督图像特征学习获得了巨大的成功,在一些后续任务上,自监督方法的性能与监督方法之间的差距很小。 本文从各个角度全面回顾了最近基于深度卷积神经网络的自监督图像和视频特征学习方法,包括通用网络体系结构,代理任务,算法,数据集,性能比较,讨论和未来方向等。 表格形式的方法,数据集和性能的比较摘要清楚地表明了它们的特性,这将有益于计算机视觉界的研究人员。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值