自监督学习(六)Context Encoders: Feature Learning by Inpainting

Context Encoders: Feature Learning by Inpainting

Introduction

在这这篇文章中,作者提出了Context Encoders,利用图像修复(Inpainting)的方法,学习图像中的上下文信息。图像是自监督学习中的常用思路,因为图像修复必然需要用到图像中不同部分的信息,在图像修复的同时,也得到了特征学习的目的。论文地址
本文的思路和方法相对比较容易理解,作者首先将图像中的随机区域丢弃,丢弃填补0像素值,之后利用encoder-decoder机构学习恢复原图,之后将修复的图像和原图共同输入到GAN中。在训练完成后,作者将encoder-decoder的部分参数作为预训练模型应用于其他的任务。方法的总体结构如下:
方法总体结构图

Method

Encoder-Decoder Pipeline

本文在这里使用的方法很简单。编码器基于Alexnet设计,后面接一个全连接层。全连接层和通常大家使用的稍有差别。因为该方法的任务是修复图像,就需要网络能够学习到图像中尽可能多区域的信息,也就是说感受也要覆盖全图,而且要让每个区域都具有连接关系。但是直接使用全连接层的话参数量很大,假设encoder出来的feature map的尺寸是 n × n × m n\times n\times m n×n×m, 那么全连接层的参数会变成 m 2 n 4 m^2n^4 m2n4。作者在这里是对特征图的每个通道,分别使用全连接层计算,需要计算 m m m次,每次的参数是 n × n n\times n n×n,总参数量是 m n 2 mn^2 mn2。decoder部分没有什么变化,使用上采样层对图像进行上采样,直至恢复到原图大小。

损失函数

损失函数由两部分构成,一部分是重构的损失函数,另一部分是对抗损失函数 (就不说了,太常见了现在)。重构损失函数如下:
在这里插入图片描述
M M M表示被遮挡区域的掩膜, F F F表示Context Encoder网络。

Experiments

为了验证特征学习的效果,作者在图像分类、目标检测和语义分割三个任务上进行了实验,数据集全部使用Pascal VOC 07。实验结果如下表所示:
在这里插入图片描述
该方法其实并没有取得特别优秀的性能,在三个任务上,只有分割的效果超出了其他的方法。所有的方法距离ImageNet预训练还有不小的差距。

Conclusion

该方法实际上思路非常简单,就是利用图像修复学习图像的特征,实际上作者的实验虽然说取得了一定的效果,但是提升很有限,尤其是对于检测任务,只比随机初始化提升了1个点。这里我现在的感觉是,将图像修复上色等任务作为pretext task,很容易出现局部极值,也就是说在自监督训练的过程中,网络过分关注了图像的纹理等低级别的特征,导致其缺乏泛化能力,在其他任务上无法取得一个较大的提升。

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 上下文编码器(Context Encoders)是一种深度学习模型,它通过修复输入图像中的缺失部分来学习有用的特征。这种方法也被称为“修复学习”或“图像修复”。上下文编码器被广泛应用于计算机视觉领域,特别是在图像生成和图像修复任务中。模型可以根据图像的周围环境推断出缺失的部分,从而对图像进行恢复。这种方法可以用于去除图像中的噪声、修复损坏的图像、或者在生成图像时填补缺失的部分。上下文编码器可以学习到图像的高级特征,例如物体边界和纹理信息,并能够在许多计算机视觉任务中提高模型的性能。 ### 回答2: Context encoders: Feature Learning by Inpainting(上下文编码器:通过修复学习特征)是一种深度学习算法,它可以学习图像的特征,特别是在图像编码、填充、分割和修复等应用中有很大的用途。 通过输入一张有遮挡图案的图片,该算法可以自动地推断出遗漏的信息。它利用卷积神经网络对缺失区域进行修复,然后将修复后的图像作为输入重新训练模型。通过重复训练这个过程,模型可以不断地学习更高层次的图像特征,使得每次修复的区域都更加准确。 与传统的图像补全方法不同,Context encoders可以处理多种形式的缺失图像,而不仅仅是像素缺失。它可以处理物体缺失、区域缺失以及其他一些复杂的缺失情况。 该算法在图像分类、自然语言处理、音频信号处理等方面都有广泛的应用。在图像分类任务中,Context encoders可以学习更加鲁棒的特征表示,提高模型的分类准确度。在自然语言处理任务中,该算法可以处理缺失单词及语法错误等问题,提高自然语言处理的效果。 总之,Context encoders可以帮助我们更好地理解和处理缺失数据,在深度学习中有着广泛的应用前景。 ### 回答3: Context EncodersFeature Learning by Inpainting,是一种用于生成式模型的特征学习方法,它基于图像修复技术的思想,从部分图像中学习如何重构完整的图像。这个方法的主要思想是使用通道填补方法从部分图像中重建原始目标图像,并将填充像素视为上下文信息。因此,Context Encoders 通过学习如何重构部分图像来解决多个计算机视觉任务,例如图像重构、语音生成和自然语言处理等。 Context Encoders 基于深度神经网络,使用像素级损失函数和特征级损失函数对图像进行训练。像素级损失函数是指对原始目标图像与重构图像进行像素级别的比较,以评估其重建效果。而特征级损失函数是指对不同层的卷积网络的特征进行比较,以评估模型的特征学习效果。 Context Encoders 的应用非常广泛,例如可以使用它对缺失图像进行修复,也可以用来自动生成图像。此外,Context Encoders 还可以应用在自然语言处理任务中,例如对于单词或短语进行补全或自动翻译。 总之,Context EncodersFeature Learning by Inpainting 通过使用图像修复技术的思想,从部分图像中学习如何重构完整的图像,可以解决多个计算机视觉任务,并且具有很强的应用价值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值