自监督学习(九)Colorization as a Proxy Task for Visual Understanding

Introduction

本文继续介绍将图像上色作为pretext task的自监督学习方法,本文的作者和上一篇博客的作者相同,方法也是上一篇论文的研究。该论文发表在CVPR2017上。 论文主页
本文作者继续探讨图像上色在自监督任务上的效果,采用的方法和上一篇论文基本相同,作者通过实验发现该方法在Pascal VOC07的分类任务和VOC12的分割任务上取得了最好的效果。本文的创新点较弱,也没有提出新的方法,被接受的关键应该是接下来作者对自监督学习进行了一系列的分析。

Method

本文在方法上可以参考上一篇博客,没有本质上的变动。有几个调整的地方:一个是使用的是LAB颜色空间,看作者的意思是ab波段分别量化,取K=32。另外,作者采用了稀疏训练的方法,训练数据集的3.7M,取自1.3M的ImageNet数据和2.4M的places205数据集。

Experiments

实验部分除了进一步验证该方法在自监督学习上的效果,还分析了不同的损失函数、网络结构等对结果的影响,可以和这一篇博客自监督学习性能概述一起分析。

Loss对结果的影响

作者首先探讨在VOC12上的分割效果:
在这里插入图片描述
Regression指的是在上色任务中,使用L2损失函数,这里可以看出,作者使用自己提出的损失函数,可以提高分割的精度。如果是随机初始化,精度大概是33%。

Network architecture 对结果的影响

接下来作者分析了Alexnet、VGG16和resNet-152对结果的影响
在这里插入图片描述
和我们之前介绍的一样,Resnet可以取得更好的效果。另外,值得注意的是,三种网络模型在随机初始化的条件下,精度类似,这也说明了预训练的重要性。

ImageNet pretraining

接下来,作者探讨了ImageNet预训练的结果。
在这里插入图片描述
作者在这里做了若干组实验。其中,None表示不使用任何预训练方法,C1000表示使用ImageNet全部的1000个类别进行预训练;E10和E50表示将10%和50%的样本赋予随机的标签进行训练;H16和H2表示按照theWordNet hierarchy 将标签合并为16和2个,而R50和R16表示在合并标签时,我们将1000个类别,随机放入50和16个类别中。
在这里插入图片描述

Conslusion

这篇文章的创新性不是很强,主要在于对自监督方法的分析,这也是但是比较早的对自监督学习方法进行系统分析的文章,其中的很多结论对于我们自己训练自监督学习任务很有启发。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值