论文学习笔记 WeblySupervisedLearning Meets Zero-shotLearning:AHybridApproach for FinegrainedClassification

最新推荐文章于 2024-02-12 11:57:42 发布

嘿芝麻

最新推荐文章于 2024-02-12 11:57:42 发布

阅读量1.3k

点赞数 2

分类专栏：论文学习论文分享文章标签： zero-shot learning wely supervised learning fine-grained classification

本文链接：https://blog.csdn.net/zw__chen/article/details/82151428

版权

论文学习同时被 2 个专栏收录

16 篇文章 2 订阅

订阅专栏

论文分享

14 篇文章 1 订阅

订阅专栏

论文：
Webly Supervised Learning Meets Zero-shot Learning: A Hybrid Approach for Fine-grained Classification
链接：
http://openaccess.thecvf.com/content_cvpr_2018/CameraReady/3280.pdf

这里写图片描述

这篇论文是发表在2018CVPR上的一篇文章，其中公式特别多，本人知识有限，如有错误的地方请各位读者指教。

本文是来自莱斯大学，一作为Li Niu，二作为Ashok Veeraraghavan 是一名教授，三作为Ashu Sabharwal。

这里写图片描述

本博客从以上四个方面对论文进行学习。

introduction

这里写图片描述

首先介绍一下什么是fine-grained classification，即细粒度分类。细粒度分类不是区分不同的大类，而是区分一个大类里的字类，如不同的品种的猫。在细粒度分类中，每个子类之间的差异非常小，相比普通的分类任务（如猫狗等分类）来说，细粒度分类的难度更大。而对于这样一个任务，缺少好的训练集成为了瓶颈。

这里写图片描述

对于细粒度分类的这个瓶颈，肯定会想到增加数据集这样的办法，但是由于这两个主要的原因，使得增加训练集的难度比增加普通分类训练集的难度更大。第一，需要海量的知识储备。由于每个子类之间差异性太小，需要这方面的专家进行标注，可想而知这样的人为因素太难。第二，需要标注的子类数量实在是太多。一个种类有超多子类，如鸟类就有大概14000个种类，而且标注难，在每个子类收集那么多数量的样本也很难。
所以，基于以上因素，对于细粒度分类而言，好的训练集成为了亟待解决的问题。

这里写图片描述

基于现在的细粒度分类领域，主要研究是两个方面。第一，WSL。简单的说，在前面说到细粒度分类缺少训练集，所以从网上爬虫获取足够数量的训练集进行训练。第二，ZSL。简单的说，既然有些类别是不知道的，那就利用知道的类别，学习其特征，采用迁移学习的思想解决这个问题。
但是，这两个方面都有各自的缺点。对于WSL来说，从网络中爬虫出来的数据，其标签不一定是正确的，而且图片也不一定是正确的，有很多噪音。另外，测试集和网络爬来的数据集存在数据分布差异。而对于ZSL来说，作者认为，这种方法还是不如全监督学习的效果。

这里写图片描述

基于以上动机，作者将两种方法结合起来，WSL+ZSL就是本文的方法。

WSL+ZSL

这里写图片描述

这个就是本文的主要框架。右上角为现有的比较少的一些好的训练集，由于数量比较少，而且主要的数据集不是他，所以这一部分的数据集成为辅助型的数据集。左上角为从网络爬虫获得的大部分数据集。左下角为测试集，需要注意的是：左上角的网络数据集和左下角的测试集的种类和种类的数量都是一样的。中间是language model。在本网络中，是把所有的子类词向量，标注子类，网络子类和测试图片的图片特征作为输入，输出测试图片的种类。
有一个疑问是，训练的时候我们的test images也输入了吗？如果输入了，是不是训练结束后，预测结果也同时出来了呢？

这里写图片描述

接下来是作者的一个构想。训练集Ca，测试集Ct以及网络爬虫训练集Cw（Ca这样的是种类数量）。对于我们的训练集Ca，他是一些好的、没有噪音的数据集，所以对于他来说是全监督。而其他的数据集里的样本都是要么有噪音，要么是没有标签的，所以都属于弱监督类型的数据集。通过visal model我们可以得到每一张图片的特征向量，可以看到visual feature所示，d为图片特征的维度，na代表训练集子类的图片数量，nt代表测试集子类的图片数量，nw同理。通过language model，我们可以得到每一类的语义向量，可以看到semantic representation所示，m为语义向量的维度。
对于，好的这个训练集而言，有每一张图片对应的语义向量，见Aa，同理web图片也有Aw，而测试数据集是不知道的。这篇文章就是利用这些信息，来学习At，即每张测试图片的语义向量，进而将之与语义空间相比较，就可以输出预测的标签。这个就是本文的整体思路，下面就是具体的实现。

这里写图片描述

首先进行知识迁移。从全监督迁移到弱监督的种类。第一步，学习字典Da，这个思路是来自论文Unsupervised domain adaptation for zero-shot learning. In ICCV, 2015。

这里写图片描述

第二步，是最Dt和At的学习。首先，也是对标准词典的学习。第二项为两个词典的差值，希望其距离接近，即让基于标注子类的词典和基于网络子类的词典接近，也就是把标注子类的知识转移到网络子类中。第三项，为At（测试集语义向量）的低秩处理（低秩处理的方法是来自于Guaranteed minimum- rank solutions of linear matrix equations via nuclear norm minimization. SIAM review ），因为相同子类测试图片的词向量应该是彼此相似的。（图片的秩表示的是图片所包含信息的丰富度）。在后面的讨论中，都是基于这个公式进行下去的。

这里写图片描述

上文说到网络爬取数据带来的两个问题：噪声和数据分布不均，下面就是根据这两个问题，作者提出他的解决方法。

这里写图片描述

首先，解决的事数据分布差异的问题。本文使用了Maximum Mean Discrepancy (MMD) based regularizer，这样的一个正则化器。可以使得，在网络赋予不同的权重以拉近加权网络数据的中心和测试数据中心之间的距离，也就是能够减少网络图片和测试图片在数据分布上的差异。

这里写图片描述

接下来，是处理图片的标签噪音。采用了分组最小角回归正则化器，The group-lasso regularizer 。 $\Theta$ 是上一面公式中 $\theta$ 的对角矩阵。这使用了同样的权重来解决标签噪音的问题，使用这个正则化器使得分类损失矩阵的某些行稀疏，也就是强制某些网络图片的分类损失很小，这些分类损失小的网络图片对应着标签准确的图片相应的权重就会很大。

这里写图片描述

所以，解决了这两个问题的目标函数就变成了上面这个PPT所示的惹。接下来，就是好多好多的公式进行求解惹。

这里写图片描述

由于采用了group lasso regularizer 和 low-rank regularizer，所以求解不是很容易。因此，本文采用了类似Augmented Lagrange Multiplier (ALM) 的方法进行优化求解，后面就是超多公式惹，本人学识有限，就不一一分析惹，还望各读者进行指教。这里还是放上一张伪代码吧。emmm。。。

这里写图片描述

experiment

这里写图片描述

首先，介绍一下数据集。本文采用了三大数据集CUB、SUN及Dogs。需要注意的是：作者使用了Flickr来网络爬虫获取每一个数据集对应的web iamges。特征包括图片特征和语义向量。对于图片特征，本文采用了VGG网络，但是利用的是从第6层就输出的4096维的向量。对于语义向量，采用了Word2Vec和GloVe，都是在维基百科上进行了训练，每个词向量的维度为400，把两个结合起来就是800维的向量了。

这里写图片描述

这个是第一个实验。第一个是简单的使用了一个线性的回归器。第二个是采用了DA的方式，即把我们的web 图片数据集归为source data，把我们的测试数据集归为tartget data。第三个是WSL的方式，采用了网络爬虫的数据集，但是其对数据集的noisy进行了处理。通过这三类数据集的实验，可以看出域问题和label noise问题解决的益处。第四个是ZSL的方式，上半部分是inductive的方式，下半部分是transductive的方式。第五个是WSL+ZSL，选取了WSL中avg表现最好的xiao et al和ZSL中avg表现最好的zhang and Saligrama 两者简单结合的方式。第六个就是本文方法惹，如ppt所示的，控制不同的 $\lambda$ 是否为0来实验效果如何。

这里写图片描述

第二个实验，是探究web training data数量和效果performance的关系。可以明显看出，CUB和Dogs的数据集上，准确率会随着web训练数据数量增加而增加；而对于SUN数据集是相反的效果，作者在这里给出了解释：由于这个数据集本身的原因导致的，这个数据集对类别的标注有in_door和out_door这样的额外的标签。因此，普遍的结果是准确率会随着web训练数据数量增加而增加。

这里写图片描述