SIGIR21_Long-Tail Hashing阅读笔记

简介

深度哈希学习在图像检索等任务中应用广泛,将高维图像特征映射成低维的袖珍短小的哈希码,实际上实现了图片的降维。在哈希学习的过程中,相似的图片被映射成汉明距离相近的哈希码,不相似的图片被映射成汉明距离较远的哈希码。因此,将哈希学习应用于图片检索,有利于使用短小哈希码迅速计算图片相似度并得到准确的检索结果。

然而,哈希学习往往被训练于各类图片数量均匀的数据集上,对于现实中的很多场景而言,数据可能是不均匀分布的。例如,在世界杯期间,梅西的检索图片量可能会非常高,而其他许多类别的图片量会很小,使用这些呈长尾分布的数据训练模型时,传统的图像检索模型并不能有效地学习这样的训练数据,因此基于长尾分布数据训练的深度哈希检索模型也会被现实的检索系统所需要。

题主在基于工程的需要检索长尾分布哈希学习论文时发现了这篇文章,因此阅读本文并写下这篇笔记。如果小伙伴们在阅读的过程中发现错误请指正!

1.RELATEDWORK

本文是两个已有深度学习问题的结合:learning to hash 和 learning from long-tail data。

1.1Learning to hash

深度哈希学习在训练样本中学习哈希函数,并使用该函数将查询样本映射为二进制哈希码。基于深度哈希学习的方法基本可以分为以下三类。

Pointwise

以SDH方法为先导的pointwise方法,将深度哈希学习作为分类任务,训练一个分类层,并将测试样本作分类。

Pairwise

DPSH,Hashnet,CSQ等方法将深度哈希学习作为回归问题,先使用类标签建成哈希码,再在训练的过程中将各个类别训练得到的哈希码向建成的哈希码做回归。

Listwise

该方法被设计用于最大化标签的相关性列表和任何给定查询的计算排名位置之间的一致性。

1.2Learning from Long-Tail Data

长尾分布数据问题在深度学习的分类和检索任务中广泛出现,解决长尾数据的方法也多种多样。

Data resampling

数据重采样方法重塑原始不平衡数据集,将各个标签的数据呈现均匀分布的状态。这可以通过过采样(复制尾类中的一些样本),或欠采样(丢弃头类中的一些样本)的方式。尽管重采样在数据集不平衡时很有帮助,但它也带来了一些风险:复制太多的样本可能导致尾部类的过拟合,而丢弃太多的样本可能导致头部类的欠拟合。

Class reweighting

类权重分配方法在损失函数上给予不同类别不同的权重。该方法给大权重尾类和小权重头类。权重方法广义上类似于重采样方法,但通常他们的计算效率更高。

Knowledge transfer

知识转移是指在不同的类之间可以共享隐藏的知识,并通过元学习或注意机制来丰富数据表示。Liu等人设计了一种动态元嵌入模块,其将图像特征与对应的记忆特征相结合,以丰富头部和尾部样本的表示,这也是本文在处理长尾数据时使用的方法。知识转移方法的目标是丰富数据表示,而不是为下游任务重塑数据分布。

2.THE PROPOSED METHOD

本文提出的方法主要由四部分组成:1)特征提取部分,从input经过Backbone和一个FC+ReLU层得到.2)拓展动态元嵌入模块,输入为,输出为.3)哈希层函数h(x)(FC层+Tanh量化层),输入为,输出为哈希码h.4)分类层(FC层+softmax概率计算),输入为哈希码,输出为预测标签的概率分布。

将Figure1文字化为以下表格。

2.1特征提取部分

Table 1的Layer#0-Layer#2为特征提取部分。

Layer#1中,本文使用ResNet34作为Backbone。

Layer#2中,本文使用FC+ReLU层将Backbone的输出由512维升维至2000维。原因是实验中的一些对比方法(如SDH)使用2000个输出通道达到一个性能和速度的良好权衡。

2.2拓展的动态元嵌入部分

拓展动态元嵌入方法(DME)是模式识别中的一种数据增强算法。它在原始特征的基础上计算了记忆特征,可以实现data-rich类别和data-poor类别数据的语义知识转移。

对于每个类别,计算出其的类中心c(i):

1{·}为指示函数,统计类别数据个数。

使用类中心来定义该类别在数据较少的尾部类往往不准确,因此本文使用DPP算法寻找与类中心相似的k个样本,将这k+1个同时作为该类别的“代表矩阵”M.

通过DPP算法,每个类的类中心(原型)由一个拓展至k+1个,因此总共的C个类由C(k+1)个类原型构成,即M矩阵共有C(K+1)行。最终得到的计算公式为:

o经过一个(FC+softmax)变换的矩阵,可以视作attention机制中的Q,而M可以视作attention机制中的K,因此可以看做在query=,key=M的注意力机制。

o相似的,本文构造了一个特征选择器(FC+softmax),其输入为,输出为e,用于的特征选择。

因此DME模块最后的输出为:

2.3哈希层与分类层

哈希层使用线性层将维度映射到低维,并用Tanh()函数进行处理,使得哈希码能够满足趋近于的形式。

在实际应用中,需要使用符号函数将哈希码映射到组成的空间,即

在分类层中,本文使用FC层+softmax的形式作为分类层的概率输出,并使用CELOSS约束预测标签与真实标签的一致性。

3.实验部分

在长尾分布的数据集上,IF值(不平衡因子imbalanced factor)代表着不同类别数据量的差异程度。

对于Cifar100数据集,该直线由斜率和端点(0,log(500))构成,ImageNet数据集也类似。这种形式更好地符合Zipf's law.具体实验和消融实验部分不在这里做具体分析了。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值