Re-ranking Person Re-identification with k-reciprocal Encoding(2017年5月)论文笔记
论文下载地址:https://arxiv.org/pdf/1701.08398.pdf
目录
这篇论文为解决什么样的问题而提出了什么样的方法,该方法的核心思想是什么?
一.总结
这篇论文为解决什么样的问题而提出了什么样的方法,该方法的核心思想是什么?
在行人重识别中如果直接使用k最近邻对结果进行重排可能会限制总体性能,因为错误匹配常包含在内,为解决该问题而提出了自动且无监督的k相互最近邻编码的方法。该方法的核心思想是:对于两张图片,其中任意一张图片作为probe时另一张图片都会在该probe的top-k中序列中,这样的两张图片称为k相互最近邻,可以更加严格的判断两张图片是否真的匹配。然后通过将k相互最近邻编码成向量以得到k相互特征,增加局部扩展查询以提高特征鲁棒性。最后通过向量运算,结合马氏距离和Jaccard距离得到最终距离,根据该最终距离进行重排。
二.原文概译
摘要Abstract
重排序是提高行人识别的精度中的关键步骤,在这篇论文中,我们提出K相互编码方法来重排重识别的结果。我们的假设是如果gallery图像与k相互最近邻的probe相似,那么它更可能是正确的图像。最终的距离是结合了原始距离和Jaccard距离。我们的重拍方法不需要任何人工或者标签数据,所以很适合用于大型数据集上。我们在Market-1501、CUHKO3、MARS和PRW数据集上进行实验证明了方法的有效性。
1.引言Introduction
行人重识别在计算机视觉中是一个难题,通常也被认为是一个检索问题。给待检索的人,我们想要在gallery中找到不同镜头下的同一人。在这篇论文,主要集中重排问题。
许多重排方法的主要优点在于不需要额外的训练样本就可以使用并且可以应用于任何初始的排序结果。重排的有效性很大程度依赖于初始排序列表的质量。很多之前的工作研究了初始排序列表中的top-ranked图像之间的相似度关系。一个潜在假设是如果返回的图像是probe的k相互最近邻内的排序,则很有可能是正确的匹配并可以用来进行后续重排。然而,情况可能会与最佳情况不同,probe的k最近邻居中可能包含错误的匹配。如图1,P1到P4都是正确的匹配,但并不全在top-4排序中,而N1到N6是错误的匹配但有的排序却很靠前,所以直接使用top-k方法不好。K相互最近邻居可以有效的解决这个问题。当两张图片被称为k相互最近邻表明它们在一张图片作为probe时另一张图片都在probe的top-k序列中,因此k相互最近邻更严格的判断两张图片是否真的匹配。如图1,我们看到probe是正确匹配的相互邻居而不是错误匹配的相互邻居。这样确保正确的匹配图像在初始排序列表中以提高最终的重排结果。
基于上述考虑,本文介绍k相互编码方法进行重排。我们的方法含括三步骤。首先,我们将加权的k相互邻居编码成向量以形成k相互特征,两张图像的Jaccard 距离可以根据他们的k相互特征计算得到。然后,为获得更强健的k相互特征,我们使用了局部扩展查询提高重识别性能。最后,按照一定权重将初始距离与Jaccard距离结合一起,获得最终排序结果。方法框架可见图2。
本论文的的贡献:
提出了k相互特征,即将k相互特征编码为单一向量。
不需要人工或注解数据,可以应用在任何以自动和无监督的方式进行行人重识别的结果排序中。
提出的方法在几个数据集上有效的提高了行人识别的性能,特别是在Market-1501数据集上达到了目前rank-1和mAP最好的效果。
2.相关工作Related Work
目标检索重排
平均扩展查询方法(AQE):一个新的查询向量是通过返回结果中top-k向量的平均值获得,用来重查询数据集。
判别式扩展查询方法(DQE):使用线性支持向量机获得权重向量,用于决策边界的距离来修正初始排序列表。
Shen等人提出使用初始排序中的k相互最近邻作为新的查询以产生新的排序列表,每张图像的分数依据他在排序列表中的位置得到。
最近,稀疏上下文激活(SCA)被提出将最近邻集合编码成向量,用Jaccard距离来表示样本之间的相似度。
为了防止错误匹配对top-k的图像造成影响,k相互最近邻在两份工作中被提出采用。一份工作是使用上下文差异性度量(CDM)通过迭代正则化每一点与其最近邻居的平均距离来细粒度图像之间的相似度,另一份工作正式提出k相互最近邻的概念,K相互最近邻被认为是高度相关的候选集,用以构造其余数据集重排的闭合集。我们的工作不同以上的两份工作,我们是通过比较两张图片的k相互最近邻来计算它们之间新的距离。
重识别的重排
大多数已经存在的行人重识别方法主要集中于特征表示或者度量学习,最近一些研究关注了重排方法。而我们主要关注自动且无监督的解决方法。
Li等人提出一种通过分析每一对图像的最近邻之间直接或间接的信息进行重排的方法;有人提同时考虑排序列表的内容和上下文信息进行无监督的重排;有人结合最近邻全局和局部的特征作为新的查询等等。但是直接使用k最近邻进行重排可能会限制总体性能,因为错误匹配经常包括在内。为解决该问题,本篇论文研究了k相互在行人重识别的的重要性并设计了一个简单有效的重排方法。
3.提出方法
3.1问题定义
给一张query和有N张图片的gallery集合G = {gi | i = 1, 2, ...N}。query和gallery中每张图片的初始距离是计算马氏距离:
xp和xgi分别是query和galleryi的外观特征,M是半正定矩阵。原始的排序列表根据马氏距离进行排序,我们的目标是进行重排使得正确匹配在topk列表中,以此来提高行人重识别的性能。
3.2k相互最近邻
我们将N(p,k)定义为probe p的k最近邻:
将k相互最近邻定义为:
根据之前的描述,k相互最近邻比k最近邻更接近probe p。但由于光照的变换、姿势、视角和遮挡等,正例图像可能被k最近邻排除在外,因此也不会在k相互最近邻的中。未解决这个问题,我们根据以下的条件对R(p,k)中的每个候选不断增加1/2k相互最近邻到鲁棒集R*(p,k)中:
通过该步骤,鲁棒集中的候选项比R(p,k)中的候选项更加接近probe p,图三表示了该扩展过程。最初,R(Q,20)中没有正例G,R(C,10)中有G,我们将G加入到R*(Q,20)中。因此在扩展处理后更多的正例被包括在R*(p,k)中。我们并不是直接将R*(p,k)中的图像作为top-k图像,而是根据它来重新计算probe和gallery之间的距离。
3.3Jaccard 距离
我们通过比较它们的k相互最近邻集合重新计算了probe p和gallery gi的距离。根据之前的描述,我们认为两张相似的图片,他们的k相互最近邻集合是重叠的,在集合中有重复的样本。如果重复样本越多说明两张图像越相似。p和gi通过极端k相互集合中的Jaccard距离得到:
|.|表示集合中候选项的个数。尽管上述的方法可以获得两张图片的相似关系,但是依然存在三个明显的缺点。
1.计算交并集太耗时间,而且计算每一对图像的Jaccard距离比较困难。可行的方法是将最近邻集合编码成更加简单的向量,在减少计算复杂度的同时保持原来集合的结构。
2.计算距离时所有邻居的权重相等,导致最后得到简单却没有差异的邻居集合,实际上,与p更接近的邻居更可能是正例,因此在计算距离的时候应该加上权重,并且使越靠近的样本权重越大。
3.在度量两个人的相似度的时候仅仅考虑内容信息将会很难,因为不可避免的多样性使得很难去区分充足的内容信息。因此,结合原始距离(马氏距离)和Jaccard距离可以增加距离的鲁棒性。
k相互特征被提出以解决上述前两个问题。把k相互最近邻集合编码成向量Vp = [Vp,g1 , Vp,g2 , ..., Vp,gN ],其中Vp,g1被二进制指示函数定义为:
通过这个方法,k相互最近邻集合可以被表示为N维向量,其中向量中的每个元素表示表示该图像是否在R*(p,k)中。然而,这个函数依然将邻居当做相等的进行考虑,因此我们根据p和它的邻居的马氏距离来设计权重。将通过成对距离的高斯核来定义公式:
通过该方法,硬权重(0或1)转为软权重,越近的邻居权重越大,反之越小。根据以上定义,交集和并集的候选项数目可以这样计算:
其中min和max操作是对两个输入向量基于元素的最小化和最大化,||.||是L1范数。这样把Jaccard距离重新定义为:
通过Jaccard的公式转变,我们将集合比较问题转为向量计算,使得操作更加简单。
3.4 局部查询扩展
模仿同一类的图片有相似的特征的想法,我们使用p的k最近邻进行局部查询扩展。局部查询扩展定义为:
结果,k相互的特征Vp被p的k最近邻居所扩展。注意,我们对p和gi都是用查询扩展。因为k最近邻中存在噪音,所以我们在使用局部扩展查询的时候将N(p,k)限制到了一个较小值。
3.5最终的距离
这部分主要解决上述的第三个缺点。现存的很多重排方法都忽视了原始距离的重要性,我们将原始距离和Jaccard距离结合起来来修正原始排序列表,最终距离被定义为:
3.6复杂度分析
假设gallery集合的大小是N,距离测量和排序过程的时间复杂度分别是O(N2)和O(N2 logN)。在实际操作中,我们可以先离线的计算成对距离和排序列表,我们计算p和gallery的成对距离以及根据最终距离进行排序的时间复杂度分别是O(N)和O(NlogN).。
4.实验
4.1数据集和设置
数据集:
Market-1501:有32668张有标签的图像,共1501个人。数据集被分为两部分,751个人共12936张图片作为训练集,剩余的750个人的19732张图像用来测试。其中在测试集中,750个人的共3368张图片用来做probe集合。
CUHK03:包括1467个人的共14096张图片,每个人的图像都是由两个摄像头提供。
MARS:包含1261个共20000左右的视频片段,由6个摄像头提供。数据集被分为631和630个人分别作为训练集和测试集,其中在测试时2009个probe被选做为query。
PRW:932个人,总共43110张被注释的图像。482个人的图像训练,450个人的图像用来测试。
评估度量:CMC和mAP
特征表示:使用了LOMO和IDE
4.2 在Market1501上的实验
...
4.3 在CUHK03上的实验
...
4.4 在MARS上的实验
...
4.5 在PRW上的实验
...
4.6参数分析
...
5.结论
在这篇论文中,我们解决了行人重识别中的重排问题,我们提出通过将k相互最近邻编码为单一向量以得到k相互特征,这样重排过程可以通过向量比较得到。为捕捉到相似样本的关系,提出了局部扩展查询以提高k相互特征的鲁棒性。最终的距离是初始距离与Jaccard距离的结合,在几个大型数据集的实验表明该种方法很有效。值得一提的是我们的方法完全是自动和无监督的,因此可以用于任何排序结果。
6.致谢
....