Patch-based Discriminative Feature Learning for Unsupervised Person Re-identification(CVPR2019)阅读笔记

原文链接:http://openaccess.thecvf.com/content_CVPR_2019/papers/Yang_Patch-Based_Discriminative_Feature_Learning_for_Unsupervised_Person_Re-Identification_CVPR_2019_paper.pdf

1.摘要

在行人重识别问题里,尽管局部特征的方法有效,但是受限于需要成对的有标记的数据去训练,这些数据往往难以获得。在这项工作中,提出了一个基于块的无监督学习框架用于学习易于区分的图像块特征。设计了一个PatchNet用于从特征图中选取块,从这些块中学习易于区分的特征。另外设计了一个图像层面的特征损失函数,利用同一张图像的所有块特征合并为一个图像级别的向导用于PatchNet。

2.创新点

1)第一次论证了如何有效的在从标记的数据集上提取易于区分的块特征用于无监督的行人重识别。

2)提出了基于块特征的损失函数PEDAL和图像层面的块特征损失函数IPEL用于指导深度学习模型进行无监督的学习。

3.方法

在这里插入图片描述
PatchNet用于学习普遍的和易于区分的块特征,主体是CNN框架,使用预先在ImageNet训练的ResNet-50作为CNN的基本框架,移除最后一层的全连接层,最后一个残差块的步长设置为1,每个分支的输出维度为256。块生成网络PGN可以从特征图中生成不同的块。然后这个网络被分为几个分支,每个分支后加上一个平均池化层和一个卷积层。PatchNet首先是在其他有标签的数据集上预训练。

在未标记的数据集上,为了能够给PatchNet提供更多有效的指导,提出了PEDAL用于拉近相似的块并把不相似的块远离,同时,设计了IPEL利用同一张图片的所有块特征提供图像层面的指导。因为在没有标签的数据集上没有标签信息组成三元组,连接同一个图像的所有块特征,通过循环排列,去挖掘难以区分的负样本,为每张图像生成代理正样本。

3.1 块生成网络PGN

从特征图中选取块,因为这样做可以更高效,减少计算复杂度,如图3-1所示,PGN可以分为三个部分,一个定位网络(LN),块采样格点和采样器。首先,将特征输入到LN中,预测通过一系列仿射参数预测M个空间位置。LN是由一个卷积层和两个全连接层组成,然后,每个预测的仿射参数用于计算特征图上的采样格点用于组成块,最后,每张图像可以得到M个图像块。

3.2 易区分的块特征学习

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
将同一个人的图像分块,同一个图像上的不同块可能包含这个人的不同信息,拉近这些相似的块可以挖掘潜在的易于区分的特征,身份信息用于组合块,如图3-2(a)所示,尽管模型将不同身份的特征块拉在一起,都是穿着黄色的短袖,然后通过裤子仍然可以区分这些行人。

3.3 图像层面块特征学习

3.3.1在mini-batch中挖掘困难样本

在这里插入图片描述
在这里插入图片描述

3.3.2代理正样本

在本项工作中,定义了一系列随机变换生成代理正样本,对图片进行包含裁剪,缩放,旋转,亮度的调整等。为每一个真正的样本生成一个代理正样本。定义IPEL如式(3)。
在这里插入图片描述
其中,m是IPEL的边距,p_i是代理正样本的特征。

代理正样本只在IPFL中计算使用。PGN根据特征图为每张图片生成M个块。最后计算每个块的PEDAL,计算三元组的IPFL,总的损失函数定义如式(4)所示。
在这里插入图片描述

4. 实验结果

4.1 与最新的方法比较

在这里插入图片描述
在这里插入图片描述
由表4-1和表4-2可以看出,这项工作所提出的方法比其他的方法性能优越。聚类的方法像是PUL,CAMEL和DECAMEL可能给不同身份但是具有相似的图像赋予相同的伪标签。与迁移学习的方法相比较,包括PT-GAN,SPGAN-LMP,TJ-AIDL,HHL和SyRI,提升了很多。原因在于源域和目标域的图像差距比源域和目标中的图像块差距大,另外,PatchNet可以通过优化PEDAL和IPFL学习易于区分的特征。像是SyRI需要经过3个步骤的域迁移,但是这项工作可以直接在未标记的数据集上训练。TJ-AIDL与块特征类似,但是TJ-AIDL需要额外的属性标签。总的来说,这项工作能够学习不同数据集上的块级别的易于区分的特征,通过PEDAL和IPFL,PatchNet可以很方便的在一个未标记的数据集上训练。

4.2 消融实验

在这里插入图片描述

4.2.1 PEDAL的有效性

从表4-3中可以看出,PatchNet+L_c比PatchNet优越很多。主要的原因是PEDAL可以给PatchNet提供有效的指导,可以细化在未标记数据集上的块特征。如果将相似的人的图像拉近,即ResNet-50+L_c,比ResNet-50表现更差,这项实验证明了将图像特征拉近可能会模糊身份信息,使得相似的人不易区分。

4.2.2 IPEL的有效性
PatchNet+L_v比其他baseline的结果好,因为IPEL利用代理正样本和挖掘困难样本,能够给PatchNet提供有效的学习指导。

4.2.3 PEDAL和IPFL组合的有效性
PEDAL和IPEL组合与其他所有变量相比取得最好的结果,证明了这两种损失函数的互补性,因为他们作用在不同的级别上,即块级别和图像级别。

4.3 更深入的分析

4.3.1 可视化
在这里插入图片描述
为了更加深入的理解基于块的学习,如图4-1所示,第一行中,模型会把穿红色的短袖衫的块拉近,尽管可能会把不同人穿红色的短袖衫的块拉近,但是他们有其他易于区分的块,比如不同的裤子。如第二行所示,所以,仅仅从一个块学习是不足以区分身份的,组合不同的块可以更加深入的增加相似的人的易区分性。

4.3.2 PGN分析
为了验证PGN的有效性,比较了PGN和两种块生成方法,分别是随机从特征图选取M个块或者将特征图水平等分M个。从表4-4中可以看出,PGN比随机选择和水平等分的方法要好,因为PGN是可以学习的,可以自适应的调整块的位置去寻找更多有效的块。
在这里插入图片描述
在这里插入图片描述
4.3.3 PEDAL中参数k的影响
PEDAL中的参数k决定了目标块有多少个与之相似的其他图像的块,将这些块拉近,将其他块远离,如果k过小,IPFL可能会遗失一些相似的块,性能下降,相对的是,k过大,PEDAL可能拉近不相似的其他图像块,导致性能下降,从图4-2(a)中可以看出当kϵ[10,25],可以取得较好的结果。

4.3.4 IPFL中参数r的影响
小的r表明top-n近邻容易被认为是x_i的困难样本,很容易将同一个身份的另一个图片当成是困难样本。但是如果r过大,困难样本很容易本区分,从而使得CNN并不能很好的从中得到学习。如图4-2(b)所示,当rϵ[2,8]时,可以取得很好的改进。

4.3.5 PEDAL的权重参数
在这里插入图片描述
如图4-3所示,可以看出两种损失函数的组合可以取得更好的结果,PEDAL在PatchNet上贡献更加有效的指导。

4.3.6 本项方法的泛化性
在这里插入图片描述
在其他的行人重数据集上,如表4-5所示,包括CUHK01,CUHK03和VIPER,可以看出本项方法用相同的参数值在其他的数据集上泛化性好。

5. 结论

在这项工作中,验证了局部特征在无监督的行人重识别问题的有效性,提出的基于块的无监督学习框架PAUL,PatchNet用于从特征图采样块,学习在未标记的数据集上的易于区分的块特征。提出了两种不同层面的损失函数,即块级别和图像级别,有效的提高了无监督行人重识别模型的准确性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值