Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-identification(CVPR2019) 阅读笔记
原文链接:https://arxiv.org/abs/1904.00537
1. 简介
论文考虑了行人重识别的一个现实问题,局部行人重识别问题,如果直接将局部行人图像与整体的行人图像进行比较,空间错位问题将会极大地减弱特征学习的判别能力。提出了一个局部可视感知模型VPM,通过自监督学习感知可视区域内的特征。利用可视感知的特性,能够提取区域特征并比较两张图像的共享区域,从而在局部行人重识别问题上取得更好的表现。
创新点
(1) 提出局部可视感知模型VPM,与学习全局特征相比,通过学习图像的区域特征,可以更好的提取一些细粒度特征。
(2) 利用可视感知模型,VPM能够估计两个图像之间的共享区域,从而抑制空间错位问题。
2. 方法
2.1 VPM结构
如图2-1所示,首先在整个行人图片上划分p=mxn个矩形区域,图示为3x1区域,对于输入的局部行人图像,输入至堆叠的卷积层conv,采用ResNet-50的全部卷积层,VPM将输入的图像转换为3D的张量T,T的大小为cxhxw(通道数,高,宽),取其中的c-dim向量g作为T上的一个像素,在张量T上,VPM增加了一个区域定位器检测每个区域,预测每个像素g属于某个区域的概率,区域定位器生成p个概率图用于推断每个区域的位置,通过对每个概率图的和操作生成p个可视分数。对于给定的预测概率图,通过权重池化(WP),特征提取器对每个预先定义的区域提取各自的特征,VPM最终输出p个区域级别特征和p个可视分数。
区域定位器
区域定位器用于感知哪些区域是可视的,在张量T上预测他们的位置,区域定位器采用1*1卷积层和一个softmax函数用于将T上的每个像素g分类到预先定义的区域中,如式(1)所示。
区域特征提取器
区域特征提取其通过一个权重池化生成区域的特征f,定义如式(3)
2.2 VPM应用
2.3 训练VPM
训练VPM包含了训练区域分类器和区域特征提取器,区域分类器和区域特征提取器在张量T之间共享卷积层。
自监督学习
区域定位器
区域定位器通过交叉熵损失和自监督信号L进行训练,定义如式(5)
区域特征提取器
3 实验结果
像Market-1501,DukeMEMC-reID这种不是局部行人重数据集,在测试阶段,裁剪query图像上特定的块模仿部分行人重识别场景。训练阶段,原始的训练图像包含整个行人,用框框选行人。为了给VPM生成局部图像,从完整行人图像上随机裁剪,裁剪区域面积率为r,r分布在0.5到1之间。
为了与VPM进行比较,选取一个baseline,通过交叉损失和三元损失学习全局特征。另外选举局部特征学习方法PCB,为了公平比较,在训练阶段,为PCB增加一个三元损失函数,比较结果如表3-1所示。
通过表3-1可以看出,当r减少时,PCB方法的寻找准确率下降较大,表明PCB方法在空间不对齐的情况下鲁棒性差,与之相反的是,当r减小,VPM下降很小。当r=1时,相当于完整行人场景,VPM取得与PCB类似的准确率。
如图3-1所示,分析了划分区域数目p在Market-1501上的影响,在所有设置的p和r,VPM一直优于baseline,证明了VPM的优越性。另外p越大,rank-1的值越大,大的p可以使得VPM学习更加细粒度的区域级别特征,有着更加准确的区域对齐。设置p=6。
与当前最新的方法比较
在两个局部行人重数据集Partial-REID和Partial-iLID上比较VPM与最新的方法。不同的裁剪策略训练三种不同的VPM,顶部裁剪,底部裁剪,顶部裁剪+底部裁剪。结果如表3-2所示。
如表3-2所示,比较三种版本的VPM,其中在Partial-iLIDS,所有的query图像是顶部裁剪,获得最高的准确率。在Partial-REID中,包含从不同方向裁剪的图像,从顶部裁剪+底部裁剪获得最高的准确率。底部裁剪准确率低。
自监督重要性
- MVPM-1是训练一个普通的VPM,但是在测试阶段舍弃了可视注意力,MVPM-1聚集了所有的区域级别特征的距离,即使有些区域是不可视的。
- MVPM-2是在训练过程中舍弃了自监督的三元损失函数
- MVPM-3是在训练过程中舍弃了自监督的身份损失函数L_ID。
- MVPM-4舍弃了自监督舍弃了身份损失函数和三元损失函数。
如表3-3所示,在局部行人重识别场景和整体行人重识别场景,增加一个额外的三元损失函数增强了特征的区别能力。另外,将VPM与MVPM-1比较,MVPM-1在Partial-iLIDS上准确率下降很多,MVPM-1使用全部的区域特征去获得整体的距离,但是VPM是聚焦在共享区域,在Market-1501上,所有区域都是可视,两个模型取得了非常接近的准确率精度。所以,在局部行人重识别场景中,可视注意力对于VPM必不可少。
其次,将最后三个版本的MVPM与VPM比较,在Partial-iLIDS上准确率下降。因为从不可视区域中学习特征将会带来更多的噪声。所以,让VPM通过自监督聚焦在可视区域中去学习区域特征非常重要。
可视化发现的区域
将VPM发现的区域可视化,使用32的预先定义的区域。如图3-2所示,第一列为整体行人图像,VPM可以成功的划分32个区域,第二列是水平遮挡的图像,VPM主要发现集中的区域,即左边的区域,第三列,第四列是身体下方被遮挡,VPM可以发现4个可视区域,可以感知到底部的2个区域不可视。VPM能够获取鲁棒的区域可视注意力,能够定位可视区域位置。
4 结论
在该篇论文中,提出了基于区域的特征学习方法VPM,用于局部行人重任务。对于给定的预先在整体人物图像上定义的区域,VPM通过自监督学习感知局部图像哪些区域可视。VPM在特征图上定位每个区域,然后提取区域特征。通过可视化注意力,VPM通过共享区域比较两张行人图像,避免了区域不对齐问题。