Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-id阅读笔记

最新推荐文章于 2022-12-04 00:36:16 发布

weixin_43876725

最新推荐文章于 2022-12-04 00:36:16 发布

阅读量488

点赞数 1

分类专栏：行人重识别

本文链接：https://blog.csdn.net/weixin_43876725/article/details/104856427

版权

行人重识别专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-identification(CVPR2019) 阅读笔记

原文链接：https://arxiv.org/abs/1904.00537

1. 简介

论文考虑了行人重识别的一个现实问题，局部行人重识别问题，如果直接将局部行人图像与整体的行人图像进行比较，空间错位问题将会极大地减弱特征学习的判别能力。提出了一个局部可视感知模型VPM，通过自监督学习感知可视区域内的特征。利用可视感知的特性，能够提取区域特征并比较两张图像的共享区域，从而在局部行人重识别问题上取得更好的表现。

创新点
(1) 提出局部可视感知模型VPM，与学习全局特征相比，通过学习图像的区域特征，可以更好的提取一些细粒度特征。

(2) 利用可视感知模型，VPM能够估计两个图像之间的共享区域，从而抑制空间错位问题。

2. 方法

2.1 VPM结构

在这里插入图片描述
如图2-1所示，首先在整个行人图片上划分p=mxn个矩形区域，图示为3x1区域，对于输入的局部行人图像，输入至堆叠的卷积层conv，采用ResNet-50的全部卷积层，VPM将输入的图像转换为3D的张量T，T的大小为cxhxw(通道数，高，宽)，取其中的c-dim向量g作为T上的一个像素，在张量T上，VPM增加了一个区域定位器检测每个区域，预测每个像素g属于某个区域的概率，区域定位器生成p个概率图用于推断每个区域的位置，通过对每个概率图的和操作生成p个可视分数。对于给定的预测概率图，通过权重池化(WP)，特征提取器对每个预先定义的区域提取各自的特征，VPM最终输出p个区域级别特征和p个可视分数。

区域定位器

区域定位器用于感知哪些区域是可视的，在张量T上预测他们的位置，区域定位器采用1*1卷积层和一个softmax函数用于将T上的每个像素g分类到预先定义的区域中，如式(1)所示。
在这里插入图片描述

区域特征提取器

区域特征提取其通过一个权重池化生成区域的特征f，定义如式(3)
在这里插入图片描述

2.2 VPM应用

在这里插入图片描述

2.3 训练VPM

训练VPM包含了训练区域分类器和区域特征提取器，区域分类器和区域特征提取器在张量T之间共享卷积层。

自监督学习

在这里插入图片描述

区域定位器

区域定位器通过交叉熵损失和自监督信号L进行训练，定义如式(5)
在这里插入图片描述

区域特征提取器

在这里插入图片描述

3 实验结果

像Market-1501，DukeMEMC-reID这种不是局部行人重数据集，在测试阶段，裁剪query图像上特定的块模仿部分行人重识别场景。训练阶段，原始的训练图像包含整个行人，用框框选行人。为了给VPM生成局部图像，从完整行人图像上随机裁剪，裁剪区域面积率为r，r分布在0.5到1之间。
为了与VPM进行比较，选取一个baseline，通过交叉损失和三元损失学习全局特征。另外选举局部特征学习方法PCB，为了公平比较，在训练阶段，为PCB增加一个三元损失函数，比较结果如表3-1所示。

在这里插入图片描述
通过表3-1可以看出，当r减少时，PCB方法的寻找准确率下降较大，表明PCB方法在空间不对齐的情况下鲁棒性差，与之相反的是，当r减小，VPM下降很小。当r=1时，相当于完整行人场景，VPM取得与PCB类似的准确率。
在这里插入图片描述
如图3-1所示，分析了划分区域数目p在Market-1501上的影响，在所有设置的p和r，VPM一直优于baseline，证明了VPM的优越性。另外p越大，rank-1的值越大，大的p可以使得VPM学习更加细粒度的区域级别特征，有着更加准确的区域对齐。设置p=6。

与当前最新的方法比较

在两个局部行人重数据集Partial-REID和Partial-iLID上比较VPM与最新的方法。不同的裁剪策略训练三种不同的VPM，顶部裁剪，底部裁剪，顶部裁剪+底部裁剪。结果如表3-2所示。
在这里插入图片描述
如表3-2所示，比较三种版本的VPM，其中在Partial-iLIDS，所有的query图像是顶部裁剪，获得最高的准确率。在Partial-REID中，包含从不同方向裁剪的图像，从顶部裁剪+底部裁剪获得最高的准确率。底部裁剪准确率低。

自监督重要性

MVPM-1是训练一个普通的VPM，但是在测试阶段舍弃了可视注意力，MVPM-1聚集了所有的区域级别特征的距离，即使有些区域是不可视的。
MVPM-2是在训练过程中舍弃了自监督的三元损失函数
MVPM-3是在训练过程中舍弃了自监督的身份损失函数L_ID。
MVPM-4舍弃了自监督舍弃了身份损失函数和三元损失函数。

在这里插入图片描述
如表3-3所示，在局部行人重识别场景和整体行人重识别场景，增加一个额外的三元损失函数增强了特征的区别能力。另外，将VPM与MVPM-1比较，MVPM-1在Partial-iLIDS上准确率下降很多，MVPM-1使用全部的区域特征去获得整体的距离，但是VPM是聚焦在共享区域，在Market-1501上，所有区域都是可视，两个模型取得了非常接近的准确率精度。所以，在局部行人重识别场景中，可视注意力对于VPM必不可少。
其次，将最后三个版本的MVPM与VPM比较，在Partial-iLIDS上准确率下降。因为从不可视区域中学习特征将会带来更多的噪声。所以，让VPM通过自监督聚焦在可视区域中去学习区域特征非常重要。

可视化发现的区域

将VPM发现的区域可视化，使用32的预先定义的区域。如图3-2所示，第一列为整体行人图像，VPM可以成功的划分32个区域，第二列是水平遮挡的图像，VPM主要发现集中的区域，即左边的区域，第三列，第四列是身体下方被遮挡，VPM可以发现4个可视区域，可以感知到底部的2个区域不可视。VPM能够获取鲁棒的区域可视注意力，能够定位可视区域位置。
在这里插入图片描述